※ 본문은 Anthropic의 <Introducing Claude Opus 4.6>를 신속하게 전달하기 위해 AI 번역 및 요약을 사용했습니다. 요즘IT 실무자에게 필요한 정보 전달을 위해 내용을 일부 생략하고 배치를 조정했습니다. GPT-5.2를 활용해 번역 및 요약했습니다.
[Claude Opus 4.6 요약]
핵심
- Claude Opus 4.6은 이전 모델(Opus 4.5) 대비 코딩 능력과 자율 작업 지속 시간이 향상됨
- Opus 계열 최초로 100만 토큰 문맥 창(베타) 지원
- 대형 코드 기반에서도 안정적으로 동작하며, 코드 검토·오류 수정 능력 개선
긴 문맥 처리 능력 개선
- 수십만 토큰 규모 문서에서도 정보 추적 능력 향상
- 이전 모델에서 발생하던 ‘문맥 열화’ 현상 감소
- 숨겨진 세부 정보 탐색 능력 강화
일상 업무 활용 범위 확대
- 재무 분석, 조사, 문서·표 계산 문서·발표 자료 생성 가능
- Cowork 환경에서 여러 작업을 자율적으로 병렬 수행
개발자 기능 변화(API 기준)
- 적응형 사고: 필요할 때만 깊은 추론 수행
- 노력 수준 4단계(낮음·중간·높음·최대)로 비용·속도 조절 가능
- 문맥 압축 기능으로 장시간 작업 지원
- 최대 출력 길이: 12만 8천 토큰
제품 기능 업데이트
- Claude Code에서 여러 에이전트를 팀처럼 병렬 실행 가능
- Excel 기능 개선: 계획 수립, 비정형 데이터 구조화, 다단계 작업 처리
- PowerPoint 기능(연구용 미리보기): 데이터 기반 발표 자료 자동 생성
안전성 변화
- 속임수, 망상 조장, 악용 협조 등 부적절 행동 비율 감소
- Opus 4.5와 같은 수준의 정렬 상태 유지
- 과잉 거부 비율은 최근 모델 중 가장 낮음
가격 및 출시
- 가격: 백만 토큰당 입력 5달러 / 출력 25달러 (기존과 동일)
- claude.ai, API, 주요 클라우드에서 즉시 사용 가능
우리는 가장 뛰어난 성능의 모델을 한 단계 더 끌어올립니다.
새로운 Claude Opus 4.6은 이전 모델보다 코딩 능력이 향상되었습니다. 더 신중하게 계획을 세우고, 자율적으로 수행하는 작업을 더 오래 이어갈 수 있으며, 큰 코드 기반에서도 더 안정적으로 동작합니다. 또한 코드 검토와 오류 수정 능력이 좋아져 스스로의 실수를 더 잘 찾아냅니다. 그리고 Opus 계열 모델 최초로, 베타 단계에서 100만 토큰 문맥 창(context window)을 지원합니다.
Opus 4.6은 향상된 능력을 다양한 일상 업무에도 적용할 수 있습니다. 재무 분석을 수행하고, 조사를 진행하며, 문서·표 계산 문서(스프레드시트)·발표 자료를 사용하거나 새로 만들 수 있습니다. Claude가 자율적으로 여러 작업을 동시에 수행하는 환경인 Cowork 안에서는, Opus 4.6이 이러한 능력을 종합적으로 활용해 사용자를 대신해 일을 처리할 수 있습니다.
이 모델은 여러 평가에서 최상위 수준의 성능을 보입니다. 예를 들어, 자율 코딩 평가인 Terminal-Bench 2.0에서 최고 점수를 기록했으며, 복잡한 여러 분야 추론 시험인 Humanity’s Last Exam에서도 모든 최신 모델 가운데 선두를 차지했습니다. 금융, 법률 등 경제적 가치가 높은 지식 업무 수행 능력을 평가하는 GDPval-AA에서는 업계에서 그다음으로 높은 성능의 모델(OpenAI의 GPT-5.2)보다 약 144점, 자체 이전 모델(Claude Opus 4.5)보다 190점 높은 점수를 기록했습니다. 또한 온라인에서 찾기 어려운 정보를 찾아내는 능력을 측정하는 BrowseComp에서도 다른 어떤 모델보다 높은 성능을 보였습니다.
공개된 상세 시스템 카드에서 확인할 수 있듯이, Opus 4.6은 여러 안전성 평가에서 부적절한 행동 비율이 낮게 나타나며, 업계의 다른 최신 모델과 비교해도 같거나 더 우수한 전반적인 안전성을 보여줍니다.

Claude Code에서는 이제 여러 에이전트(agent)로 팀을 구성해 함께 작업을 수행할 수 있습니다. 응용 프로그램 연결 환경(API)에서는 Claude가 컴팩션(compaction) 기능을 사용해 자신의 문맥을 스스로 요약하고, 제한에 걸리지 않으면서 더 오래 이어지는 작업을 수행할 수 있습니다. 또한 모델이 확장 사고(extended thinking)를 어느 정도까지 사용할지 문맥 단서로 판단하는 적응형 사고(adaptive thinking)를 새로 도입했으며, 개발자가 지능 수준, 속도, 비용을 더 세밀하게 조절할 수 있도록 노력 제어(effort controls)도 함께 제공합니다.
Excel에서의 Claude 기능도 크게 개선했고, PowerPoint용 Claude는 연구용 미리보기 형태로 공개합니다. 이를 통해 Claude는 일상 업무를 처리하는 능력이 훨씬 강화됩니다.
Claude Opus 4.6은 오늘부터 claude.ai, 응용 프로그램 연결 환경(API), 그리고 주요 클라우드 플랫폼 전반에서 사용할 수 있습니다. 개발자라면 Claude API에서 claude-opus-4-6를 사용하세요. 가격은 그대로이며, 백만 토큰당 5달러/25달러입니다. 자세한 내용은 가격 안내 페이지에서 확인할 수 있습니다.
아래에서는 모델 자체와 새 제품 업데이트, 평가 결과, 그리고 폭넓은 안전성 시험 내용을 자세히 다룹니다.
우리는 Claude를 만들 때 Claude를 사용합니다. 우리 엔지니어들은 매일 Claude Code로 코드를 작성하며, 모든 새 모델은 먼저 내부 업무에 적용해 시험합니다. Opus 4.6을 사용해 보니, 이 모델은 별도의 지시가 없어도 작업에서 가장 어려운 부분에 더 집중하고, 비교적 단순한 부분은 빠르게 처리하며, 모호한 문제도 더 나은 판단으로 해결하고, 긴 세션에서도 생산성을 유지하는 모습을 보였습니다.
Opus 4.6은 종종 더 깊이 생각하고, 답을 내리기 전에 자신의 추론을 더 신중하게 다시 검토합니다. 이런 특성은 어려운 문제에서 더 좋은 결과를 만들어내지만, 단순한 작업에서는 비용과 지연 시간이 늘어날 수 있습니다. 만약 특정 작업에서 모델이 지나치게 오래 생각한다고 느껴진다면, 기본 설정인 높은 수준에서 중간 수준으로 노력 값을 낮추는 것을 권장합니다. 이는 /effort 매개값을 통해 간단히 조절할 수 있습니다.
자율 코딩, 컴퓨터 사용, 도구 활용, 검색, 재무 업무 전반에 걸쳐 Opus 4.6은 업계 최고 수준의 모델이며, 많은 항목에서 큰 격차로 앞서 있습니다. 아래 표는 다양한 벤치마크에서 Claude Opus 4.6이 이전 모델과 다른 업계 모델들과 비교해 어떤 성능을 보이는지 정리한 것입니다.

Opus 4.6은 대규모 문서 집합에서 관련 정보를 찾아내는 능력이 크게 향상되었습니다. 이 성능은 긴 문맥을 다루는 작업에서도 이어지는데, 수십만 토큰에 달하는 정보도 흐트러짐 없이 유지하고 추적하며, Opus 4.5조차 놓치던 깊이 숨겨진 세부 정보까지 찾아냅니다.
AI 모델에 자주 제기되는 불만 가운데 하나는 ‘문맥 열화(context rot)’입니다. 대화가 일정 토큰 수를 넘어서면 성능이 떨어지는 현상을 말합니다. Opus 4.6은 이전 모델보다 이 부분에서 눈에 띄게 개선되었습니다. 방대한 텍스트 속에 숨겨진 정보를 찾아내는 능력을 시험하는 MRCR v2의 ‘8개 바늘·100만 토큰’ 변형 시험에서 Opus 4.6은 76%를 기록한 반면, Sonnet 4.5는 18.5%에 그쳤습니다. 이는 모델이 실제로 활용할 수 있는 문맥의 양과, 최고 성능을 유지하는 능력에서 질적인 변화가 있었음을 보여줍니다.
종합하면, Opus 4.6은 긴 문맥 전반에서 정보를 더 잘 찾아내고, 그 정보를 바탕으로 더 뛰어난 추론을 수행하며, 전반적으로 전문가 수준의 추론 능력이 크게 향상된 모델입니다.
이러한 지능 향상은 안전성을 희생하면서 얻은 결과가 아닙니다. 자동 행동 감사에서 Opus 4.6은 속임수, 비위 맞추기, 사용자 망상 조장, 악용 협조 같은 부적절한 행동의 비율이 낮게 나타났습니다. 전반적으로 지금까지 가장 정렬도가 높았던 최신 모델인 Claude Opus 4.5와 같은 수준의 정렬 상태를 유지하고 있습니다. 또한 Opus 4.6은 무해한 질문에도 답을 거부하는 ‘과잉 거부’ 비율이 최근 Claude 모델 가운데 가장 낮게 나타났습니다.

Claude Opus 4.6에는 지금까지 어떤 모델보다도 폭넓은 안전성 평가를 적용했습니다. 여러 새로운 시험을 처음 도입했고, 기존에 사용하던 평가도 강화했습니다. 사용자 안녕을 위한 새로운 평가, 잠재적으로 위험한 요청을 거부하는 능력을 더 복잡하게 시험하는 항목, 그리고 은밀하게 해로운 행동을 수행하려는 능력을 점검하는 평가를 업데이트해 포함했습니다. 또한 모델이 특정 방식으로 행동하는 이유를 이해하기 위해, AI 모델 내부 작동을 연구하는 해석 가능성 분야의 새로운 방법도 실험적으로 적용했습니다. 이를 통해 기존 시험으로는 놓칠 수 있는 문제를 찾아내려 했습니다.
모든 성능 및 안전성 평가에 대한 자세한 설명은 Claude Opus 4.6 시스템 카드에서 확인할 수 있습니다.
또한 Opus 4.6이 특히 강점을 보이는 영역 가운데, 유익한 용도뿐 아니라 위험하게 사용될 가능성이 있는 분야에는 새로운 보호 장치를 적용했습니다. 특히 모델의 사이버 보안 능력이 향상된 점을 고려해, 다양한 형태의 악용 가능성을 추적할 수 있도록 여섯 가지 새로운 사이버 보안 탐지 시험을 개발했습니다.
우리는 모델을 사이버 방어에 활용하는 노력도 가속하고 있습니다. 오픈소스 소프트웨어의 취약점을 찾고 수정하는 데 모델을 활용하고 있으며, 이에 대해서는 별도의 사이버 보안 블로그 글에서 설명하고 있습니다. 우리는 사이버 방어자들이 Claude 같은 AI 모델을 활용해 경쟁 환경의 균형을 맞추는 것이 중요하다고 생각합니다. 사이버 보안 환경은 빠르게 변화하므로, 잠재적 위협에 대해 더 많이 알게 되는 대로 보호 장치를 계속 조정하고 업데이트할 것입니다. 가까운 시일 내에는 악용을 차단하기 위한 실시간 개입 기능도 도입할 수 있습니다.
우리는 Claude, Claude Code, 그리고 Claude 개발자 플랫폼 전반에 걸쳐 큰 폭의 업데이트를 진행해 Opus 4.6이 최고의 성능을 발휘할 수 있도록 했습니다.
응용 프로그램 연결 환경(API)에서는 개발자가 모델의 노력 수준을 더 세밀하게 조절하고, 오래 이어지는 에이전트 작업을 더 유연하게 수행할 수 있도록 다음 기능을 새로 도입했습니다.
적응형 사고(adaptive thinking)
이전에는 확장 사고(extended thinking)를 켜거나 끄는 이분법적 선택만 가능했습니다. 이제는 적응형 사고를 통해 Claude가 언제 더 깊은 추론이 필요한지 스스로 판단합니다. 기본 노력 수준(높음)에서는 필요할 때 확장 사고를 사용하며, 개발자는 노력 수준을 조절해 선택 기준을 더 엄격하거나 느슨하게 만들 수 있습니다.
노력 수준(effort)
이제 선택 가능한 노력 수준이 네 가지로 늘었습니다. 낮음, 중간, 높음(기본값), 최대 단계가 있으며, 개발자에게는 다양한 설정을 시험해 최적의 값을 찾는 것을 권장합니다.
문맥 압축(context compaction, 베타)
오래 이어지는 대화나 자율 작업은 종종 문맥 창 한계에 도달합니다. 문맥 압축 기능은 대화가 설정한 임계치에 가까워지면 오래된 문맥을 자동으로 요약해 교체함으로써, 한계에 걸리지 않고 더 긴 작업을 수행할 수 있도록 합니다.
100만 토큰 문맥(베타)
Opus 4.6은 Opus 계열 최초로 100만 토큰 문맥을 지원합니다. 입력이 20만 토큰을 초과하는 경우에는 프리미엄 요금이 적용되며, 백만 토큰당 입력 10달러, 출력 37.5달러가 부과됩니다.
출력 12만 8천 토큰 지원
Opus 4.6은 최대 12만 8천 토큰의 출력을 지원합니다. 덕분에 대량 출력을 여러 요청으로 나누지 않고 한 번에 처리할 수 있습니다.
미국 전용 추론(US-only inference)
미국 내에서만 작업을 처리해야 하는 업무를 위해, 미국 전용 추론 기능을 제공합니다. 이 기능은 토큰 요금의 1.1배가 적용됩니다.
Claude와 Claude Code 전반에 걸쳐, 지식 노동자와 개발자가 일상적으로 사용하는 도구를 바탕으로 더 어려운 작업을 처리할 수 있도록 여러 기능을 추가했습니다.
Claude Code에는 연구용 미리보기 형태로 에이전트 팀 기능을 도입했습니다. 이제 여러 에이전트를 동시에 실행해 팀처럼 병렬 작업을 수행하고, 자율적으로 협업하도록 할 수 있습니다. 이는 코드 기반 검토처럼 독립적으로 나눌 수 있고 읽기 중심인 작업에 특히 적합합니다. 또한 Shift+위/아래 또는 tmux를 사용해 각 하위 에이전트를 직접 제어할 수도 있습니다.
Claude는 이제 기존에 사용하던 사무용 도구와도 더 잘 연동됩니다. Excel용 Claude는 긴 작업이나 난이도 높은 작업에서도 성능이 개선되었으며, 실행 전에 계획을 세우고, 구조가 없는 데이터를 받아 적절한 구조를 스스로 추론하며, 여러 단계의 변경 작업도 한 번에 처리할 수 있습니다.
여기에 PowerPoint용 Claude를 함께 사용하면, 먼저 Excel에서 데이터를 처리하고 구조를 잡은 뒤, 이를 PowerPoint에서 시각적으로 표현할 수 있습니다. Claude는 레이아웃, 글꼴, 슬라이드 마스터를 읽어 브랜드에 맞는 결과물을 유지하며, 템플릿 기반 작업은 물론 설명만으로 전체 발표 자료를 생성할 수도 있습니다. PowerPoint용 Claude는 현재 Max, Team, Enterprise 요금제에서 연구용 미리보기로 제공됩니다.