[릴리즈노트]앤트로픽 클로드(Claude) 4 모델 공개
※ 본문은 앤트로픽의 <Introducing Claude 4>를 신속하게 전달하기 위해 AI 번역 및 요약을 사용했습니다. 일부 문장에 오역이나 부자연스러운 표현이 있을 수 있으니 참고하시기 바랍니다.
[클로드 4 핵심 요약]
주요 특징 및 성능
Claude Opus 4
- 세계 최고 수준의 코딩 성능 제공
- 복잡하고 장시간 지속되는 작업 및 에이전트(Agent) 워크플로우에 강점
- SWE-bench(실제 소프트웨어 엔지니어링 과제)에서 72.5% 정확도, Terminal-bench(터미널 기반 코딩)에서 43.2% 정확도 기록
- 이전 Sonnet 모델 대비 장기 작업 집중력 및 지속성 대폭 향상
- 메모리 기능 강화: 로컬 파일 접근 시 ‘메모리 파일’ 생성 및 관리로 장기 맥락 유지 가능
Claude Sonnet 4
- Sonnet 3.7 대비 대폭 업그레이드(코딩 정확도 62.3% → 72.7%)
- 성능과 효율성의 균형 유지, 다양한 내부·외부 활용 사례에 적합
- 복잡한 지시사항 처리 및 문제 해결 능력 향상
- GitHub Copilot 등 주요 개발 도구에 적용 예정
신기능 및 개선점
도구 활용 및 병렬 실행
- 웹 검색 등 외부 도구 활용 가능(베타), 추론과 도구 사용을 번갈아가며 응답 품질 향상
- 도구 병렬 실행 지원, 복수 작업 동시 처리 가능
지시사항 준수 및 메모리
- 지시사항 정확도 향상, 개발자 제공 로컬 파일 접근 시 장기 기억력 및 일관성 강화
- Sonnet 3.7 대비 지름길/편법 사용 빈도 65% 감소(에이전트 작업 기준)
Claude Code 일반 공개
- VS Code, JetBrains 등 주요 개발 환경과 통합, 파일 내 직접 코드 수정 제안
- GitHub Actions, SDK 등 배경 작업 및 자동화 지원
API 확장
- 코드 실행, MCP 연결, 파일 API, 프롬프트 캐시 등 4가지 신규 기능 제공
가격 및 제공 방식
- Opus 4: 입력 100만 토큰당 $15, 출력 100만 토큰당 $75(이전 Opus와 동일)
- Sonnet 4: 입력 100만 토큰당 $3, 출력 100만 토큰당 $15(이전 Sonnet과 동일)
- 제공 플랫폼: Anthropic API, Amazon Bedrock, Google Cloud Vertex AI
이전 모델 및 경쟁 제품과의 비교
성능 비교
- SWE-bench 기준: Opus 4(72.5%), Sonnet 4(72.7%), Sonnet 3.7(62.3%), OpenAI Codex-1(72.1%), GPT-4.1(54.6%), Gemini 2.5 Pro(63.2%)
- 대부분의 벤치마크에서 기존 Sonnet 및 경쟁 모델 대비 우위
적합 사용자
- Opus 4: 장기 프로젝트, 복잡한 코딩, 연구, 과학적 발견 등 고난도 작업에 최적
- Sonnet 4: 일상적 개발, 빠른 응답 및 실용성 중시 사용자에게 적합
요약
Claude Opus 4와 Sonnet 4는 코딩, 추론, 에이전트 작업 등에서 업계 최고 수준의 성능과 실용성을 제공하며, 다양한 개발 환경과 통합 및 자동화 지원으로 개발자 경험을 크게 향상시킴. Opus 4는 복잡하고 장기적인 작업에, Sonnet 4는 일상적이고 신속한 작업에 특히 유용함.
오늘 저희는 클로드 오퍼스 4(Claude Opus 4)와 클로드 소네트 4(Claude Sonnet 4)라는 차세대 클로드 모델을 소개합니다. 이 모델들은 프로그래밍, 고도화된 추론, 인공지능 에이전트(AI agent) 분야에서 새로운 기준을 제시합니다.
클로드 오퍼스 4는 세계 최고의 프로그래밍 모델로, 복잡하고 장시간에 걸친 작업과 에이전트 업무 흐름에서 지속적으로 우수한 성능을 발휘합니다. 클로드 소네트 4는 클로드 소네트 3.7에 비해 크게 향상된 모델로, 더욱 뛰어난 프로그래밍 및 추론 능력을 제공하며, 사용자의 지시에 한층 더 정확하게 반응합니다.
모델과 함께 다음과 같은 새로운 기능도 발표합니다.
- 도구 활용을 통한 확장된 사고(베타): 두 모델 모두 웹 검색과 같은 도구를 활용하여 확장된 사고를 할 수 있습니다. 이를 통해 클로드는 추론과 도구 사용을 번갈아 수행하며, 보다 향상된 답변을 제공합니다.
- 새로운 모델 기능: 두 모델 모두 도구를 동시에 사용할 수 있으며, 지시 사항을 더욱 정확하게 따를 수 있습니다. 또한 개발자가 로컬 파일 접근을 허용할 경우, 중요한 정보를 추출하고 저장하여 맥락을 유지하고 시간이 지남에 따라 암묵적인 지식을 쌓는 등, 크게 향상된 기억 능력을 보여줍니다.
- 클로드 코드(Claude Code) 일반 공개: 연구 미리보기 기간 동안 많은 긍정적인 피드백을 받은 후, 개발자들이 클로드와 협업할 수 있는 방식을 확대합니다. 클로드 코드는 이제 깃허브 액션(GitHub Actions)을 통한 백그라운드 작업과 비주얼 스튜디오 코드(VS Code), 젯브레인즈(JetBrains)와의 기본 연동을 지원하여, 파일 내에서 직접 수정 사항을 표시함으로써 원활한 페어 프로그래밍을 제공합니다.
- 새로운 응용프로그램 인터페이스(API) 기능: 개발자들이 더욱 강력한 인공지능 에이전트(AI agent)를 구축할 수 있도록, 코드 실행 도구, MCP 커넥터, 파일 API, 최대 1시간 동안 프롬프트를 저장할 수 있는 기능 등 네 가지 새로운 기능을 앤트로픽(Anthropic) API에서 제공합니다.
클로드 오퍼스 4와 소네트 4는 두 가지 모드를 제공하는 하이브리드 모델입니다. 즉각적인 응답과 심층 추론을 위한 확장된 사고 모드를 모두 지원합니다. 프로(Pro), 맥스(Max), 팀(Team), 엔터프라이즈(Enterprise) 클로드 요금제에는 두 모델과 확장된 사고 기능이 포함되어 있으며, 소네트 4는 무료 사용자도 이용할 수 있습니다. 두 모델 모두 앤트로픽 API, 아마존 베드록(Amazon Bedrock), 구글 클라우드 버텍스 에이아이(Google Cloud Vertex AI)에서 사용할 수 있습니다. 가격은 이전 오퍼스 및 소네트 모델과 동일하게, 오퍼스 4는 백만 토큰당 입력 15달러, 출력 75달러, 소네트 4는 입력 3달러, 출력 15달러입니다.
클로드 4
클로드 오퍼스 4(Claude Opus 4)는 지금까지 출시된 모델 중 가장 강력하며, 세계 최고의 프로그래밍 모델입니다. SWE-벤치(SWE-bench)에서 72.5%, 터미널-벤치(Terminal-bench)에서 43.2%의 성능을 기록하며 선도적인 위치를 차지하고 있습니다. 이 모델은 수천 단계에 걸친 집중적인 노력이 필요한 장시간 작업에서도 지속적인 성능을 발휘할 수 있으며, 여러 시간 동안 연속적으로 작업할 수 있는 능력을 갖추고 있습니다. 이는 모든 소네트(Sonnet) 모델을 압도적으로 능가하며, 인공지능 에이전트(AI agent)가 수행할 수 있는 범위를 크게 확장합니다.
클로드 오퍼스 4는 프로그래밍과 복잡한 문제 해결에 탁월하여, 최첨단 에이전트 제품의 기반이 되고 있습니다. 커서(Cursor)는 이 모델을 프로그래밍 분야에서 최첨단이며, 복잡한 코드베이스(codebase) 이해에 있어 비약적인 발전이라고 평가했습니다. 레플릿(Replit)은 여러 파일에 걸친 복잡한 변경 작업에서 정밀도가 향상되고, 혁신적인 발전이 이루어졌다고 보고했습니다. 블록(Block)은 자체 에이전트인 구스(goose)에서 코드 편집 및 디버깅 과정에서 코드 품질을 처음으로 향상시키면서도, 완전한 성능과 신뢰성을 유지한 모델이라고 평가했습니다. 라쿠텐(Rakuten)은 오픈소스 리팩터링(refactor) 작업을 7시간 동안 독립적으로 수행하며, 지속적인 성능을 입증했습니다. 코그니션(Cognition)은 오퍼스 4가 다른 모델이 해결하지 못하는 복잡한 과제를 해결하는 데 뛰어나며, 이전 모델이 놓쳤던 중요한 작업도 성공적으로 처리한다고 언급했습니다.
클로드 소네트 4(Claude Sonnet 4)는 소네트 3.7의 업계 최고 수준의 성능을 크게 개선하였으며, SWE-벤치에서 72.7%의 최첨단 성능을 보이며 프로그래밍에서 뛰어난 성과를 보입니다. 이 모델은 내부 및 외부 다양한 활용 사례에서 성능과 효율성을 균형 있게 제공하며, 구현에 대한 제어력(steerability)이 향상되어 더 높은 수준의 조정이 가능합니다. 대부분의 분야에서 오퍼스 4에는 미치지 못하지만, 능력과 실용성의 최적의 조합을 제공합니다.
깃허브(GitHub)는 클로드 소네트 4가 에이전트 기반 시나리오에서 뛰어난 성과를 보이며, 새로운 프로그래밍 에이전트인 깃허브 코파일럿(GitHub Copilot)의 기반 모델로 도입할 예정이라고 밝혔습니다. 매너스(Manus)는 복잡한 지시 사항을 따르는 능력, 명확한 추론, 미려한 결과물에서의 개선을 강조했습니다. 아이젠트(iGent)는 소네트 4가 자율적인 다기능 앱 개발, 문제 해결, 코드베이스 탐색에서 크게 향상되었으며, 탐색 오류를 20%에서 거의 0에 가깝게 줄였다고 보고했습니다. 소스그래프(Sourcegraph)는 이 모델이 소프트웨어 개발에서 비약적인 발전을 보여주며, 더 오랜 시간 집중력을 유지하고, 문제를 더 깊이 이해하며, 더 우아한 코드 품질을 제공한다고 평가했습니다. 어그먼트 코드(Augment Code)는 성공률이 높아지고, 더 정밀한 코드 수정과 복잡한 작업에서의 신중한 접근으로, 자사의 주요 모델로서 최고의 선택이 되었다고 밝혔습니다.
이러한 모델들은 고객의 인공지능 전략 전반을 한 단계 끌어올리고 있습니다. 오퍼스 4는 프로그래밍, 연구, 글쓰기, 과학적 발견 등에서 한계를 뛰어넘으며, 소네트 4는 소네트 3.7에서 즉시 업그레이드된 형태로 일상적인 활용 사례에 최첨단 성능을 제공합니다.


모델 개선 사항
도구 활용을 통한 확장된 사고, 도구의 병렬 실행, 기억력 향상 외에도, 이번 모델에서는 작업을 완료하기 위해 지름길이나 허점을 이용하는 행동이 크게 줄었습니다. 특히, 에이전트 과제에서 이러한 행동이 발생할 가능성이 소네트 3.7 대비 65% 감소하였습니다.
클로드 오퍼스 4는 기억력 측면에서도 모든 이전 모델을 압도적으로 능가합니다. 개발자가 클로드에 로컬 파일 접근 권한을 제공하면, 오퍼스 4는 주요 정보를 저장하는 ‘기억 파일’을 생성 및 유지하는 데 능숙해집니다. 이를 통해 장기 과제 인식, 일관성, 에이전트 과제에서의 성능이 크게 향상됩니다. 예를 들어, 오퍼스 4는 포켓몬 게임을 플레이하면서 ‘네비게이션 가이드’를 직접 생성하는 등, 장기적 맥락을 유지하는 데 뛰어난 능력을 보입니다.

또한, 클로드 4 모델에는 사고 요약(Thinking Summaries) 기능이 도입되었습니다. 이 기능은 작은 모델을 활용해 긴 사고 과정을 간결하게 요약합니다. 전체 사고 과정 중 약 5% 정도만 요약이 필요하며, 대부분의 사고 과정은 충분히 짧아 전체를 그대로 표시할 수 있습니다. 고급 프롬프트 엔지니어링을 위해 원본 사고 과정을 모두 필요로 하는 사용자는, 새로운 개발자 모드(Developer Mode)를 통해 완전한 접근 권한을 유지할 수 있도록 영업팀에 문의하실 수 있습니다.
클로드 코드(Claude Code)
클로드 코드는 이제 일반적으로 제공되며, 터미널, 선호하는 통합 개발 환경(IDE), 그리고 클로드 코드 소프트웨어 개발 키트(SDK)를 통한 백그라운드 실행 등 개발 업무 전반에 클로드의 강력한 기능을 제공합니다.
비주얼 스튜디오 코드(VS Code)와 젯브레인즈(JetBrains)용 신규 베타 확장 프로그램을 통해, 클로드 코드를 IDE에 직접 통합할 수 있습니다. 클로드가 제안하는 수정 사항은 파일 내에 바로 표시되어, 익숙한 에디터 환경에서 코드 리뷰와 변경 추적이 더욱 간편해집니다. IDE 터미널에서 클로드 코드를 실행하면 설치가 완료됩니다.
IDE 환경을 넘어, 확장 가능한 클로드 코드 SDK도 출시되어, 동일한 핵심 에이전트를 활용해 사용자가 직접 에이전트나 응용프로그램을 개발할 수 있습니다. 또한 SDK의 활용 예시로, 깃허브(GitHub)용 클로드 코드가 베타 버전으로 공개되었습니다. 클로드 코드를 PR(풀 리퀘스트)에 태그하면, 리뷰어 피드백에 응답하거나, CI 오류를 수정하거나, 코드를 변경할 수 있습니다. 설치를 위해서는 클로드 코드 내에서 /install-github-app 명령어를 실행하시면 됩니다.
시작하기
이번에 공개된 모델들은 가상 협업자(Virtual Collaborator)로 한 걸음 더 나아간 결과물입니다. 이 모델들은 전체 맥락을 유지하고, 장기 프로젝트에도 집중력을 지속하며, 혁신적인 변화를 이끌어낼 수 있습니다. 또한, 광범위한 테스트와 평가를 거쳐 위험을 최소화하고 안전성을 극대화하였으며, ASL-3(인공지능 안전 등급 3)과 같은 더 높은 수준의 인공지능 안전 조치도 적용하였습니다.
여러분이 어떤 창의적인 결과를 만들어낼지 기대하고 있습니다. 지금 바로 클로드(Claude), 클로드 코드(Claude Code), 또는 원하는 플랫폼에서 시작해 보시기 바랍니다.
언제나 여러분의 소중한 피드백이 저희의 발전에 큰 도움이 됩니다.