최고 성능 코딩 모델
복잡한 에이전트(자동화 프로그램) 구축과 컴퓨터 활용에서 세계 최고 수준
추론·수학 능력도 크게 향상

주요 업그레이드 기능
클로드 코드: 체크포인트(작업 저장·되돌리기), 새 터미널 인터페이스, VS 코드 확장 프로그램
클로드 API: 문맥 편집·메모리 도구로 장시간·고난도 작업 가능
클로드 애플리케이션: 대화 내 코드 실행·파일 생성(스프레드시트, 슬라이드, 문서)
클로드 for Chrome: 대기자 명단 Max 사용자부터 제공

성능 지표 개선
SWE-bench Verified: 실제 소프트웨어 코딩 능력 최첨단, 30시간 이상 집중 유지 확인
OSWorld: 컴퓨터 활용 벤치마크 61.4% → 4개월 전 소넷 4(42.2%) 대비 대폭 상승
재무·법률·의학·과학기술(STEM) 전문가 평가: 오푸스 4.1 대비 도메인별 지식·추론 능력 현저히 향상

안전성과 정합성
아부·기만·권력 추구·망상 조장 등 문제적 행동 대폭 감소
프롬프트 주입 공격 방어 강화
AI 안전 수준 3(ASL-3) 적용, 위험 탐지 분류기 도입 (CBRN 무기 관련)
오탐지율: 최초 대비 10배, 오푸스 4 출시 이후 대비 2배 감소

클로드 에이전트 SDK 공개
장시간 메모리 관리, 권한 시스템, 다중 에이전트 조율 등 내부 인프라 개방
코딩뿐 아니라 다양한 과제에서 활용 가능

보너스 연구 프리뷰: ‘이매진 위드 클로드’
실시간 코드 생성 시연 (사전 기능 없음, 사용자 요청 즉시 반응)
5일간 Max 구독자 한정 제공, claude.ai/imagine 체험 가능

가격 및 제공 범위
소넷 4와 동일: 백만 토큰당 3달러/15달러
클로드 소넷 4.5는 API·앱·클로드 코드 전반에서 즉시 대체 사용 가능
코드 실행·파일 생성 기능은 모든 유료 요금제에서 지원

클로드 소넷 4.5(Claude Sonnet 4.5)는 세계 최고의 코딩(코드 작성) 모델입니다. 복잡한 에이전트(자동화 프로그램)를 구축하는 데 가장 강력한 모델이며, 컴퓨터를 다루는 데 있어서도 최고 수준을 보여줍니다. 또한 추론과 수학 능력에서 큰 향상을 입증했습니다.

코드는 모든 곳에 존재합니다. 우리가 사용하는 모든 응용 프로그램, 스프레드시트, 소프트웨어 도구는 코드 위에서 동작합니다. 이러한 도구를 능숙하게 활용하고, 복잡한 문제를 논리적으로 풀어내는 것이 현대 업무가 이루어지는 방식입니다.

클로드 소넷 4.5는 이를 가능하게 만듭니다. 이번에는 주요 제품 업그레이드와 함께 공개됩니다. 클로드 코드에는 가장 많은 요청을 받았던 기능 중 하나인 체크포인트 기능이 추가되었습니다. 이를 통해 작업 진행 상황을 저장하고, 즉시 이전 상태로 되돌릴 수 있습니다. 또한 터미널 인터페이스를 새롭게 개선했으며, VS 코드(VS Code) 전용 확장 프로그램도 제공됩니다.

클로드 API에는 문맥 편집 기능과 메모리 도구가 추가되어, 에이전트가 더 오랫동안 실행되고 더 높은 수준의 복잡성을 처리할 수 있습니다. 클로드 애플리케이션에서는 코드 실행과 파일 생성(스프레드시트, 슬라이드, 문서)을 대화 안에서 바로 수행할 수 있도록 했습니다. 또한 지난달 대기자 명단에 등록했던 Max 사용자에게는 크롬(Chrome) 확장 프로그램 클로드 for Chrome을 사용할 수 있게 했습니다.

우리는 또한 개발자들에게 클로드 코드를 만들 때 사용했던 핵심 구성 요소를 공개합니다. 이를 클로드 에이전트 SDK라고 부릅니다. 우리 최첨단 제품을 구동하는 기반 인프라, 그리고 이들이 잠재력을 최대한 발휘하도록 돕는 기술을 이제 누구나 활용해 새로운 것을 만들 수 있습니다.

이번에 출시한 모델은 지금까지 공개된 클로드 모델 중 가장 정합성이 높은 최첨단 모델입니다. 이전 모델과 비교했을 때 여러 영역에서 정합성의 큰 향상을 보여줍니다.

클로드 소넷 4.5는 오늘부터 전 세계에서 사용 가능합니다. 개발자는 클로드 API에서 claude-sonnet-4-5를 호출해 사용하면 됩니다. 가격은 클로드 소넷 4와 동일하게 백만 토큰당 3달러/15달러 수준으로 유지됩니다.

최첨단 지능

클로드 소넷 4.5는 실제 소프트웨어 코딩 능력을 측정하는 SWE-bench Verified 평가에서 최첨단(state-of-the-art) 성능을 보이고 있습니다. 실제 사례로, 복잡하고 여러 단계를 거치는 과제에서도 30시간 이상 집중력을 유지하는 모습을 확인했습니다.

클로드 소넷 4.5는 컴퓨터 활용 능력에서도 큰 도약을 이뤘습니다. 실제 컴퓨터 작업을 시험하는 벤치마크 OSWorld에서 소넷 4.5는 61.4%로 선두를 차지했습니다. 불과 4개월 전에는 소넷 4가 42.2%로 1위를 기록했었습니다. 이번 성능 향상은 클로드 for Chrome 확장 프로그램을 통해 그대로 활용할 수 있습니다. 아래 데모에서는 클로드가 브라우저에서 직접 작동하며, 웹사이트를 탐색하고, 스프레드시트를 채우고, 작업을 완료하는 과정을 보여줍니다.

또한, 이 모델은 추론과 수학을 포함한 폭넓은 평가에서 성능이 향상된 결과를 보였습니다.

여러 공개 평가에서 프런티어 모델 성능 비교 — 클로드 소넷 4.5가 가장 강력한 모델로 확인됨

재무, 법률, 의학, 과학기술(STEM) 분야 전문가들 또한 클로드 소넷 4.5가 이전 모델(예: 오푸스 4.1)에 비해 도메인별 지식과 추론 능력에서 현저히 향상된 성과를 보여준다고 평가했습니다.

지금까지 가장 정합성이 높은 모델

클로드 소넷 4.5는 지금까지 공개된 모델 중 가장 성능이 뛰어날 뿐 아니라, 가장 정합성이 높은 최첨단 모델입니다. 클로드의 향상된 능력과 광범위한 안전성 학습을 통해 모델의 행동을 크게 개선할 수 있었으며, 아부(sycophancy), 기만(deception), 권력 추구(power-seeking), 망상적 사고를 조장하는 경향과 같은 문제적 행동을 줄였습니다. 또한, 모델의 에이전트(Agentic) 기능과 컴퓨터 활용 능력에 대해서는 사용자에게 가장 심각한 위험 중 하나인 프롬프트 주입(prompt injection) 공격 방어에서 큰 진전을 이뤘습니다.

자세한 안전성 및 정합성 평가 결과는 클로드 소넷 4.5 시스템 카드(System Card)에서 확인할 수 있으며, 이번에는 처음으로 기계적 해석 가능성(mechanistic interpretability) 기법을 활용한 테스트도 포함되었습니다.

자동화된 행동 감사 도구에 따른 비정합적 행동 점수(낮을수록 더 나음). 비정합적 행동에는 기만, 아부, 권력 추구, 망상 조장, 유해한 시스템 지시에 대한 순응 등이 포함되며, 이에 한정되지 않습니다.

클로드 소넷 4.5는 우리의 AI 안전 수준 3(ASL-3) 보호 체계 아래 출시됩니다. 이는 모델의 기능과 적절한 안전 장치를 연결하는 우리의 프레임워크에 따른 것입니다. 이 안전 장치에는 분류기(classifier) 라는 필터가 포함되어 있는데, 이는 화학, 생물학, 방사선, 핵(CBRN) 무기와 관련된 위험한 입력과 출력을 탐지하는 데 중점을 둡니다.

이러한 분류기는 때때로 정상적인 콘텐츠를 잘못 표시할 수 있습니다. 이를 고려해 사용자가 중단된 대화를 소넷 4(CBRN 위험이 더 낮은 모델)로 계속 이어갈 수 있도록 했습니다. 우리는 이미 오탐(false positive)을 크게 줄이는 데 성과를 냈으며, 처음 문제를 공개했을 때보다 10배, 올해 5월 클로드 오푸스 4(Claude Opus 4)를 출시했을 때보다 2배 개선했습니다. 앞으로도 분류기가 더욱 정밀하게 작동하도록 지속적으로 개선해 나갈 예정입니다.

클로드 에이전트 SDK

우리는 지난 6개월 이상 클로드 코드를 지속적으로 개선해 왔으며, 이를 통해 AI 에이전트를 설계하고 구축하는 데 필요한 것이 무엇인지 잘 알고 있습니다. 우리는 어려운 문제들을 해결했습니다. 예를 들어, 장시간 실행되는 작업에서 에이전트가 메모리를 어떻게 관리해야 하는지, 자율성과 사용자 통제 간의 균형을 맞추는 권한 시스템을 어떻게 다루어야 하는지, 그리고 공통된 목표를 향해 여러 하위 에이전트를 어떻게 조율해야 하는지와 같은 문제들입니다.

이제 이러한 모든 것을 사용자에게 공개합니다. 클로드 에이전트 SDK는 클로드 코드를 구동하는 것과 동일한 인프라를 기반으로 하며, 단순히 코딩에 국한되지 않고 매우 다양한 과제에서 인상적인 효과를 발휘합니다. 오늘부터 누구나 이 SDK를 사용해 자신만의 에이전트를 만들 수 있습니다.

우리는 원하는 도구가 존재하지 않았기 때문에 클로드 코드를 만들었습니다. 에이전트 SDK는 여러분이 해결하고자 하는 문제에 대해, 우리와 마찬가지로 강력한 도구를 구축할 수 있는 기반을 제공합니다.

보너스 연구 프리뷰

클로드 소넷 4.5와 함께 우리는 “이매진 위드 클로드(Imagine with Claude)”라는 임시 연구 프리뷰를 공개합니다.

이 실험에서 클로드는 즉석에서 소프트웨어를 생성합니다. 기능이 사전에 정해져 있지 않고, 코드가 미리 작성되어 있는 것도 아닙니다. 사용자가 상호작용할 때 클로드가 실시간으로 창조하고, 요청에 맞춰 반응하며 적응합니다.

이는 클로드 소넷 4.5가 할 수 있는 것을 보여주는 흥미로운 시연이며, 강력한 모델과 적절한 인프라가 결합되었을 때 어떤 가능성이 열리는지를 확인할 수 있는 기회입니다.

“이매진 위드 클로드”는 앞으로 5일간 Max 구독자에게 제공됩니다. 사용자는 claude.ai/imagine에서 직접 체험할 수 있습니다.

추가 정보

모든 사용 사례에서 클로드 소넷 4.5로 업그레이드할 것을 권장합니다. 클로드 애플리케이션, API, 클로드 코드 어디에서든 소넷 4.5는 동일한 가격으로 훨씬 향상된 성능을 제공하는 대체 모델입니다. 클로드 코드 업데이트는 모든 사용자에게 제공되며, 클로드 에이전트 SDK를 포함한 클로드 개발자 플랫폼 업데이트는 모든 개발자가 이용할 수 있습니다. 코드 실행과 파일 생성 기능은 모든 유료 요금제의 클로드 애플리케이션에서 사용할 수 있습니다.