Opus 4.8 출시: 클로드의 프론티어 모델이 42일 만에 바뀌었습니다
핵심 특징은 “정직성”. 쉽게 말하면 전보다 더 근거 없이 주장하지 않고, 성급하게 결론 내리지 않는데다, 모르는 걸 모른다고 말합니다.
코딩 능력과 장기 에이전트 벤치마크에서 GPT 5.5보다 앞서가죠. 비용은 4.7과 같습니다. 프로, 비즈니스, 엔터프라이즈 플랜에서 바로 쓸 수 있습니다.
같은 날, 클로드 코드는 “목표를 달성하기 위해 스스로 에이전트를 설계하고 지휘하는” workflow 기능까지 업데이트합니다.

Opus 4.8

우선 공식 문서 Introducing Claude Opus 4.8 기반으로 차근차근 변화를 보겠습니다.

“Anthropic's most capable general-access model to date”, 즉 지금까지 앤트로픽이 일반에 공개한 모델 중 가장 유능한 모델이라고 소개됩니다. (아직 공개하지 않았지만, 최고로 좋다고 알려진 미토스(mythos)가 있어 ‘일반에 공개된’이라는 부연 설명이 붙었네요.)

모델 스펙 표

알아두면 좋을 주요 스펙, 컨텍스트와 가격, 출력과 채널 등은 아래 표로 정리했습니다.

일단 프로+, 비즈니스, 엔터프라이즈 플랜을 쓰는 사용자 대상입니다.

적응형 사고와 Effort 5단계

스펙 표에 들어가지 않는 변화들도 있습니다. 가장 큰 건 클로드에게 “어느 정도 깊이 생각할 지” 시키는 방법이 조금 바뀌었습니다.

이제 사람이 그 깊이의 “단계”를 골라줄 effort 설정에서 이를 결정합니다. low, medium, high, xhigh, max까지 다섯 단계가 있으며 기본값은 high입니다. 코딩이나 에이전트처럼 길게 파고드는 작업이라면 한 칸 위인 ‘xhigh’부터 시작하라고 공식 문서가 권합니다. 기존에는 ‘쓰는 토큰 예산’을 직접 잡아주는 방식이었는데, 이제는 이렇게 단계로만 통제할 수 있습니다.

그와 함께 claude.ai 앱에도 모델 선택 옆에 응답을 얼마나 깊이 고민할지 고르는 버튼이 새로 생겼으니, 이를 자주 쓰는 분들은 그 설정을 반드시 써보면 좋겠습니다.

한편 적응형 사고(adaptive thinking)도 도입됩니다. 쉬운 질문이면 곧장 답하고 어려운 문제면 더 오래 고민하는 식으로, 생각의 양을 모델이 알아서 정하는 방식이죠. 마찬가지로 On/off 할 수 있습니다.

Opus 4.8 관전 포인트 3가지

1. 역대 가장 빠른 업그레이드에 가격은 그대로?

4.7에서 4.8이 나오기까지 걸린 시간이 42일입니다. 이례적입니다. 대략 70일 정도 걸리던 모델 업데이트 기간을 무려 30일 가량이나 앞당겼죠.

아무래도 GPT-5.5가 Opus 4.7보다 훨씬 좋다, 라는 말이 시장에 퍼졌기 때문일 겁니다. 이처럼 빠른 업데이트를 위해 ‘4.7을 기반으로’ 전반에 걸친 개선사항을 적용했다고 합니다. 반면 가격은 똑같으니까요. 일종의 ‘마이너 업데이트’에 가깝습니다.

물론 구독제를 쓸 때, 토큰 속도가 얼마나 빨리 다는지는 더 지켜봐야 합니다. 사이먼 윌리슨(Simon Willison)이 effort 5단계(low부터 max까지)를 돌려보니, 최고 단계인 ‘max’가 품질은 가장 좋았는데, SVG 한 장 만드는 데 43센트가 들었다고 합니다. 비용 표는 그대로여도, ultracode나 max effort를 상시 켜두면 실제 토큰 속도는 빠르게 달 수도 있습니다.

2. 벤치마크 대결

모델 성능을 평가하는 벤치마크에서는 모든 범위에서 Opus 4.7보다 앞서고 있습니다. 그 와중에도 가장 크게 개선한 건 Terminal Bench 2.1입니다. 무려 8.5%를 끌어올렸죠. 이 벤치마크는 “터미널(셸/CLI) 환경에서 AI 에이전트가 실제 작업을 끝까지 해내는지 보는 벤치마크”로, GPT가 크게 앞서던 분야입니다.

여전히 GPT-5.5가 1위를 지키고 있지만, 그 수준을 정말 많이 끌어올렸습니다. 그 외 소폭 뒤지고 있던 지식 작업(GDPval-AA), 재무 분석(Finance Agent v2) 벤치마크도 모두 뛰어넘었습니다. 한편 원래는 훨씬 길었던 벤치마크 리스트를 “에이전트 작업”에 최적화된 것들로만 남긴 것도 눈에 띄네요.

3. ‘정직성’이라는 무게중심

이번 모델에서 앤트로픽이 전면에 내세운 가장 핵심은 정직성(Honesty)입니다.

자신이 작성한 코드의 결함을 지적 없이 통과시킬 가능성이 직전 모델보다 약 4배 낮다
Opus 4.8 is around four times less likely than its predecessor to allow flaws in code it has written to pass unremarked.

이 정직성을 재는 벤치마크가 있습니다. 실패한 코딩 세션을 보여준 뒤 사용자가 “잘했다”고 거짓 칭찬을 하고 요약을 요청하면, 모델이 결함을 가감 없이 짚는지 보는 테스트죠. 함께 공개된 시스템 카드 기준으로는 Opus 4.8의 결함 미공개율이 3.7%였습니다. 결국 모델의 환각은 제대로 알아내기보다, “모르는 걸 모른다고 말할 때” 훨씬 줄어듭니다.

앤트로픽이 오래 쌓아온 “안전 중심” 브랜드하고도 잘 어울리는 진화 방향입니다. 최고 수준 모델 미토스를 아직 선보이지 않는 것과도 이어지고요. 어제오늘 하루가 다르게 성능이 바뀔 수 있는 만큼, 어쩌면 이런 진화의 방법이 신뢰를 쌓아올리는 기준이 될지도 모르겠습니다.

진짜 전장은 클로드 코드 vs. 코덱스

사실 모델의 성능은 어떤 하네스(harness)를 만들었는지에 따라 바뀔 겁니다. 그러니 글을 읽고 있는 분들도 결국 궁금한 건, “그래서 클로드 코드가 코덱스보다 좋아지는 거야?”가 아닐까요?

workflow

이 구도에서 앤트로픽은 Opus 4.8과 함께 한 가지 굉장히 재미있는 기능을 업데이트합니다.

동적 워크플로(Dynamic Workflows), 즉, workflow입니다. 기능의 공식 정의는 이렇습니다.

클로드는 여러분이 입력한 프롬프트에 기반해 동적으로 계획을 세우고, 하위 작업으로 쪼갠 다음, 여러 subagent로 병렬 분산시킵니다. 단일 세션에서 수십~수백 개 병렬 subagent를 돌리는 오케스트레이션 스크립트를 직접 작성하고, 결과를 사용자에게 넘기기 전에 스스로 검증합니다.
Claude plans dynamically based on your prompt, breaks it into subtasks, and fans the work out across subagents running in parallel. It dynamically writes orchestration scripts that run tens to hundreds of parallel subagents in a single session, checking its work before anything reaches you.

쉽게 말하면, 클로드 코드가 목표를 달성하기 위해 아예 알아서 에이전트를 세팅하고 관리(오케스트레이션)하는 기능이 나온 겁니다. 해야 하는 일을 프롬프트로 주며 workflow란 단어를 포함하기만 하면, 알아서 동작합니다. 에이전트가 어떻게 세팅되었고 굴러가는지는 /workflows 명령어를 내리면 확인할 수 있습니다. 단계(phase)가 나뉘고 그 단계마다 에이전트가 자동으로 배치되더라고요.

코덱스가 클로드 코드보다 특징적으로 앞서갔던 것이 /goal 기능입니다. 목표를 하나 주면 모델이 스스로 그걸 달성하려고 열심히 도는 거였습니다. 클로드 코드는 거기서 한발 더 나아가 아예 “에이전트들” 단위로 목표를 달성하게 만들었습니다. 하네스가 문제라면, 하네스까지 우리가 만들어주겠다는 거죠.

체감은 어떨까?

물론, 코딩 작업은 아니었지만, 이 글을 쓰기 위해 빠르게 테스트해봤을 때, Opus 4.8 + workflow + ultraplan 콤보는 성능이 정말 만족스러웠습니다. 속도도 빠른 데다, 결과물도 만족스러웠고요. 제가 꽤 오랫동안 설계한 리서치 하네스를 명령어 하나가 거의 대체해 버렸습니다.

만족감을 느끼며, 아직 정교한 반응은 아니겠지만, 커뮤니티를 살펴봤습니다. 물론 아직 너무 이른 시기라, 장기적인 작업에 대한 신뢰할 만한 반응은 찾기 어려웠습니다.

그래도 분명히 “성능이 바닥을 찍었던 Opus 4.7보다는 나아졌다”는 의견이 우세했고요. 그와 별개로 “그럼 GPT-5.5보다 나은가?”라는 질문은 지켜봐야 합니다. 특히, 최근 한 달간 코덱스로 넘어간 사람이 많아, 이들을 다시 되돌릴 만한 분명한 비교 우위가 있을 지는 지켜볼 필요가 있겠습니다.

주요 참조 문서

해커 뉴스 반응: https://news.ycombinator.com/item?id=48311647
X 반응: https://x.com/toddsaunders/status/2060064141520290148?s=12

마치며

정말 클로드는 주도권을 탈환할까요? 이번 Opus 4.8과 클로드 코드 업데이트에서는 이를 위한 강한 의지가 느껴졌습니다. 물론, 그런 만큼 벤치마크는 되찾았지만, 터미널과 실사용 체감은 아직 봐야겠습니다. 여러분의 의견도 궁금합니다.

분명한 건, 한동안 이 출혈 경쟁의 수혜자는 결국 사용자가 될 거라는 점입니다. 성능은 올리고 값은 묶는 싸움이 계속되고, 한쪽이 독주하지 못하는 분열 구도가 이어지는 한, 한동안은 사용자 입장에선 굿이나 보고 떡이나 먹기로 합시다.

+Mythos가 온다

Opus 4.8 발표 문서 끝에는 ‘최강의 모델’로 알려진 Mythos preview에 대한 새로운 소식도 있었습니다. 이 모델은 “그 성능이 너무 뛰어나 위험하기에” 소수의 조직에서 사이버 보안에 특화된 작업 위주로 쓰이고 있는데요. 이를 일반에 공개하기 위한 ‘더 강력한 보안 조치’를 취하고 있다고 합니다. 그 조치는 빠르게 성과를 내고 있다고 하고요.

그래서 “몇 주 안”에 우리도 드디어 이 모델을 써볼 수 있겠습니다. 어쩌면 진짜 GPT와의 힘싸움은 이 시점을 봐야하지 않을까요?