앤트로픽은 지난 Opus 4.8 공개 당시, Mythos 프리뷰 소식도 함께 전하며 'Mythos를 일반에 공개하기 위한 강력한 보안 조치에서 빠르게 성과가 나고 있다'고 밝힌 바 있는데요. 결국 Mythos 5는 '프로젝트 글래스윙'을 통해 극소수에게만 공개되었고, 일반 사용자는 Mythos 본체가 아니라 'Fable'이란 얼굴로, ‘통제’를 더한 미토스를 만나게 됐습니다.

[핵심 관전 포인트]

가격: 6월 22일까지는 추가 비용이 없지만, 6월 23일부터는 사용량 크레딧이 필요합니다. GPT-5.5보다 성능은 앞서지만 값은 더 비쌉니다.
폴백(fallback): 보안·바이오 같은 고위험 주제를 건드리면 Fable 5가 한 단계 아래 Opus 4.8로 갈아탑니다.
한국: 일반 사용자가 받아 든 건 Fable이지만, 한국의 주요 기업·기관은 글래스윙을 통해 Mythos 라인에 올라 있습니다.

같은 모델, 다른 얼굴: 페이블과 미토스

우선 공식 문서 Claude Fable 5 and Claude Mythos 5를 기반으로 짚어보겠습니다.

Mythos가 역대 어느 모델보다 강력하다는 건 이전부터 흘러나오던 이야기이고요. Mythos와 같은 모델이지만 일반 공개를 위해 안전장치를 더한 Fable 또한 "앤트로픽이 일반에 공개한 역대 어떤 모델보다 강력하다"는 게 앤트로픽의 설명입니다. 물론 새로운 모델이 공개될 때마다 직전보다 강한 모델이 나오는 건 새삼스러운 일이 아니죠.

이번 공개에서 핵심은 '같은 모델을 둘로 나눠 냈다'는 점입니다. 앤트로픽 공식 발표문의 한 줄이 그걸 압축해 보여줍니다.

Mythos 5는 Fable 5와 같은 기반 모델이되, 일부 영역에서 안전장치만 해제했다. It's the same underlying model as Fable 5, but with the safeguards lifted in some areas. (앤트로픽 공식 발표문)

즉, Fable 5와 Mythos 5는 같은 모델입니다. 둘을 가르는 건 오직 안전장치죠. Fable은 위험한 질문에 답하지 않도록 제한을 걸어 일반에 풀었고, Mythos는 그 제한(특히 사이버 보안 영역)을 푼 채 프로젝트 글래스윙(Project Glasswing)을 통해 극소수에게만 공개됐습니다.

능력 자체는 역대 모델 가운데 가장 강하다는 주장에 맞게, 소프트웨어 엔지니어링, 지식 노동, 비전, 과학 연구까지 거의 모든 벤치마크에서 최고 수준을 찍었고, 작업이 길고 복잡할수록 격차가 더 벌어진다고 했죠. 특히 도드라지는 건 '오래 혼자 일하는' 능력입니다. 사람 지시 없이 여러 단계를 스스로 처리하는 에이전트형 작업에서 두드러지는데, 뒤에서 볼 SWE-Bench Pro 점수가 이를 보여줍니다. 공식 발표에서는 메모리를 줬을 때 성능이 크게 오른다는 사례도 공개했습니다.

이름도 두 모델의 관계에 맞는 단어로 붙었습니다. Fable은 라틴어 파불라(fabula), 즉 '이야기된 것'에서 온 단어로, 신화, 이야기를 뜻하는 그리스어 mythos와 비슷합니다. 같은 모델을 기반으로 차이를 둔 만큼 이름도 비슷한 것으로 지었습니다.

다만 앞서도 말했지만, Mythos는 앤트로픽이 4월에 시작한 사이버 보안 협력 프로그램 프로젝트 글래스윙을 통해서만 공개됐습니다. 글래스윙은 Mythos가 악용될 위험을 우려해 일반에 풀지 않는 대신, 검증된 사이버 방어 조직과 핵심 인프라 사업자에게만 모델을 내주고, 이들이 취약점을 찾아 패치하도록 하는 통제된 접근 체계인데요. 참여 조직은 신청과 심사를 거쳐 들어갑니다. 한국도 여기에 포함되었고요.

어디까지 잘하나: 벤치마크로 본 기본기

성능 수치는 이번 발표에서 가장 깔끔한 대목입니다. 특히 코딩이 헤드라인이고요.

깃허브 이슈를 끝까지 해결하는 능력을 보는 SWE-Bench Pro에서 Fable 5와 Mythos 5는 80.3%를 기록했습니다. Opus 4.8(69.2%), GPT-5.5(58.6%), Gemini 3.1 Pro(54.2%)를 큰 격차로 따돌린 수치죠. Fable 5와 Mythos 5의 주요 스펙은 아래 표로 정리했습니다.

표의 페이블 5·미토스 5 값은 둘 중 높은 쪽입니다(두 모델 점수 차이는 1~3%포인트). 별표(*) 항목은 미토스 5 기준이고요. 사이버보안·생물 관련 질문은 페이블 5에서 차단·폴백되기 때문에, 이 항목의 실제 페이블 5 성능은 Opus 4.8에 가깝습니다. <출처: Anthropic>

공식 발표에는 이 모델들의 능력을 보여주는 일화도 소개되어 있는데요. 결제 기업 스트라이프(Stripe)는 5천만 줄짜리 루비 코드베이스 마이그레이션을, 사람 팀이 두 달 넘게 걸릴 작업을 하루 만에 끝냈다고 전했습니다. 과학 영역에서는 모델이 연구를 거드는 단계를 넘어 연구를 하는 단계로 넘어서는 신호들이 보입니다. Mythos 5로 단백질 설계 일부를 약 10배 가속했고, 한 분자생물학 가설이 같은 문제를 독립적으로 연구하던 다른 실험실에서 실증되기도 했습니다. 100배 작은 유전체 모델이 학술지 사이언스(Science)에 실린 모델을 능가했다는 결과도 있고요.

현재는 Pro, Max, Team, Enterprise 요금제에서 추가 요금 없이 사용할 수 있는데요. 6월 23일부터는 별도 사용량 크레딧이 필요하다고 하네요.

페이블 5, 미토스 5 핵심 관전 포인트 3가지

1. 6월 23일부터는 추가 크레딧

두 모델 모두 입력 100만 토큰당 10달러, 출력 100만 토큰당 50달러입니다. 앤트로픽은 이 가격이 Mythos 프리뷰의 절반 이하라고 강조했지만, 외신들의 평가는 냉정합니다. 여전히 주요 AI 모델 중 가장 비싸다는 거죠. Opus 4.8($5/$25)의 정확히 두 배이고, 경쟁 모델 GPT-5.5($5/$30)보다도 비쌉니다.

그런데 더 중요한 건 따로 있습니다. 앞으로 딱 약 10여일 간만 이 가격이 유지된다는 것입니다.

Fable 5는 출시 시점부터 6월 22일까지 Pro, Max, Team, 좌석제 Enterprise 요금제 이용자라면 추가 비용 없이 사용할 수 있습니다. 하지만 6월 23일부터는 해당 요금제에서 빠지고, 쓰려면 별도 사용량 크레딧(usage credits)이 필요해집니다. 앤트로픽은 용량이 충분히 확보되면 다시 구독 요금제 기본 구성으로 되돌리겠다고 했지만, 그 시점은 정확히 언급하지 않았고요.

이를 두고 “줬다 뺐는다”는 사람들도 있고, “합리적”이라는 반응도 있습니다. 의도가 무엇이든, 6월 22일까지는 마음껏 테스트해 봐야겠습니다. 그 이후의 비용 구조는 미리 계산에 넣어 두는 게 안전하겠죠.

2. 강한 안전장치로 인한 폴백(fallbacks)

Fable 5가 Mythos에 안전 분류기만 더한 모델인 만큼 이 부분도 관전 포인트 중 하나인데요.

작동 방식은 이렇습니다. Fable 5에는 별도 분류기(classifier, 질문이 위험한 주제인지 자동으로 가려내는 장치)가 붙어 사이버 보안 공격코드(익스플로잇) 생성, 생물·화학, 모델 디스틸레이션(증류, 큰 모델의 능력을 작은 모델로 옮기는 기법)이라는 좁은 고위험 주제를 감시합니다. 사용자의 질문이 이 분류기를 건드리면, 모델은 Opus 4.8로 갈아탑니다. 사용자는 그 사실을 통지받고, 이렇게 모델이 전환되면 Fable 요금이 청구되지 않습니다. 모델은 바뀌어도 대화는 끊기지 않고 이어지고요.

앤트로픽은 이 전환이 평균적으로 전체 세션의 5% 미만에서만 발동하고, 95% 이상 세션은 전환을 전혀 겪지 않는다고 밝혔는데요. 외부에서 검증된 수치는 아닙니다. 공개 첫날부터 해커뉴스에서는 다음과 같은 여러 사례가 공유되었습니다.

GPU 드라이버 구현 중 벤치마크 크래시 디버깅을 맡겼다가 사이버보안 주제로 분류돼 전환됐다.
본인 혈액 검사 결과를 검토해 달라고 했더니 즉시 Opus로 돌아갔다
"UV 인덱스가 선글라스 쓸 타이밍의 좋은 지표인가"라는 첫 테스트 질문부터 필터에 걸렸다

저는 앱에서 Fable 모델에게 이 글의 편집을 부탁했는데, 폴백됐습니다. 앤트로픽이 자체적으로 추정하는 5%와 사용자들이 체감하는 것 사이 어딘가에 진짜 숫자가 있겠죠.

API로 쓰는 분이라면 하나 더 챙길 게 있어요. 앱에서는 전환이 알아서 일어나지만, API에서는 자동이 아니라서 Fable이 거부하면 요청이 거기서 멈춥니다. 폴백 파라미터를 넣거나 SDK 미들웨어를 써야 Opus 4.8로 넘겨받을 수 있고요.

그런데 안전장치가 다소 과하게 조여져 있다는 평이 많아서 초기 사용자들 사이에서도 말이 많습니다. 앤트로픽 스스로도 분류기를 보수적으로 맞춰 놨다고 하고요. 멀쩡한 질문도 가끔 걸린다는 걸 인정하면서, 시간을 두고 오탐을 줄이겠다고 했습니다.

또 중요한 게 하나 더 있어요. Fable 5와 Mythos 5를 비롯한 Mythos 급 모델은 트래픽을 30일간 의무적으로 보존한다는 점입니다. 앤트로픽은 이 데이터를 학습에는 쓰지 않고 안전 모니터링 용도로만 쓴다고 했지만, 민감한 작업을 다루는 조직이라면 이게 꽤 걸리는 대목일 수 있겠네요.

3. 한국도 ‘미토스’ 라인

일반 사용자가 받아 든 게 Fable이라면, 글래스윙에 참여한 한국의 주요 기관은 안전장치를 푼 Mythos 라인에 올라 있는 셈인데요.

앤트로픽이 6월 초 글래스윙 참여를 15개국으로 넓히면서 약 150개 조직을 새로 들였고, 여기에 한국도 이름을 올렸습니다. SK텔레콤은 글래스윙에 합류해 Mythos 조기 접근권을 확보했다고 직접 발표했고요. 과학기술정보통신부도 산하 한국인터넷진흥원(KISA)의 참여를 확인했습니다. 삼성전자와 SK하이닉스는 파이낸셜타임스(FT)가 포함됐다고 보도했는데, 두 회사가 공식적으로 확인해 준 건 아직 아닙니다.

다만 이들이 받은 건 사이버 취약점을 찾아 패치하는 용도의 Mythos(프리뷰) 접근권입니다. 이번에 나온 Mythos 5가 글래스윙을 통해 이 프리뷰의 업그레이드로 풀리니까, 한국 기관이 올라탄 Mythos 라인도 자연스럽게 Mythos 5로 이어지는 셈이고요.

이렇게 민감한 프런티어 모델이 앤트로픽의 통제 아래에서만 나눠지고 있으니, 관련 논란도 한동안 계속되지 않을까 싶습니다.

공개 직후 화제가 된 사례들

이번엔 제가 본격적으로 붙들고 돌려본 후기 대신, 공개 직후 화제가 된 시연 장면을 가져왔습니다.

보조 장치 없이 포켓몬을 깬 모델

앤트로픽은 Fable 5가 별다른 보조 장치 없이 게임 화면 픽셀만 보고 '포켓몬 파이어레드'를 처음부터 끝까지 클리어하는 영상을 공개했습니다. 이전 클로드 모델들은 지도, 내비게이션, 게임 상태 정보 같은 보조 하네스를 잔뜩 붙여줘도 쩔쩔매던 게임입니다. 비전만으로 끝까지 갔다는 건, 사람이 짜주던 발판 없이도 길고 복잡한 작업을 혼자 끌고 가는 힘이 한 단계 올라섰다는 뜻이고요.

다만 해커뉴스에는 "파이어레드 학습 데이터가 워낙 많아서 가능했던 것 아니냐", "여러 번 돌려 가장 잘 된 판을 골랐을 수 있다"는 의심도 함께 달렸습니다. 시연 영상 한 편을 곧이곧대로 일반화하긴 이르다는 거죠.

Claude Fable 5 beats Pokémon FireRed only using vision

스스로 CAD 에디터를 만들고, 그 안에서 3D 모델을 설계

더 인상적인 건 비전을 넘어 '도구까지 스스로 만드는' 장면입니다. 앤트로픽 시연에서 Fable 5는 브라우저에서 돌아가는 CAD 에디터를 직접 코딩으로 만들었고, 그 에디터 안에서 3D 프린팅이 가능한 모델을 설계했습니다. 심지어 모델링을 돕는 AI 코파일럿까지 그 에디터에 직접 붙였고요.

비슷한 결로, 코드만으로 태양계 시뮬레이션을 짜 행성 궤도를 물리 제1원리에서 유도해 일식을 예측하거나, 공장 건설 게임 '팩토리오'를 혼자 전략을 세워 자동화 공장까지 굴린 사례도 함께 공개됐습니다. 이전 모델들이 '주어진 작업을 잘 처리하는' 단계였다면, Fable 5는 '작업을 처리할 도구와 환경까지 스스로 세팅하는' 단계로 넘어가는 모습을 보여준 셈입니다.

Claude Fable 5 designs a 3D-printable model in a Claude-built CAD editor

주요 참조 문서

마치며: 그래서 지금 페이블 5인가, 오푸스 4.8인가

Fable 5가 역대 가장 강력한 공개 모델이라는 데는 벤치마크도 커뮤니티 평도 대체로 같은 목소리예요. 문제는 두 장벽이고요. 가격이 Opus 4.8의 두 배인 데다, 보수적으로 맞춰진 분류기가 보안·바이오와 상관없는 작업까지 Opus 4.8로 돌려보낼 때가 있습니다.

그래서 지금은 작업 영역별로 갈라 쓰는 게 현실적이지 않나 싶어요. 대형 코드베이스 마이그레이션이나 장기 에이전트 작업처럼 능력 격차가 곧 시간 절감으로 이어지는 일이라면, 두 배 값을 치르고도 시험해 볼 이유가 충분하고요. 반대로 사이버보안·생물학·의료에 가깝거나 임베딩·파인튜닝 같은 AI 컴포넌트를 만지는 일이라면, 폴백이 자주 걸려서 Fable 5의 진가를 느끼기 어렵지 않을까 싶습니다. 제한의 경계가 또렷해질 때까지는 Opus 4.8에 머무는 것도 나쁘지 않은 선택이고요.

최근 한 달 사이 코덱스(Codex)로 옮겨 간 분들을 되돌리려면 '두 배 값을 치를 만큼 벌어졌나'라는 질문에 각자의 워크플로로 답해야 할 텐데, 적어도 출시 첫날의 Fable 5는 그 답을 아직 사용자에게 미뤄 둔 모델에 가까워 보입니다.

앞으로 지켜볼 지점은 세 가지인 것 같습니다. 6월 22일 이후의 가격 정책, 보수적이라던 분류기 튜닝이 얼마나 풀릴지, 비공개로 제한되는 영역의 경계를 얼마나 또렷하게 정의할지. 여기에 따라서 Fable에 대한 평이 또 달라질 수도 있을 것 같습니다.