1. 핵심
GPT-5.3-Codex의 코딩 성능과 GPT-5.2의 추론·전문 지식을 하나로 통합한 프론티어 모델
오픈AI 범용 모델 최초로 네이티브 컴퓨터 사용(Computer Use) 기능 내장
최대 100만 토큰 컨텍스트 윈도우 지원(API·Codex 프리뷰)
GPT-5.2 대비 개별 팩트 오류 33% 감소, 전체 응답 오류 포함 확률 18% 감소

2. 가격 및 제공 범위
ChatGPT Plus, Team, Pro 구독자에게 GPT-5.4 Thinking으로 순차 제공(GPT-5.2 Thinking 대체)
GPT-5.4 Pro는 Pro 및 Enterprise 요금제 전용
API: 입력 백만 토큰당 2.50달러 / 출력 백만 토큰당 15달러 (GPT-5.4 Pro는 30달러/180달러)
GPT-5.2 Thinking은 레거시 모델로 3개월 유지 후 2026년 6월 5일 종료

3. 달라진 점
코딩·추론·에이전트 워크플로우·컴퓨터 조작을 하나의 모델에 통합해, 별도 모델 전환 없이 복잡한 작업 처리
ChatGPT에서 응답 전 사고 계획을 미리 보여줘, 작업 도중 방향 수정 가능
토큰 단가는 GPT-5.2보다 높지만, 동일 작업을 더 적은 토큰으로 처리해 실질 비용은 상쇄 가능

네이티브 컴퓨터 사용: 범용 모델 최초

GPT-5.4는 오픈AI 범용 모델 중 처음으로 네이티브 컴퓨터 사용 기능을 내장했습니다. 스크린샷을 읽고 마우스·키보드 명령을 내려 데스크톱 환경을 직접 조작하며, Playwright 같은 라이브러리를 활용한 코드 기반 조작도 가능합니다.

데스크톱 환경 탐색 벤치마크 OSWorld-Verified에서 75.0%를 기록해 GPT-5.2(47.3%)는 물론 인간 기준(72.4%)도 넘어섰습니다. 브라우저 사용 벤치마크 WebArena-Verified에서는 67.3%, 스크린샷 기반 브라우저 탐색 Online-Mind2Web에서는 92.8%를 달성했습니다.

개발자 메시지로 모델 동작을 조정하거나, 커스텀 확인 정책을 설정해 안전 수준을 유스케이스별로 제어할 수 있습니다.

Tool Search: 에이전트 개발자를 위한 핵심 변화

기존에는 모델에 도구를 제공할 때 모든 도구 정의를 프롬프트에 미리 포함해야 했습니다. 도구가 많아질수록 수천~수만 토큰이 매 요청마다 추가되면서 비용과 지연이 함께 올라갔습니다.

GPT-5.4는 API에서 Tool Search를 도입해 이 문제를 구조적으로 해결합니다. 모델은 가벼운 도구 목록과 검색 기능만 받고, 실제 도구 정의는 필요할 때만 가져옵니다. 36개 MCP 서버를 활성화한 Scale MCP Atlas 벤치마크 250개 태스크에서, Tool Search 적용 시 토큰 사용량이 47% 감소하면서 정확도는 동일하게 유지됐습니다.

대규모 도구 생태계 위에 에이전트를 구축하는 개발자에게 비용 절감과 응답 속도 향상으로 직결되는 변화입니다.

코딩: 속도가 진짜 차이

GPT-5.4는 GPT-5.3-Codex의 코딩 능력을 흡수한 최초의 메인라인 추론 모델입니다. SWE-Bench Pro에서 57.7%(GPT-5.3-Codex 56.8%, GPT-5.2 55.6%)로, 수치상 차이는 크지 않습니다.

실질적 차이는 속도입니다. Codex의 /fast 모드로 토큰 처리 속도가 최대 1.5배 빨라지며, 모델 품질은 동일합니다. 복잡한 프론트엔드 작업에서도 이전 모델 대비 눈에 띄게 미려하고 기능적인 결과물을 생성합니다.

실험적 Codex 스킬 Playwright (Interactive)도 함께 공개됐습니다. 웹 및 Electron 앱을 시각적으로 디버깅하며, 빌드 중인 앱을 직접 테스트할 수도 있습니다.

"GPT-5.4는 현재 우리 내부 벤치마크에서 1위입니다. 이전 모델보다 더 자연스럽고 주체적이며, 모호한 문제에서도 스스로 판단하고 작업을 병렬로 처리합니다." — Lee Robinson, Cursor VP of Developer Education

전문 업무: 스프레드시트·프레젠테이션·법률 문서

44개 직종의 지식 업무를 측정하는 GDPval에서 83.0%(GPT-5.2 70.9%), 투자은행 스프레드시트 모델링 내부 벤치마크에서 87.3%(GPT-5.2 68.4%)를 기록했습니다. 프레젠테이션 품질에서는 인간 평가자가 GPT-5.2 대비 GPT-5.4 결과물을 68% 선호했습니다.

엔터프라이즈 고객을 위해 ChatGPT for Excel 애드인도 동시 출시됐으며, FactSet·MSCI·Moody's 등 금융 데이터 앱 연동도 함께 제공됩니다.

이용 안내

ChatGPT Plus·Team·Pro: GPT-5.4 Thinking 순차 배포 중
Enterprise·Edu: 관리자 설정에서 얼리 액세스 활성화
API: gpt-5.4 / gpt-5.4-pro
Codex: 앱·CLI·IDE 확장·웹 모두 지원
100만 토큰 컨텍스트 윈도우: Codex에서 실험적 제공, model_context_window와 model_auto_compact_token_limit 설정으로 활성화
GPT-5.2 Thinking: 레거시 모델로 3개월 유지 → 2026년 6월 5일 종료