※ 본문은 OpenAI의 <Introducing GPT-5.4>를 신속하게 전달하기 위해 AI 번역 및 요약을 사용했습니다. 요즘IT 실무자에게 필요한 정보 전달을 위해 내용을 일부 생략하고 배치를 조정했습니다.
1. 핵심
- GPT-5.3-Codex의 코딩 성능과 GPT-5.2의 추론·전문 지식을 하나로 통합한 프론티어 모델
- 오픈AI 범용 모델 최초로 네이티브 컴퓨터 사용(Computer Use) 기능 내장
- 최대 100만 토큰 컨텍스트 윈도우 지원(API·Codex 프리뷰)
- GPT-5.2 대비 개별 팩트 오류 33% 감소, 전체 응답 오류 포함 확률 18% 감소
2. 가격 및 제공 범위
- ChatGPT Plus, Team, Pro 구독자에게 GPT-5.4 Thinking으로 순차 제공(GPT-5.2 Thinking 대체)
- GPT-5.4 Pro는 Pro 및 Enterprise 요금제 전용
- API: 입력 백만 토큰당 2.50달러 / 출력 백만 토큰당 15달러 (GPT-5.4 Pro는 30달러/180달러)
- GPT-5.2 Thinking은 레거시 모델로 3개월 유지 후 2026년 6월 5일 종료
3. 달라진 점
- 코딩·추론·에이전트 워크플로우·컴퓨터 조작을 하나의 모델에 통합해, 별도 모델 전환 없이 복잡한 작업 처리
- ChatGPT에서 응답 전 사고 계획을 미리 보여줘, 작업 도중 방향 수정 가능
- 토큰 단가는 GPT-5.2보다 높지만, 동일 작업을 더 적은 토큰으로 처리해 실질 비용은 상쇄 가능

GPT-5.4는 오픈AI 범용 모델 중 처음으로 네이티브 컴퓨터 사용 기능을 내장했습니다. 스크린샷을 읽고 마우스·키보드 명령을 내려 데스크톱 환경을 직접 조작하며, Playwright 같은 라이브러리를 활용한 코드 기반 조작도 가능합니다.
데스크톱 환경 탐색 벤치마크 OSWorld-Verified에서 75.0%를 기록해 GPT-5.2(47.3%)는 물론 인간 기준(72.4%)도 넘어섰습니다. 브라우저 사용 벤치마크 WebArena-Verified에서는 67.3%, 스크린샷 기반 브라우저 탐색 Online-Mind2Web에서는 92.8%를 달성했습니다.

개발자 메시지로 모델 동작을 조정하거나, 커스텀 확인 정책을 설정해 안전 수준을 유스케이스별로 제어할 수 있습니다.
기존에는 모델에 도구를 제공할 때 모든 도구 정의를 프롬프트에 미리 포함해야 했습니다. 도구가 많아질수록 수천~수만 토큰이 매 요청마다 추가되면서 비용과 지연이 함께 올라갔습니다.
GPT-5.4는 API에서 Tool Search를 도입해 이 문제를 구조적으로 해결합니다. 모델은 가벼운 도구 목록과 검색 기능만 받고, 실제 도구 정의는 필요할 때만 가져옵니다. 36개 MCP 서버를 활성화한 Scale MCP Atlas 벤치마크 250개 태스크에서, Tool Search 적용 시 토큰 사용량이 47% 감소하면서 정확도는 동일하게 유지됐습니다.
대규모 도구 생태계 위에 에이전트를 구축하는 개발자에게 비용 절감과 응답 속도 향상으로 직결되는 변화입니다.
GPT-5.4는 GPT-5.3-Codex의 코딩 능력을 흡수한 최초의 메인라인 추론 모델입니다. SWE-Bench Pro에서 57.7%(GPT-5.3-Codex 56.8%, GPT-5.2 55.6%)로, 수치상 차이는 크지 않습니다.
실질적 차이는 속도입니다. Codex의 /fast 모드로 토큰 처리 속도가 최대 1.5배 빨라지며, 모델 품질은 동일합니다. 복잡한 프론트엔드 작업에서도 이전 모델 대비 눈에 띄게 미려하고 기능적인 결과물을 생성합니다.
실험적 Codex 스킬 Playwright (Interactive)도 함께 공개됐습니다. 웹 및 Electron 앱을 시각적으로 디버깅하며, 빌드 중인 앱을 직접 테스트할 수도 있습니다.
"GPT-5.4는 현재 우리 내부 벤치마크에서 1위입니다. 이전 모델보다 더 자연스럽고 주체적이며, 모호한 문제에서도 스스로 판단하고 작업을 병렬로 처리합니다." — Lee Robinson, Cursor VP of Developer Education
44개 직종의 지식 업무를 측정하는 GDPval에서 83.0%(GPT-5.2 70.9%), 투자은행 스프레드시트 모델링 내부 벤치마크에서 87.3%(GPT-5.2 68.4%)를 기록했습니다. 프레젠테이션 품질에서는 인간 평가자가 GPT-5.2 대비 GPT-5.4 결과물을 68% 선호했습니다.
엔터프라이즈 고객을 위해 ChatGPT for Excel 애드인도 동시 출시됐으며, FactSet·MSCI·Moody's 등 금융 데이터 앱 연동도 함께 제공됩니다.

gpt-5.4 / gpt-5.4-promodel_context_window와 model_auto_compact_token_limit 설정으로 활성화