※ 본문은 OpenAI의 <Introducing GPT-5.3-Codex>를 신속하게 전달하기 위해 AI 번역 및 요약을 사용했습니다. 요즘IT 실무자에게 필요한 정보 전달을 위해 내용을 일부 생략하고 배치를 조정했습니다. GPT-5.2를 활용해 번역 및 요약했습니다.
[GPT-5.3-Codex 요약]
핵심
- GPT-5.3-Codex는 GPT-5.2-Codex의 코딩 성능과 GPT-5.2의 추론·전문 지식을 결합한 모델
- 속도는 이전 대비 25% 향상됐으며, 조사·도구 사용·실행이 섞인 장시간 작업을 수행할 수 있음
- 작업 중 사용자와 상호작용해도 문맥을 유지하는 자율 에이전트로 설계
코딩 성능
- 실제 소프트웨어 공학 능력을 평가하는 SWE-Bench Pro에서 최상위 성능을 달성
- Terminal-Bench 2.0에서도 이전 최고 성능을 넘었으며, 더 적은 토큰으로 결과를 냈다고 설명
웹 개발 능력
- 코딩 능력과 문맥 압축 기능을 바탕으로 며칠에 걸쳐 복잡한 게임과 앱을 자율적으로 제작할 수 있음
- 수백만 토큰 규모 작업에서도 반복 개선을 수행
- 간단한 지시만으로도 더 합리적인 기본 설정과 완성도를 갖춘 웹사이트를 생성
역할 확장
- 기존의 코드 작성·검토 중심 에이전트에서, 컴퓨터 기반 전문 업무 전반을 처리하는 에이전트로 확장
- 오류 수정, 배포, 모니터링, PRD 작성, 문구 편집, 사용자 조사, 테스트, 지표 분석 등 개발 전 과정을 지원
- 발표 자료 제작, 표 계산 문서 분석 등 지식 노동 업무도 처리
협업 중심 상호작용
- 작업 중 주요 결정과 진행 상황을 수시로 공유
- 사용자는 진행 중에도 질문, 논의, 방향 수정이 가능
- 에이전트가 무엇을 하는지 설명하며 협업 형태로 작업
사이버 보안 능력과 보호 장치
- 준비성 체계 기준에서 사이버 보안 과제 ‘높은 수준’ 능력으로 분류된 첫 모델
- 취약점 식별을 직접 학습한 첫 모델
- 기존 100만 달러 보조금에 이어 API 크레딧 1,000만 달러를 추가 지원할 예정
이용 가능 환경
- 유료 챗지피티 요금제에서 사용 가능하며, 앱·명령줄·개발 도구·웹 환경에서 제공
- 인프라 개선으로 모델 제공 속도가 25% 향상
컴퓨터에서 이뤄지는 전문 업무 전반으로 Codex의 범위를 확장합니다.
우리는 Codex의 가능성을 한층 더 넓혀 줄 새로운 모델 GPT-5.3-Codex를 소개합니다. 이는 지금까지 나온 것중 가장 뛰어난 자율 코딩 모델입니다. 이 모델은 GPT-5.2-Codex의 최전선 코딩 성능과 GPT-5.2의 추론 및 전문 지식 역량을 하나로 결합했으며, 속도도 25% 더 빨라졌습니다. 그 결과, 조사, 도구 사용, 복잡한 실행이 함께 필요한 장시간 작업도 수행할 수 있습니다. 동료와 함께 일하듯, GPT-5.3-Codex가 작업하는 동안 사용자가 방향을 제시하고 상호작용해도 문맥을 잃지 않습니다.
GPT-5.3-Codex는 스스로를 만드는 데 중요한 역할을 한 첫 모델이기도 합니다. Codex 팀은 초기 버전을 활용해 모델의 학습 과정을 디버깅하고, 배포를 관리하며, 시험 결과와 평가를 분석했습니다. 그 결과, Codex가 스스로의 개발 속도를 크게 끌어올리는 모습을 보고 팀 전체가 놀랐습니다.
GPT-5.3-Codex를 통해 Codex는 단순히 코드를 작성하고 검토하는 에이전트에서, 개발자와 전문 직무 종사자가 컴퓨터에서 수행하는 거의 모든 작업을 처리할 수 있는 에이전트로 확장됩니다.
GPT-5.3-Codex는 코딩, 자율 작업, 실제 업무 능력을 측정하는 네 가지 벤치마크인 SWE-Bench Pro, Terminal-Bench, OSWorld, GDPval에서 새로운 업계 최고 성능을 기록했습니다.
GPT-5.3-Codex는 실제 소프트웨어 공학 능력을 엄격하게 평가하는 SWE-Bench Pro에서 최상위 성능을 달성했습니다. 기존의 SWE-bench Verified가 파이썬만을 시험하는 것과 달리, SWE-Bench Pro는 네 가지 언어를 다루며, 데이터 오염에 강하고 더 도전적이며, 다양한 실제 산업 상황을 반영합니다.
또한 코딩 에이전트가 필요로 하는 터미널 작업 능력을 측정하는 Terminal-Bench 2.0에서도 이전 최고 성능을 크게 넘어섰습니다. 특히 GPT-5.3-Codex는 이전 어떤 모델보다도 적은 토큰을 사용해 이 성능을 달성해, 사용자가 더 많은 작업을 수행할 수 있도록 했습니다.

최전선 수준의 코딩 능력, 향상된 미적 완성도, 그리고 문맥 압축 기능이 결합되면서, 이 모델은 며칠에 걸쳐 완성도 높은 복잡한 게임과 응용 프로그램을 처음부터 구축할 수 있습니다.
모델의 웹 개발 능력과 장시간 자율 작업 능력을 시험하기 위해, 우리는 GPT-5.3-Codex에게 두 가지 게임 제작을 맡겼습니다. 하나는 Codex 앱 출시 때 선보였던 레이싱 게임의 두 번째 버전이고, 다른 하나는 잠수 게임입니다.
“웹 게임 개발” 기술과 “버그를 고쳐라”, “게임을 개선하라” 같은 일반적인 후속 지시를 사용해, GPT-5.3-Codex는 수백만 토큰에 걸쳐 자율적으로 게임을 반복 개선했습니다.
GPT-5.3-Codex는 일상적인 웹사이트 제작을 요청할 때도, GPT-5.2-Codex보다 사용자의 의도를 더 잘 이해합니다. 이제는 단순하거나 구체적이지 않은 지시를 주더라도, 기본적으로 기능이 더 풍부하고 합리적인 기본 설정을 갖춘 사이트를 만들어 주어, 아이디어를 발전시킬 수 있는 더 탄탄한 출발점을 제공합니다.
예를 들어, 우리는 GPT-5.3-Codex와 GPT-5.2-Codex에게 아래의 두 랜딩 페이지를 만들어 달라고 요청했습니다. GPT-5.3-Codex는 연간 요금제를 단순히 연간 총액으로 계산해 보여주는 대신, 할인된 월 요금 형태로 자동 표시해 할인 혜택이 더 명확하고 의도적으로 보이도록 했습니다. 또한 사용자 후기 영역도 하나의 문장만 넣는 대신, 서로 다른 세 개의 사용자 인용문이 자동으로 전환되는 회전형 구성으로 만들어, 기본 상태에서도 더 완성도 높고 실제 서비스에 바로 사용할 수 있는 페이지처럼 느껴지도록 했습니다.

소프트웨어 엔지니어, 디자이너, 프로덕트 매니저, 데이터 과학자는 단순히 코드를 작성하는 일만 하지 않습니다. GPT-5.3-Codex는 소프트웨어 생애 주기 전반의 업무를 지원하도록 설계되었습니다. 오류 수정, 배포, 모니터링, 제품 요구 문서(PRD) 작성, 문구 편집, 사용자 조사, 테스트, 지표 분석 등 다양한 작업을 처리할 수 있습니다. 또한 이 모델의 자율 에이전트 기능은 소프트웨어 영역을 넘어, 발표 자료를 만들거나 표 계산 문서에서 데이터를 분석하는 등 원하는 어떤 작업이든 수행할 수 있도록 돕습니다.
이전 GDPval 결과에 사용했던 것과 유사한 맞춤 기술을 적용한 평가에서도, GPT-5.3-Codex는 전문 지식 노동 영역에서 강력한 성능을 보였습니다. GDPval 평가 기준에서 GPT-5.2와 동등한 수준을 기록했습니다. GDPval은 OpenAI가 2025년에 공개한 평가로, 44개 직군에 걸친 명확히 정의된 지식 노동 과제에서 모델의 수행 능력을 측정합니다. 여기에는 발표 자료 제작, 표 계산 문서 작성 등 다양한 업무 산출물을 만드는 작업이 포함됩니다.
코딩, 프론트엔드, 컴퓨터 사용, 실제 업무 과제 전반에서 나타난 이러한 결과는 GPT-5.3-Codex가 단순히 개별 작업을 더 잘 수행하는 수준을 넘어, 실제 기술 업무 전반에서 추론하고, 만들고, 실행할 수 있는 하나의 범용 에이전트로 나아가는 중요한 전환점임을 보여줍니다.

모델의 능력이 강해질수록, 에이전트가 무엇을 할 수 있는지보다 사람이 여러 에이전트를 동시에 얼마나 쉽게 상호작용하고, 지시하고, 감독할 수 있는지가 더 중요한 문제가 됩니다. Codex 앱은 에이전트를 관리하고 지시하는 일을 훨씬 쉽게 만들어 주며, GPT-5.3-Codex에서는 상호작용성이 더욱 강화되었습니다.
새 모델에서는 Codex가 작업 중 중요한 결정과 진행 상황을 자주 알려주기 때문에, 사용자는 전체 흐름을 계속 파악할 수 있습니다. 최종 결과만 기다리는 대신, 작업이 진행되는 동안 실시간으로 상호작용할 수 있습니다. 질문을 던지고, 접근 방식을 논의하며, 해결 방향을 직접 조정할 수 있습니다. GPT-5.3-Codex는 자신이 무엇을 하고 있는지 설명하고, 피드백에 반응하며, 시작부터 끝까지 사용자를 작업 흐름 안에 포함시킵니다.
최근 Codex의 빠른 발전은 OpenAI 전반에서 수개월, 혹은 수년에 걸쳐 진행된 여러 연구 프로젝트의 성과를 바탕으로 이루어졌습니다. 이러한 연구는 Codex 덕분에 더욱 가속되고 있으며, 많은 연구자와 엔지니어는 지금의 업무 방식이 불과 두 달 전과도 근본적으로 달라졌다고 말합니다. GPT-5.3-Codex의 초기 버전들조차 뛰어난 성능을 보여, 팀은 그 초기 모델들을 활용해 학습 과정을 개선하고 이후 버전의 배포를 지원할 수 있었습니다.
Codex는 매우 폭넓은 작업에 활용될 수 있어, 팀에 어떤 방식으로 도움이 되는지 모두 나열하기는 어렵습니다. 예를 들어 연구팀은 이번 버전의 학습 과정을 모니터링하고 오류를 찾아내는 데 Codex를 사용했습니다. 단순한 기반 시설 문제 해결을 넘어, 학습 과정 전반의 패턴을 추적하고, 상호작용 품질을 깊이 분석하며, 문제 해결 방안을 제안하고, 연구자가 모델의 행동 변화를 정확히 이해할 수 있도록 풍부한 응용 도구를 만들어 주었습니다.
엔지니어링 팀은 GPT-5.3-Codex용 실행 환경을 최적화하고 조정하는 데 Codex를 활용했습니다. 사용자에게 영향을 주는 이상한 경계 상황이 발견되자, 팀원들은 Codex로 문맥 표시 오류를 찾아내고, 캐시 적중률이 낮은 원인을 분석했습니다. 출시 과정에서도 GPT-5.3-Codex는 GPU 클러스터를 동적으로 확장해 트래픽 급증에 대응하고 지연 시간을 안정적으로 유지하는 데 도움을 주고 있습니다.
알파 시험 기간 중, 한 연구자는 GPT-5.3-Codex가 한 번의 상호작용에서 얼마나 더 많은 작업을 처리하는지, 그리고 그에 따른 생산성 차이를 알고 싶어 했습니다. GPT-5.3-Codex는 정규식 기반 분류기를 여러 개 제안해, 추가 설명 요청 빈도, 사용자 긍정·부정 반응, 작업 진행 상황 등을 추정하도록 했습니다. 그리고 이를 모든 세션 기록에 확장 적용해 분석 보고서를 작성했습니다. 그 결과, Codex를 사용하는 사람들은 에이전트가 의도를 더 잘 이해하고, 추가 설명 질문은 줄이면서 한 번의 상호작용에서 더 많은 진전을 이루는 모습을 보였습니다.
GPT-5.3-Codex는 이전 모델과 상당히 다른 특성을 보여, 알파 시험 데이터에서도 여러 비직관적이고 예상 밖의 결과가 나타났습니다. 팀의 데이터 과학자는 GPT-5.3-Codex와 협업해 새로운 데이터 처리 흐름을 만들고, 기존 대시보드보다 훨씬 풍부한 시각화 결과를 만들었습니다. 이후 Codex와 함께 분석을 진행했고, 수천 개의 데이터 지점에서 핵심 통찰을 3분도 채 되지 않아 간결하게 정리해 냈습니다.
이러한 개별 사례들은 연구자와 제품 개발자에게 Codex가 어떤 도움을 줄 수 있는지 보여주는 흥미로운 예시입니다. 이를 종합하면, 이러한 새로운 능력들이 연구, 엔지니어링, 제품 팀 전반의 작업 속도를 크게 끌어올렸다는 점을 확인할 수 있었습니다.
최근 몇 달 동안, 모델의 사이버 보안 과제 수행 능력이 눈에 띄게 향상되었으며, 이는 개발자와 보안 전문가 모두에게 도움이 되고 있습니다. 동시에 방어적 활용과 생태계 전반의 회복력을 높이기 위해 강화된 사이버 보호 장치를 준비해 왔습니다.
GPT-5.3-Codex는 준비성 체계(Preparedness Framework)에 따라 사이버 보안 관련 과제에서 ‘높은 수준’ 능력으로 분류된 첫 모델이며, 소프트웨어 취약점을 식별하도록 직접 학습시킨 첫 모델이기도 합니다. 아직 이 모델이 사이버 공격을 처음부터 끝까지 자동화할 수 있다는 확실한 증거는 없지만, 우리는 예방적 접근을 택해 지금까지 가장 폭넓은 사이버 보안 안전 장치를 적용했습니다. 이러한 조치에는 안전 학습, 자동 모니터링, 고급 기능에 대한 신뢰 기반 접근, 위협 정보가 포함된 대응 체계 등이 포함됩니다.
사이버 보안은 본질적으로 양면적 성격을 가지므로, 우리는 근거 기반의 반복적 접근 방식을 취하고 있습니다. 이를 통해 방어자가 취약점을 더 빨리 찾고 수정하도록 돕는 동시에, 악용 가능성은 줄이고자 합니다. 그 일환으로 사이버 방어 연구를 가속하기 위한 시범 프로그램인 Trusted Access for Cyber도 시작합니다.
또한 생태계 보호 장치에도 투자하고 있습니다. 보안 연구용 에이전트 Aardvark의 비공개 베타를 확대하고 있으며, 이는 Codex 보안 제품군의 첫 구성 요소입니다. 아울러 오픈소스 유지 관리 팀과 협력해 Next.js 같은 널리 쓰이는 프로젝트에 무료 코드 기반 점검을 제공하고 있습니다. 실제로 한 보안 연구자는 Codex를 사용해 지난주 공개된 취약점을 찾아내기도 했습니다.
2023년에 시작한 100만 달러 규모의 사이버 보안 보조금 프로그램에 이어, 우리는 오픈소스 소프트웨어와 핵심 기반 시설을 중심으로 사이버 방어를 가속하기 위해 API 크레딧 1,000만 달러를 추가로 지원할 예정입니다. 선의의 보안 연구를 수행하는 기관은 이 프로그램을 통해 API 크레딧과 지원을 신청할 수 있습니다.
GPT-5.3-Codex는 유료 ChatGPT 요금제에서 사용할 수 있으며, Codex를 이용할 수 있는 모든 환경—앱, 명령줄 인터페이스(CLI), 통합 개발 환경 확장 기능, 웹—에서 제공됩니다. 또한 안전한 방식으로 API 접근을 제공하기 위한 준비도 진행 중입니다.
이번 업데이트를 통해 인프라와 추론 구조를 개선해, Codex 사용자에게 GPT-5.3-Codex를 25% 더 빠르게 제공하고 있습니다. 그 결과 상호작용 속도와 작업 결과 도출 속도가 모두 빨라졌습니다.
GPT-5.3-Codex는 NVIDIA의 GB200 NVL72 시스템을 기반으로 설계, 학습, 서비스되었습니다. 이 협력에 대해 NVIDIA에 감사의 뜻을 전합니다.
GPT-5.3-Codex를 통해 Codex는 단순히 코드를 작성하는 단계를 넘어, 코드를 도구로 삼아 컴퓨터를 운영하고 작업을 처음부터 끝까지 완수하는 방향으로 나아가고 있습니다. 코딩 에이전트의 가능성을 확장하면서, 소프트웨어 구축과 배포를 넘어 조사, 분석, 실행 등 더 넓은 지식 노동 영역으로 확장되고 있습니다.
최고의 코딩 에이전트를 만드는 데서 시작된 이 흐름은, 이제 컴퓨터 위에서 함께 일하는 범용 협업자로 발전하고 있습니다. 그 결과, 더 많은 사람이 무언가를 만들 수 있게 되고, Codex로 할 수 있는 일의 범위도 크게 넓어지고 있습니다.
