[릴리즈노트] 오픈AI o3, o4-mini 4월 16일 업데이트
※ 본문은 오픈AI의 <Introducing OpenAI o3 and o4-mini>를 신속하게 전달하기 위해 AI 번역을 사용했습니다. 일부 문장에 오역이나 부자연스러운 표현이 있을 수 있으니 참고하시기 바랍니다.
[요약]
1. 주요 성능 및 특징
- o3와 o4-미니는 챗지피티(ChatGPT)의 추론 능력을 크게 향상시킨 최신 모델임.
- 단순 질의응답을 넘어, 웹 검색, 파일 분석, 이미지 생성, 파이썬 코드 실행 등 다양한 도구를 결합해 복잡한 작업을 처리할 수 있음.
- 사용자의 질문 의도에 따라 필요한 도구를 스스로 판단·선택하여, 1분 이내에 신속하고 깊이 있는 답변을 제공함.
- o3는 복잡한 문제 해결과 다면적 분석에, o4-미니는 빠르고 효율적인 대량 추론에 각각 최적화됨.
2. 신기술 및 기존 모델 대비 개선점
- o3는 코드포스, SWE-벤치, MMMU 등 주요 기준에서 최고 성능을 기록, o1 대비 주요 오류 20% 감소.
- o4-미니는 소형 모델임에도 수학, 코딩, 시각적 작업에서 o3-미니를 능가하며, 높은 처리량과 비용 효율성을 제공.
- 두 모델 모두 명령 이해도, 응답 유용성, 신뢰성, 대화 기억 및 개인화 능력이 강화됨.
3. 멀티모달(다중 양식) 추론
- 이미지와 텍스트를 결합해 사고할 수 있는 기능이 도입됨.
- 흐릿하거나 변형된 이미지도 인식·분석 가능하며, 이미지 회전·확대·변환 등도 자동 처리.
- 텍스트와 시각 정보를 융합해 복합적인 문제 해결이 가능함.
4. 도구 활용 중심의 추론
- 챗지피티 내 모든 도구(웹 검색, 파일 분석, 코드 실행 등)에 접근 가능.
- 복잡한 요청에 대해 필요한 도구를 연속적으로 활용, 실시간 정보와 멀티스텝 추론을 지원.
5. 비용 및 효율성
- o3는 o1보다, o4-미니는 o3-미니보다 비용 대비 성능이 대폭 향상됨.
- 실제 사용 환경에서 더 높은 지능과 더 낮은 비용을 동시에 실현.
6. 안전성
- 생물학적 위협, 악성코드, 탈옥 등 위험 프롬프트 대응을 위한 학습 데이터 재구성.
- 위험성 자동 탐지 시스템 도입, 내부 테스트에서 위험 대화 99% 이상 탐지 성공.
- 최신 안전성 프레임워크 기준에 따라 고위험 영역에서도 안전성 검증 완료.
7. 추가 기능 및 활용
- Codex CLI: 터미널에서 o3, o4-미니의 추론 능력을 활용할 수 있는 오픈소스 도구 제공.
- 챗지피티 플러스, 프로, 팀 사용자는 즉시 o3, o4-미니, o4-미니-하이 모델 사용 가능.
- 엔터프라이즈 및 교육용은 1주일 후 제공, 무료 사용자는 ‘Think’ 옵션으로 o4-미니 체험 가능.
- API 및 Responses API를 통해 다양한 개발 환경에서 활용 가능.
8. 향후 방향
- o-시리즈의 고도화된 추론 능력과 GPT-시리즈의 자연스러운 대화 능력의 융합을 추진.
- 앞으로 도구 활용과 자연스러운 대화를 동시에 지원하는 차세대 인공지능 모델로 발전할 예정.
오늘 저희는 오픈AI(OpenAI) o3와 o4-미니(o4-mini)를 공개합니다. 이 모델들은 응답 전에 더 오랜 시간 깊이 생각하도록 학습된 o-시리즈의 최신 모델입니다. 지금까지 저희가 출시한 모델 중 가장 뛰어난 성능을 자랑하며, 호기심 많은 일반 사용자부터 고급 연구자에 이르기까지 모두에게 챗지피티(ChatGPT)의 능력에 획기적인 변화를 가져올 것입니다.
이번에 처음으로, 저희의 추론 모델은 챗지피티 내의 모든 도구를 주체적으로 활용하고 결합할 수 있습니다. 여기에는 웹 검색, 업로드된 파일 및 기타 데이터를 파이썬(Python)으로 분석, 시각적 입력에 대한 심층적 추론, 이미지 생성 등이 포함됩니다. 특히, 이 모델들은 언제, 어떻게 도구를 활용해야 하는지에 대해 추론하도록 학습되어, 복잡한 문제를 해결하기 위해 적절한 출력 형식으로 상세하고 깊이 있는 답변을 1분 이내에 제공할 수 있습니다. 이를 통해 다면적인 질문도 더욱 효과적으로 처리할 수 있으며, 사용자를 대신해 독립적으로 작업을 수행할 수 있는 더욱 주체적인 챗지피티로 한 걸음 더 나아가게 되었습니다. 최첨단 추론 능력과 도구 활용의 결합은 학술적 기준(academic benchmarks)과 실제 과제 모두에서 크게 향상된 성능을 보여주며, 지능과 실용성 모두에서 새로운 기준을 제시합니다.
변경 사항
오픈AI o3는 코딩, 수학, 과학, 시각적 인식 등 다양한 분야에서 한계를 뛰어넘는 가장 강력한 추론 모델입니다. 코드포스(Codeforces), SWE-벤치(SWE-bench, 별도의 모델별 스캐폴드 없이), MMMU 등 여러 기준에서 새로운 최고 성능을 기록했습니다. 이 모델은 다면적 분석이 필요한 복잡한 질문이나, 답이 즉시 명확하지 않은 문제에 이상적입니다. 특히 이미지, 차트, 그래픽 등 시각적 작업에서 매우 뛰어난 성능을 보입니다. 외부 전문가 평가에서 o3는 어려운 실제 과제에서 기존 o1 대비 주요 오류를 20% 적게 발생시켰으며, 프로그래밍, 비즈니스/컨설팅, 창의적 아이디어 도출 등에서 두드러진 성과를 보였습니다. 초기 테스트 사용자들은 o3가 사고 파트너로서 분석적 엄밀성을 갖췄으며, 특히 생물학, 수학, 공학 분야에서 새로운 가설을 생성하고 비판적으로 평가하는 능력을 강조했습니다.
오픈AI o4-미니(o4-mini)는 빠르고 비용 효율적인 추론에 최적화된 소형 모델로, 크기와 비용 대비 놀라운 성능을 보입니다. 특히 수학, 코딩, 시각적 작업에서 두드러집니다. AIME 2024 및 2025 기준에서 벤치마크 모델 중 최고의 성능을 기록했습니다. 전문가 평가에서도 이전 모델인 o3-미니(o3-mini)보다 비이공계(non-STEM) 과제와 데이터 과학 등 다양한 분야에서 더 뛰어난 성과를 보였습니다. 높은 효율성 덕분에 o4-미니는 o3보다 훨씬 높은 사용량 한도를 지원하여, 추론이 필요한 대량·고속 처리 환경에 적합한 선택지입니다.
외부 전문가 평가자들은 두 모델 모두 이전 모델 대비 지침 준수 능력과 유용성, 검증 가능한 답변이 크게 향상되었다고 평가했습니다. 이는 지능 향상과 웹 자료 활용 덕분입니다. 또한, 이전 추론 모델과 비교해 두 모델 모두 메모리와 과거 대화를 참고하여 답변을 보다 자연스럽고 대화체로, 개인화되고 관련성 있게 제공한다는 점도 특징입니다.




*모든 모델은 챗지피티(ChatGPT)의 ‘o4-미니-하이(o4-mini-high)’와 같은 변형 모델에서와 같이, 높은 ‘추론 노력(reasoning effort)’ 설정에서 평가되었습니다.
강화 학습(재강화 학습, Reinforcement Learning) 확장 지속
오픈AI o3(OpenAI o3) 개발 과정 전반에 걸쳐, 대규모 강화 학습에서도 GPT 시리즈 사전 학습에서 관찰된 것과 동일하게 ‘연산량이 많을수록 성능이 향상된다’는 경향이 나타나는 것을 확인했습니다. 이번에는 강화 학습의 확장 경로를 따라가며, 학습 시 연산량과 추론 시 사고 시간 모두에서 한 단계 더 높은 수준(10배 이상)을 달성했음에도 불구하고, 여전히 뚜렷한 성능 향상을 확인할 수 있었습니다. 이는 모델이 더 오랜 시간 사고할수록 성능이 계속해서 개선된다는 사실을 입증합니다. 오픈AI o1(OpenAI o1)과 동일한 지연 시간과 비용 조건에서도, o3는 챗지피티(ChatGPT)에서 더 높은 성능을 보여주었으며, 사고 시간을 더 길게 허용할수록 성능이 계속해서 상승한다는 점도 검증했습니다.
또한, 두 모델 모두 강화 학습을 통해 도구 사용법을 학습시켰습니다. 단순히 도구를 어떻게 사용하는지뿐만 아니라, 언제 도구를 사용해야 하는지에 대한 추론 능력까지 가르쳤습니다. 원하는 결과에 따라 도구를 적절히 활용할 수 있는 능력 덕분에, 이 모델들은 특히 시각적 추론이나 여러 단계를 거치는 작업 등 개방형 상황에서 더욱 뛰어난 성능을 발휘합니다. 이러한 개선은 학술적 기준뿐만 아니라, 초기 테스트 사용자들이 보고한 실제 과제에서도 확인되고 있습니다.
이미지를 활용한 사고

이번에 처음으로, 이 모델들은 사고 과정에 이미지를 직접 통합할 수 있게 되었습니다. 단순히 이미지를 인식하는 것을 넘어, 이미지를 활용하여 사고할 수 있습니다. 이를 통해 시각적 추론과 텍스트 기반 추론이 결합된 새로운 유형의 문제 해결이 가능해졌으며, 이러한 능력은 다중 모달 기준에서 최첨단 성과로 입증되고 있습니다.
사용자는 칠판 사진, 교과서의 도표, 손으로 그린 스케치 등 다양한 이미지를 업로드할 수 있으며, 모델은 이미지가 흐릿하거나 뒤집혀 있거나 화질이 낮더라도 이를 해석할 수 있습니다. 도구 사용 기능과 결합하면, 모델은 사고 과정의 일부로 이미지를 즉석에서 회전, 확대, 변환하는 등 다양한 조작을 수행할 수 있습니다.
이 모델들은 시각적 인식 과제에서 업계 최고 수준의 정확도를 제공하여, 이전에는 해결이 어려웠던 질문들까지도 풀어낼 수 있습니다. 더 자세한 내용은 시각적 추론 연구 블로그에서 확인하실 수 있습니다.
주체적인 도구 활용을 향하여
오픈AI o3(OpenAI o3)와 o4-미니(o4-mini)는 챗지피티(ChatGPT) 내의 모든 도구는 물론, API의 함수 호출(function calling)을 통해 사용자가 직접 만든 맞춤형 도구에도 완전히 접근할 수 있습니다. 이 모델들은 문제 해결 방식을 스스로 추론하도록 학습되었으며, 언제 어떤 도구를 활용해야 할지 판단하여, 적절한 출력 형식으로 상세하고 깊이 있는 답변을 신속하게(일반적으로 1분 이내에) 제공합니다.
예를 들어, 사용자가 “올해 여름 캘리포니아의 에너지 사용량이 작년과 비교해 어떻게 될까?”라고 질문하면, 모델은 웹에서 공공 전력 데이터를 검색하고, 예측을 위한 파이썬(Python) 코드를 작성하며, 그래프나 이미지를 생성하고, 예측의 핵심 요인을 설명하는 등 여러 도구를 연쇄적으로 활용할 수 있습니다. 이러한 추론 능력 덕분에, 모델은 새로운 정보를 접할 때마다 상황에 맞게 반응하고 방향을 전환할 수 있습니다. 예를 들어, 검색 제공업체의 도움을 받아 여러 차례 웹 검색을 수행하고, 결과를 검토한 뒤 추가 정보가 필요하면 새로운 검색을 시도할 수 있습니다.
이와 같이 유연하고 전략적인 접근 방식은, 모델 내장 지식만으로는 부족한 최신 정보 접근, 확장된 추론, 통합 및 다양한 형태의 출력 생성이 필한 과제까지도 효과적으로 해결할 수 있게 해줍니다.
*모든 예시는 오픈AI o3로 완성되었습니다.


*오픈에이아이 o3(OpenAI o3)는 검색 기능을 사용하지 않고도 올바른 답변을 도출하는 반면, o1은 정확한 답변을 제공하지 못합니다.
비용 효율적인 추론의 진보
비용 대비 성능: o3-미니(o3-mini)와 o4-미니(o4-mini)

비용 대비 성능: o1과 o3

오픈AI o3(OpenAI o3)와 o4-미니(o4-mini)는 지금까지 출시된 모델 중 가장 지능이 높을 뿐만 아니라, 이전 모델인 o1과 o3-미니(o3-mini)보다 효율성 면에서도 뛰어난 경우가 많습니다. 예를 들어, 2025년 AIME 수학 경시대회에서 o3의 비용 대비 성능은 o1에 비해 확실히 개선되었으며, 마찬가지로 o4-미니의 비용 대비 성능도 o3-미니보다 확연히 향상되었습니다. 보다 일반적으로, 대부분의 실제 사용 환경에서 o3와 o4-미니는 각각 o1과 o3-미니보다 더 똑똑하면서도 비용이 저렴할 것으로 기대됩니다.
안전성
모델의 성능이 향상될 때마다 그에 상응하는 안전성 강화가 반드시 필요합니다. 오픈AI o3(OpenAI o3)와 o4-미니(o4-mini)를 위해, 저희는 안전성 학습 데이터를 전면적으로 재구성하였으며, 생물학적 위협(바이오리스크), 악성코드 생성, 탈옥(jailbreak) 등 다양한 분야에 대한 새로운 거부(Refusal) 프롬프트를 추가하였습니다. 이와 같이 새롭게 보강된 데이터 덕분에 o3와 o4-미니는 내부 거부 기준(예: 지침 계층, 탈옥)에서 매우 우수한 성능을 달성하였습니다. 모델의 거부 성능 향상뿐만 아니라, 최첨단 위험 영역에서 위험한 프롬프트를 탐지할 수 있도록 시스템 차원의 완화책도 개발하였습니다. 이미지 생성 분야에서의 기존 연구와 마찬가지로, 저희는 인간이 작성한 해석 가능한 안전성 사양을 기반으로 작동하는 추론 대형 언어 모델(LLM) 모니터를 학습시켰습니다. 이 모니터를 바이오리스크에 적용한 결과, 인간 레드팀(red-teaming) 캠페인에서 약 99%의 대화를 성공적으로 탐지하였습니다.
저희는 지금까지 가장 엄격한 안전성 프로그램을 통해 두 모델을 스트레스 테스트하였습니다. 최신 대비 프레임워크(Preparedness Framework)에 따라, o3와 o4-미니를 해당 프레임워크에서 추적하는 세 가지 주요 역량 영역(생물학 및 화학, 사이버보안, 인공지능 자기 개선)에 걸쳐 평가하였습니다. 평가 결과, 두 모델 모두 세 가지 영역에서 프레임워크의 “높음(High)” 기준 미만임을 확인하였습니다. 이 평가의 상세 결과는 첨부된 시스템 카드에서 확인하실 수 있습니다.
Codex CLI: 터미널에서 구현하는 최첨단 추론
저희는 새로운 실험도 함께 공개합니다. Codex CLI는 터미널에서 실행할 수 있는 경량 코딩 에이전트로, o3와 o4-미니와 같은 모델의 추론 능력을 극대화하도록 설계되었습니다. 앞으로 GPT-4.1 등 추가 API 모델도 지원할 예정입니다.
명령줄에서 스크린샷이나 저해상도 스케치를 모델에 전달하고, 로컬 코드에 접근함으로써 다중 모달 추론의 이점을 누릴 수 있습니다. Codex CLI는 저희 모델과 사용자 및 컴퓨터를 연결하는 최소한의 인터페이스로 구상되었습니다. Codex CLI는 오늘부터 github.com/openai/codex에서 완전한 오픈소스로 제공됩니다.
이와 함께, Codex CLI와 오픈AI 모델을 활용하는 프로젝트를 지원하기 위해 100만 달러 규모의 지원 사업도 시작합니다. API 크레딧 형태로 2만 5천 달러 단위의 지원금을 심사·선정하여 제공할 예정입니다. 제안서는 이곳에서 제출하실 수 있습니다.
이용 안내
오늘부터 챗지피티 플러스(Plus), 프로(Pro), 팀(Team) 이용자는 모델 선택기에서 o3, o4-미니, o4-미니-하이(o4-mini-high)를 확인할 수 있으며, 기존의 o1, o3-미니, o3-미니-하이는 대체됩니다. 챗지피티 엔터프라이즈(Enterprise) 및 에듀(Edu) 이용자는 1주일 후부터 접근이 가능합니다. 무료 이용자는 쿼리 제출 전 작성기에서 ‘생각하기(Think)’를 선택하면 o4-미니를 체험할 수 있습니다. 모든 요금제의 이용 한도는 기존 모델과 동일하게 유지됩니다.
오픈AI o3-프로(o3-pro)는 몇 주 내에 모든 도구 지원과 함께 출시될 예정입니다. 그 전까지 프로 이용자는 o1-프로(o1-pro)에도 계속 접근할 수 있습니다.
또한, o3와 o4-미니는 오늘부터 챗 컴플리션(Chat Completions) API와 응답(Responses) API를 통해 개발자에게 제공됩니다(일부 개발자는 조직 인증이 필요할 수 있습니다). 응답 API는 추론 요약, 함수 호출 시 추론 토큰 보존 기능을 지원하며, 곧 웹 검색, 파일 검색, 코드 해석기 등 내장 도구도 모델의 추론 과정에서 지원할 예정입니다. 시작하려면 저희 문서를 참고하시고, 추가 소식도 기대해 주시기 바랍니다.
향후 계획
오늘의 업데이트는 저희 모델이 나아갈 방향을 보여줍니다. 저희는 o-시리즈의 특화된 추론 능력과 GPT-시리즈의 자연스러운 대화 및 도구 활용 능력을 통합하고 있습니다. 이러한 강점의 결합을 통해, 앞으로의 모델은 자연스러운 대화와 능동적인 도구 사용, 그리고 고도화된 문제 해결을 동시에 지원할 수 있을 것입니다.
4월 16일 업데이트: o3의 Charxiv-r 및 Mathvista 기준 결과가, 최초 평가 당시에는 적용되지 않았던 시스템 프롬프트 변경 사항을 반영하여 수정되었습니다.
<원문>
https://openai.com/index/introducing-o3-and-o4-mini/
©위 번역글의 원 저작권은 OpenAI에 있으며, 저작권법의 보호를 받는 바, 무단 전재와 복사, 배포 등을 금합니다.