[릴리즈노트] 오픈AI, GPT-4.1 API 공식 출시

1. 신규 모델 3종 출시
- OpenAI는 GPT-4.1, GPT-4.1 mini, GPT-4.1 nano 세 가지 모델을 API를 통해 새롭게 공개함.
- 이 모델들은 기존 GPT-4o, GPT-4o mini 등 이전 모델 대비 전반적으로 더 뛰어난 성능을 보임.

2. 주요 성능 및 특징
2-1. 코딩 능력
- GPT-4.1은 SWE-bench Verified(실제 소프트웨어 엔지니어링 작업 기준)에서 54.6%를 기록, GPT-4o 및 GPT-4.5 등 기존 모델보다 20~26%p 이상 성능 향상.
- 코드 수정, 코드 리뷰, 프론트엔드 개발, diff 포맷 등 다양한 실제 개발 업무에서 뛰어난 결과를 보임.
- 대용량 파일 편집, 코드베이스 탐색, 자동화된 코드 변경 등에 특히 강점.

2-2. 지시(Instruction) 따르기
- 복잡한 지시, 포맷 요구, 부정적 명령, 다단계 순서, 내용 요건 등 다양한 유형의 지시를 이전보다 훨씬 정확하게 따름.
- 대화가 길어질수록 맥락을 잘 파악하고, 이전 메시지의 정보를 활용해 자연스럽고 일관된 답변을 제공.

2-3. 긴 맥락(롱 컨텍스트) 처리
- 최대 100만 토큰(약 8개의 리액트 전체 코드베이스 분량)까지 입력 가능.
- 긴 문서, 대규모 코드베이스, 여러 장의 PDF/엑셀 등에서 핵심 정보 추출, 여러 문서 간 관계 파악, 복잡한 질의 응답에 탁월.
- Needle-in-a-haystack, Graphwalks 등 실제 긴 맥락 이해 벤치마크에서 최고 성능.

2-4. 비전(이미지/영상) 능력
- GPT-4.1 mini는 이미지 이해 벤치마크에서 GPT-4o를 능가.
- 차트, 수식, 과학 논문 등 시각적 정보 해석 및 긴 영상(30~60분) 이해에서도 업계 최고 수준.

3. 모델별 주요 활용 포인트
- GPT-4.1: 최고 성능, 긴 맥락, 복잡한 작업에 적합(코딩, 법률, 금융, 대화형 에이전트 등).
- GPT-4.1 mini: 빠르고 저렴하면서도 높은 지능, 대화형 서비스·간단한 자동화에 적합.
- GPT-4.1 nano: 초저가·초고속, 분류·자동완성 등 실시간 반응이 필요한 서비스에 최적.

4. 실제 사례에서 검증된 효과
- Windsurf, Qodo, Hex, Blue J, Thomson Reuters, Carlyle 등 다양한 산업에서 내부 벤치마크 및 실제 업무에 적용, 코드 리뷰 정확성·- - 업무 효율성·문서 분석력 등에서 기존 대비 30~60% 이상 성능 향상.
- 예시: Hex에서 SQL 쿼리 정확도 2배, Carlyle에서 대용량 PDF/엑셀 데이터 추출 50% 향상 등.

5. 가격 및 도입 혜택
- GPT-4.1 시리즈는 기존 대비 최대 26% 저렴(입력 1M 토큰 기준 $2.0, nano는 $0.1).
- nano 모델은 역대 최저가·최고속도, mini 역시 83% 비용 절감·지연시간 절반.
- 프롬프트 캐싱 할인 75% 적용, 롱컨텍스트(100만 토큰)도 별도 추가 비용 없음.
- Batch API 사용 시 추가 50% 할인.

6. 기타 중요 정보
- GPT-4.5 프리뷰는 2025년 7월 14일 종료 예정(4.1이 더 뛰어나서 이전 권장).
- GPT-4.1은 API에서만 제공, ChatGPT에는 최신 GPT-4o에 일부 기능이 순차 반영 중.
- 최신 지식(2024년 6월까지) 반영, 각종 벤치마크·실사용에서 업계 최고 성능.

오늘 저희는 API에 세 가지 새로운 모델을 출시합니다. GPT-4.1, GPT-4.1 미니, GPT-4.1 나노입니다. 이 모델들은 코딩과 지시 사항(명령) 수행 능력에서 큰 향상을 이루며, 전반적으로 GPT-4o 및 GPT-4o mini보다 성능이 뛰어납니다. 또한 최대 1백만 토큰의 컨텍스트 윈도우를 지원하며, 향상된 긴 컨텍스트 이해력을 통해 컨텍스트를 더 잘 활용할 수 있습니다. 2024년 6월로 갱신된 지식 기준일이 적용됩니다.

GPT-4.1은 다음과 같은 업계 표준 조치에서 탁월한 성능을 발휘합니다.

코딩: GPT-4.1은 SWE-bench Verified 벤치마크에서 54.6%를 기록하여, GPT-4o보다 21.4%p, GPT-4.5보다 26.6%p 향상되어 코딩을 위한 선도적인 모델로 자리매김했습니다.
지시 사항 따르기: 온스케일의 멀티챌린지⁠ 벤치마크에서 GPT-4.1의 점수는 38.3% 기록, GPT-4o보다 10.5%p 상승했습니다.
긴 컨텍스트: 비디오-MME에서⁠ 멀티모달 긴 문맥 이해에 대한 벤치마크인 GPT-4.1은 자막이 없는 긴 문맥 이해 부문에서 72.0%의 점수를 기록하여, GPT-4o보다 6.7% 향상된 새로운 최첨단 결과를 기록했습니다.

벤치마크는 귀중한 인사이트를 제공하지만, 실제 유용성에 중점을 두고 이러한 모델을 학습시켰습니다. 개발자 커뮤니티와의 긴밀한 협업과 파트너십을 통해 애플리케이션에 가장 중요한 작업에 맞게 모델을 최적화할 수 있었습니다.

이를 위해 GPT-4.1 모델 제품군은 저렴한 비용으로 탁월한 성능을 제공합니다. 이 모델들은 지연 시간 곡선의 모든 구간에서 성능을 향상시킵니다.

GPT-4.1 mini는 소형 모델 성능에서 상당한 도약을 이루었으며, 심지어 많은 벤치마크에서 GPT-4o를 능가합니다. 인텔리전스 평가에서 GPT-4o와 비슷하거나 뛰어나면서도 지연 시간을 거의 절반으로 줄이고 비용을 83% 절감합니다.

짧은 지연 시간이 필요한 작업의 경우 GPT-4.1 나노는 가장 빠르고 저렴한 모델입니다. 100만 토큰의 컨텍스트 윈도우로 작은 크기에도 뛰어난 성능을 제공하며, MMLU에서 80.1%, GPQA에서 50.3%, Aider polyglot coding 벤치마크에서 9.8%를 기록하여 GPT-4o mini보다 더 높은 점수를 보였습니다. 분류나 자동 완성과 같은 작업에 이상적입니다.

지시 사항 수행 신뢰성과 긴 문맥 이해력의 이러한 개선은, 사용자를 대신해 독립적으로 작업을 수행할 수 있는 에이전트(시스템)를 훨씬 더 효과적으로 구동할 수 있게 해줍니다. Responses API와 같은 프리미티브와 결합하면, 개발자는 실제 소프트웨어 엔지니어링, 대용량 문서에서 인사이트 추출, 최소한의 개입(또는 안내)으로 고객 요청 해결, 복잡한 작업에서 더욱 유용하고 신뢰할 수 있는 에이전트를 구축할 수 있습니다.

GPT-4.1은 API를 통해서만 사용할 수 있습니다. ChatGPT에서는 지시 사항 수행, 코딩, 인텔리전스의 많은 개선 사항이 최신 버전에 점진적으로 통합되었습니다.⁠ GPT‑4o의 기능을 추가했으며, 향후 릴리스에서 더 많은 기능을 계속 통합할 예정입니다.

또한 GPT-4.1이 훨씬 낮은 비용과 지연 시간으로 많은 주요 기능에서 개선되었거나 유사한 성능을 제공함에 따라 API에서 GPT-4.5 프리뷰의 지원을 중단할 예정입니다. 개발자들이 전환할 수 있도록 3개월 후인 2025년 7월 14일에 GPT-4.5 프리뷰가 종료될 예정입니다. GPT-4.5는 대규모 컴퓨팅 집약적인 모델을 탐색하고 실험하기 위한 연구용 프리뷰로 도입되었으며, 개발자의 피드백을 통해 많은 것을 배웠습니다. 여러분이 GPT-4.5에서 좋았다고 말씀해주신 창의성, 글쓰기 품질, 유머, 뉘앙스를 향후 API 모델에 계속 이어나갈 것입니다.

아래에서는 여러 벤치마크에서 GPT-4.1의 성능을 분석한 결과와 함께 Windsurf, Qodo, Hex, Blue J, Thomson Reuters, Carlyle 등 알파 테스터들의 실제 도메인별 작업 성능 예시를 살펴봅니다.

코딩

GPT-4.1은 코딩 작업을 에이전트 기반으로(자율적으로) 해결, 프론트엔드 코딩, 불필요한 편집 감소, diff 포맷을 안정적으로 따르기, 일관된 도구 사용 보장 등 다양한 코딩 작업에서 GPT-4o보다 훨씬 우수합니다.

실제 소프트웨어 엔지니어링 기술을 측정하는 SWE-bench Verified 벤치마크에서 GPT-4.1은 54.6%의 작업을 완료한 반면, GPT-4o(2024-11-20)는 33.2%에 그쳤습니다. 이는 코드 저장소를 탐색하고, 작업을 완료하고, 테스트를 실행하고 통과하는 코드를 생성하는 모델 능력의 향상을 반영합니다.

SWE 벤치 검증의 경우 모델에 코드 저장소와 이슈 설명이 제공되며 이슈를 해결하기 위한 패치를 생성해야 합니다. 성능은 사용된 프롬프트와 도구에 따라 크게 달라집니다. 결과를 재현하고 맥락을 파악하는 데 도움을 드리기 위해 GPT-4.1에대한 설정을 설명합니다.⁠ 500개 문제 중 솔루션이 인프라에서 실행될 수 없는 23개 문제가 점수에 누락되었으며, 이를 보수적으로 0점으로 처리하면 54.6%의 점수는 52.1%가 됩니다.

대용량 파일을 편집하려는 API 개발자에게는 다양한 형식의 코드 차이점을 훨씬 더 안정적으로 처리할 수 있는 GPT-4.1이 적합합니다. GPT-4.1은 Aider polyglot diff 벤치마크에서 GPT-4o의 두 배 이상의 점수를 기록했습니다.

⁠

이 평가는 다양한 프로그래밍 언어에 대한 코딩 능력의 척도이자 전체 및 차이점 형식의 변경 사항을 생성하는 모델 능력의 척도이기도 합니다. 특히 GPT-4.1은 diff 형식을 보다 안정적으로 따르도록 훈련되어 개발자가 전체 파일을 다시 작성하지 않고 변경된 줄만 모델에 출력함으로써 비용과 지연 시간을 모두 절약할 수 있습니다. 최상의 코드 차이점 성능을 위해 다음과 같은 프롬프트 가이드를 참조하세요.⁠

전체 파일을 다시 작성하는 것을 선호하는 개발자를 위해 GPT-4.1의 출력 토큰 한도를 32,768 토큰(GPT-4o의 경우 16,384 토큰에서 증가)으로 늘렸습니다. 또한 Predicted Outputs 기능을 사용하여 전체 파일 재작성의 지연 시간을 줄일 것을 권장합니다.

Aider의 다국어 벤치마크에서 모델은 Exercism의코딩 연습 문제를 풀고 있습니다.⁠ 소스 파일을 편집하여 한 번의 재시도가 허용됩니다. '전체(whole)' 형식은 모델이 전체 파일을 다시 작성해야 하므로 속도가 느리고 비용이 많이 들 수 있습니다. 'diff' 형식은 모델이 일련의검색/바꾸기 블록을 작성해야 합니다.

또한 GPT-4.1은 프론트엔드 코딩에서 GPT-4o를 크게 개선하여 더 기능적이고 미적으로도 만족스러운 웹 앱을 만들 수 있습니다. 직접 비교한 결과, 유료 인간 채점자들은 80%의 경우 GPT-4.1의 웹사이트를 GPT-4o보다 선호했습니다.

Prompt: Make a flashcard web application. The user should be able to create flashcards, search through their existing flashcards, review flashcards, and see statistics on flashcards reviewed. Preload ten cards containing a Hindi word or phrase and its English translation. Review interface: In the review interface, clicking or pressing Space should flip the card with a smooth 3-D animation to reveal the translation. Pressing the arrow keys should navigate through cards. Search interface: The search bar should dynamically provide a list of results as the user types in a query. Statistics interface: The stats page should show a graph of the number of cards the user has reviewed, and the percentage they have gotten correct. Create cards interface: The create cards page should allow the user to specify the front and back of a flashcard and add to the user's collection. Each of these interfaces should be accessible in the sidebar. Generate a single page React app (put all styles inline).

위의 벤치마크 외에도, GPT-4.1은 형식을 더 안정적으로 따르고 불필요한 편집을 덜 자주 발생시킵니다. 내부 평가에서 코드의 불필요한 편집은 GPT-4o의 경우 9%에서 GPT-4.1의 경우 2%로 감소했습니다.

실제 사례

Windsurf: 첫 번째 검토에서 코드 변경이 얼마나 자주 승인되는지와 밀접한 관련이 있는 Windsurf의 내부 코딩 벤치마크에서 GPT-4.1은 GPT-4o보다 60% 더 높은 점수를 받았습니다. 사용자들은 툴 호출 효율성이 30% 더 높고 불필요한 편집을 반복하거나 지나치게 좁은 증분 단계로 코드를 읽을 가능성이 약 50% 더 낮다고 언급했습니다. 이러한 개선 사항은 엔지니어링 팀의 더 빠른 반복과 원활한 워크플로로 이어집니다.

Qodo: Qodo는 미세 조정 벤치마크에서 영감을 얻은 방법론을 사용하여 다른 주요 모델과 GPT-4.1을 직접 비교 테스트하여 GitHub 풀 리퀘스트에서 고품질 코드 리뷰를 생성하는 데 있어 GPT-4.1을 테스트했습니다. 동일한 프롬프트와 조건으로 200개의 의미 있는 실제 풀 리퀘스트에서 GPT-4.1이 55%의 사례에서 더 나은 제안을 생성한다는 사실을 발견했습니다.

⁠

특히 GPT-4.1은 정확성(제안을 하지 말아야 할 때를 파악)과 포괄성(필요한 경우 철저한 분석 제공) 모두에서 탁월하며, 진정으로 중요한 문제에 집중하는 것으로 나타났습니다.

지시 준수

GPT-4.1은 지시 사항을 더 안정적으로 따르며, 다양한 지시 사항 후속 평가에서 상당한 개선이 이루어졌습니다. 여러 차원과 다음과 같은 몇 가지 주요 지시 사항 준수 범주에서 모델 성과를 추적하기 위해 지시 사항 준수에 대한 내부 평가를 개발했습니다.

형식 준수: 모델 응답의 사용자 지정 형식(예: XML, YAML, Markdown 등)을 지정하는 지시 사항 제공
네거티브 지시 사항: 모델이 피해야 하는 행동을 지정합니다. (예: "사용자에게 지원팀에 문의하도록 요청하지 마세요")
주문 지시 사항: 모델이 주어진 순서대로 따라야 하는 일련의 지시 사항을 제공합니다. (예: "먼저 사용자의 이름을 물어본 다음 이메일을 물어보세요")
콘텐츠 요구 사항: 특정 정보를 포함하는 콘텐츠 출력. (예: "영양 계획 작성 시 항상 단백질 양을 포함하세요")
순위: 특정 방식으로 출력의 순서를 지정합니다. (예: "인구 수별로 응답 정렬")
과신(Overconfidence) 방지: 요청된 정보를 알 수 없거나 요청이 해당 범주에 속하지 않을 때 모델이 "모르겠습니다" 등으로 답변하도록 지시 (예: "답을 모르면 지원 연락처 이메일을 제공하세요.")

이러한 카테고리는 개발자들이 어떤 지시 사항을 따르는 것이 가장 관련성이 높고 중요한지에 대한 피드백을 반영한 결과입니다. 각 카테고리 내에서 쉬운, 중간, 어려운 프롬프트(질문)로 구분했습니다. GPT-4.1은 특히 어려운 프롬프트에서 GPT-4o에 비해 크게 개선되었습니다.

평가 후 내부 지시 사항은 실제 개발자 사용 사례와 피드백을 바탕으로 다양한 복잡성을 가진 작업과 서식, 장황함, 길이 등에 대한 지시 사항을 다룹니다.

많은 개발자에게 다중 턴 지시 사항 수행은 매우 중요한데, 모델이 대화 깊숙한 곳까지 일관성을 유지하고 사용자가 이전에 말한 내용을 추적하는 것이 중요하기 때문입니다. 저희는 GPT-4.1이 대화의 과거 메시지에서 정보를 더 잘 골라낼 수 있도록 훈련시켜 보다 자연스러운 대화가 가능하도록 했습니다. Scale의 멀티챌린지 벤치마크는 이 기능을 측정하는 데 유용한 척도이며, GPT-4.1은 GPT-4o보다 10.5% 더 나은 성능을 보입니다.

멀티챌린지에서⁠ 모델은 멀티턴 대화에서 이전 메시지의 네 가지 정보를 적절하게 사용하도록 도전받습니다.

또한 GPT-4.1은 IFEval에서 87.4%의 점수를 받은 반면, GPT-4o는 81.0%의 점수를 받았습니다. IFEval은 검증 가능한 지시 사항(예: 콘텐츠 길이 지정 또는 특정 용어 또는 형식 피하기)이 포함된 프롬프트를 사용합니다.

IFEval에서⁠를 사용하면 모델은 다양한 지시 사항을 준수하는 답변을 생성해야 합니다.

명령어 추종이 개선되면 기존 애플리케이션의 안정성이 향상되고, 이전에는 안정성이 좋지 않아 제한되었던 새로운 애플리케이션을 사용할 수 있습니다. 초기 테스터들은 GPT-4.1이 문자 그대로의 메시지가 될 수 있다는 점을 지적했으므로 메시지에 명시적이고 구체적인 내용을 담는 것이 좋습니다. GPT-4.1의 프롬프트 모범 사례에 대한 자세한 내용은 프롬프트 가이드를 참조하세요.

실제 사례

Blue J⁠: Blue J의 가장 까다로운 실제 세금 시나리오에 대한 내부 벤치마크에서 GPT-4.1은 GPT-4o보다 53% 더 정확했습니다. 시스템 성능과 사용자 만족도 모두에 중요한 정확도 향상은 복잡한 규정에 대한 GPT-4.1의 향상된 이해도와 긴 맥락에서 미묘한 지시 사항을 따르는 능력을 강조합니다. Blue J 사용자에게는 더 빠르고 안정적인 세금 조사와 고부가가치 자문 업무에 더 많은 시간을 할애할 수 있다는 의미입니다.

Hex⁠: GPT-4.1은 Hex의 가장 까다로운 SQL 평가 집합을 ,2배 가까이 개선했습니다⁠. 명령어 추종과 의미 이해에서 상당한 향상을 보여주었습니다. 이 모델은 전체 정확도에 직접적인 영향을 미치고 프롬프트만으로는 조정하기 어려운 업스트림 결정 지점인 크고 모호한 스키마에서 올바른 테이블을 선택하는 데 있어 더욱 안정적이었습니다. Hex의 경우, 그 결과 수동 디버깅이 눈에 띄게 감소하고 프로덕션급 워크플로우로 더 빠르게 전환할 수 있었습니다.

긴 컨텍스트

GPT-4.1, GPT-4.1 mini, GPT-4.1 nano는 이전 GPT-4o 모델의 128,000개에서 최대 100만 개의 컨텍스트 토큰을 처리할 수 있습니다. 100만 개의 토큰은 전체 React 코드베이스의 8개 이상의 사본이므로 긴 컨텍스트는 대규모 코드베이스 또는 긴 문서를 처리하는 데 매우 적합합니다.

저희는 GPT-4.1이 전체 100만 개의 문맥 길이에 걸쳐 정보를 안정적으로 인식하도록 훈련시켰습니다. 또한 관련 텍스트를 알아차리고 길고 짧은 문맥 길이에 걸쳐 방해 요소를 무시하는 데 있어 GPT-4o보다 훨씬 더 안정적으로 작동하도록 학습시켰습니다. 긴 문맥 이해는 법률, 코딩, 고객 지원 및 기타 여러 분야의 애플리케이션에서 매우 중요한 기능입니다.

아래에서는 컨텍스트 윈도우 내의 다양한 지점에 위치한 작은 숨겨진 정보(건초 더미 속 바늘")를 검색하는 GPT-4.1의 기능을 보여드리겠습니다. GPT-4.1은 최대 100만 토큰까지 모든 위치와 모든 컨텍스트 길이에서 바늘을 일관되게 정확하게 검색합니다. 입력의 위치에 관계없이 당면한 작업과 관련된 세부 정보를 효과적으로 가져올 수 있습니다.

내부 건초 더미 내 바늘 평가에서 GPT-4.1, GPT-4.1 미니, GPT 4.1 나노는 최대 1백만 토큰까지 모든 위치에서 바늘을 검색할 수 있습니다.

하지만 현실에서 하나의 명확한 답을 찾는 것만큼 간단한 작업은 거의 없습니다. 사용자들은 종종 여러 정보를 검색하고 이해하며, 이러한 정보를 서로 연관 지어 이해하는 모델을 필요로 합니다. 이러한 기능을 선보이기 위해 새로운 평가 기능을 오픈소스로 공개합니다: OpenAI-MRCR(다중 라운드 상호 참조)입니다.

OpenAI-MRCR은 문맥에 잘 숨겨져 있는 여러 바늘을 찾아내어 구분하는 모델의 능력을 테스트합니다. 평가는 사용자와 어시스턴트 간의 다중 턴 합성 대화로 이루어지며, 사용자가 "맥에 대한 시를 써줘" 또는 "바위에 대한 블로그 게시물을 써줘"와 같이 주제에 대한 글을 요청합니다. 그런 다음 컨텍스트 전체에 걸쳐 두 개, 네 개 또는 여덟 개의 동일한 요청을 삽입합니다. 그런 다음 모델은 특정 인스턴스에 해당하는 응답을 검색해야 합니다(예: "태피어에 대한 세 번째 시를 알려줘").

문제는 이러한 요청과 나머지 컨텍스트 모델 간의 유사성에서 발생하는데, 시 대신 짧은 이야기나 시 대신 개구리에 대한 시와 같은 미묘한 차이로 인해 쉽게 오해를 불러일으킬 수 있습니다. 저희는 GPT-4.1이 최대 128K 토큰의 컨텍스트 길이에서 GPT-4o보다 성능이 뛰어나고 최대 100만 토큰에서도 강력한 성능을 유지한다는 사실을 발견했습니다.

그러나 이 작업은 고급 추론 모델에게도 여전히 어려운 과제이며, 우리는 평가 데이터 세트를 공유합니다.⁠ 그리고 실제 긴 컨텍스트 검색에 대한 추가 작업을 장려합니다.

OpenAI-MRCR에서⁠의 경우, 모델은 방해 요소에 흩어져 있는 2개, 4개 또는 8개의 사용자 프롬프트(질문)를 서로 구분해야 하는 질문에 답해야 합니다.

Graphwalks도 출시합니다.⁠ 멀티홉 긴 컨텍스트 추론을 평가하기 위한 데이터 세트입니다. 코드를 작성할 때 여러 파일 사이를 이동하거나 복잡한 법적 질문에 답할 때 문서를 상호 참조하는 등 긴 컨텍스트에 대한 많은 개발자의 사용 사례에는 컨텍스트 내에서 여러 논리적 홉이 필요합니다. 모델(또는 사람)은 이론적으로 프롬프트(질문)를 한 번 읽음으로써 OpenAI-MRCR 문제를 해결할 수 있지만, Graphwalks는 컨텍스트의 여러 위치에 걸친 추론이 필요하며 순차적으로 해결할 수 없도록 설계되어 있습니다.

Graphwalks는 16진수 해시로 구성된 방향성 그래프로 컨텍스트 창을 채운 다음, 모델에 그래프의 임의 노드에서 시작하여 폭 우선 검색(BFS)을 수행하도록 요청합니다. 그런 다음 특정 깊이에 있는 모든 노드를 반환하도록 요청합니다. GPT-4.1은 이 벤치마크에서 61.7%의 정확도를 달성하여 o1의 성능과 일치하며 GPT-4o를 손쉽게 능가합니다.

Graphwalks에서, 모델은 큰 그래프에서 임의의 노드를 선택하여 너비 우선 탐색(breadth-first search)을 수행하도록 요청받습니다.

벤치마크만으로는 모든 것을 알 수 없으므로 알파 테스트 파트너와 협력하여 실제 긴 컨텍스트 작업에서 GPT-4.1의 성능을 테스트했습니다.

실제 사례

톰슨 로이터: 톰슨 로이터는 법률 업무를 위한 전문가급 AI 비서인 CoCounsel로 GPT-4.1을 테스트했습니다. 내부의 긴 문맥 벤치마크에서 GPT-4.1을 사용한 결과, 여러 개의 긴 문서가 포함된 복잡한 법률 워크플로우를 처리하는 CoCounsel의 능력을 측정하는 필수 척도인 다중 문서 검토 정확도가 GPT-4o에 비해 17% 향상되었습니다. 특히 이 모델은 소스 전반의 컨텍스트를 유지하고 법률 분석 및 의사 결정에 중요한 상충되는 조항이나 추가 보충 컨텍스트와 같은 문서 간의 미묘한 관계를 정확하게 식별하는 데 있어 매우 신뢰할 수 있는 것으로 나타났습니다.
Carlyle: Carlyle은 GPT-4.1을 사용해 PDF, Excel 파일 및 기타 복잡한 형식을 포함한 여러 개의 긴 문서에서 세분화된 재무 데이터를 정확하게 추출했습니다. 내부 평가에 따르면, 이 모델은 데이터가 밀집된 대용량 문서에서 검색할 때 50% 더 나은 성능을 보였으며, 건초더미 검색, 중간 정보 손실 오류, 문서 간 다중 홉 추론 등 다른 모델에서 볼 수 있는 주요 한계를 성공적으로 극복한 최초의 모델이었습니다.

개발자에게는 모델 성능과 정확성 외에도 사용자의 요구에 발맞추고 충족하기 위해 빠르게 반응하는 모델이 필요합니다. 저희는 추론 스택을 개선하여 첫 토큰 생성 시간을 단축했으며, 프롬프트 캐싱을 통해 지연 시간을 더욱 단축하고 비용도 절감할 수 있습니다. 초기 테스트에서 GPT-4.1의 첫 토큰 생성 시간은 128,000 토큰의 컨텍스트에서 약 15초, 100만 토큰의 컨텍스트에서 약 1분이었습니다. GPT-4.1 미니와 나노는 더 빠릅니다. 예를 들어, GPT-4.1 나노는 128,000개의 입력 토큰이 있는 쿼리의 경우 5초 이내에 첫 번째 토큰을 반환하는 경우가 가장 많았습니다.

비전

GPT-4.1 제품군은 이미지 이해 능력이 매우 뛰어나며, 특히 GPT-4.1 미니는 이미지 벤치마크에서 GPT-4o를 능가하는 등 상당한 도약을 이뤄냈습니다.

MMMU에서⁠ 모델이 차트, 다이어그램, 지도 등이 포함된 질문에 답합니다(참고: 이미지가 포함되어 있지 않더라도 문맥을 통해 많은 답을 유추하거나 추측할 수 있습니다).

CharXiv-Reasoning에서 모델이 과학 논문의 차트에 대한 질문에 답합니다.

긴 동영상 처리와 같은 멀티모달 사용 사례에서도 긴 컨텍스트 성능은 중요합니다. 비디오-MME에서 (자막 없이 긴) 30~60분 길이의 동영상을 바탕으로 객관식 문제에 답하는 테스트입니다. GPT-4.1은 최신 성능을 달성하여 GPT-4o의 65.3%보다 높은 72.0%의 점수를 기록했습니다.

Video-MME에서⁠는 모델이 자막 없이 30~60분 길이의 동영상을 바탕으로 객관식 문제에 답합니다.

가격 책정

GPT-4.1, GPT-4.1 미니 및 GPT-4.1 나노는 이제 모든 개발자가 사용할 수 있습니다. 추론 시스템의 효율성 개선을 통해 GPT-4.1 시리즈의 가격을 낮출 수 있었습니다. GPT-4.1은 평균적인 쿼리 기준으로 GPT-4o보다 26% 저렴하며, GPT-4.1 나노는 역대 가장 저렴하고 빠른 모델입니다. 동일한 컨텍스트를 반복적으로 통과하는 쿼리의 경우, 이 새로운 모델에 대해 프롬프트 캐싱 적용 시 할인율을 기존 50%에서 75%로 인상합니다. 마지막으로, 장문(대용량) 컨텍스트 요청에 대해 별도의 추가 비용 없이 표준 토큰당 비용만 부과합니다.

이러한 모델은 Batch API 사용 시 50% 추가 할인된 가격으로 제공됩니다.

결론

GPT-4.1은 AI의 실제 적용에 있어 중요한 진전입니다. 이 모델은 코딩, 지시 사항 수행, 긴 문맥 이해 등 실제 개발자 요구에 초점을 맞춰 지능형 시스템과 정교한 에이전트 기반 애플리케이션을 구축할 수 있는 새로운 가능성을 열어줍니다. 저희는 개발자 커뮤니티의 창의성에서 지속적으로 영감을 받고 있으며, 여러분이 GPT-4.1을 통해 무엇을 개발할지 기대가 됩니다.

부록

학업, 코딩, 명령어 따라하기, 긴 문맥, 시각, 함수 호출 평가에 대한 전체 결과 목록은 아래에서 확인할 수 있습니다.

[1] 저희의 GPQA 구현은 정규식 대신 모델을 사용하여 답을 추출합니다. GPT-4.1의 경우 그 차이는 1% 미만이었지만(통계적으로 유의미하지 않음), GPT-4o의 경우 모델 추출을 통해 점수가 크게 향상되었습니다(~46% -> 54%).

[2] 인프라에서 실행할 수 없는 23/500개의 문제를 생략합니다. 생략된 23개 작업의 전체 목록은 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530' 등입니다, 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' 및 'sphinx-doc__sphinx-9367'이 있습니다.

[3] 참고: 멀티챌린지의 기본 채점자(GPT-4o)는 모델 응답을 잘못 채점하는 경우가 종종 있습니다. 채점자를 o3-mini와 같은 추론 모델로 바꾸면 검사한 샘플의 채점 정확도가 크게 향상되는 것을 확인했습니다. 리더보드와의 일관성을 위해 두 가지 결과 세트를 모두 게시합니다. 참고: 멀티챌린지의 기본 채점자(GPT-4o)가 모델 응답을 잘못 채점하는 경우가 자주 발견되었습니다. 채점자를 추론 모델(예: o3-mini)로 바꾸면 검사한 샘플의 채점 정확도가 크게 향상되는 것을 확인했습니다. 리더보드와의 일관성을 위해 두 가지 결과 세트를 모두 공개합니다.

[4] 타우 벤치 평가 수치는 편차를 줄이기 위해 5회 실행에 걸쳐 평균을 내며, 사용자 지정 도구나 프롬프트 없이 실행됩니다.
[5] 괄호 안의 숫자는 GPT-4o가 아닌 GPT-4.1을 사용자 모델로 사용했을 때의 타우 벤치 결과를 나타냅니다. GPT-4.1이 명령어 추종에 더 뛰어나기 때문에 사용자로서 더 나은 성능을 발휘할 수 있으며, 따라서 더 성공적인 궤적을 생성한다는 것을 발견했습니다. 이것이 벤치마크에서 평가된 모델의 실제 성능을 나타낸다고 생각합니다.

<참고 영상>

https://www.youtube.com/live/kA-P9ood-cE

<원문>

Introducing GPT-4.1 in the API