지난 8월 5일, OpenAI는 두 개의 언어 모델 gpt-oss-120b와 gpt-oss-20b를 출시했습니다. Apache 2.0 라이선스에 따라, 자유롭게 사용할 수 있는 이 두 모델은 o3를 비롯한 OpenAI의 내부 모델을 기반으로 한 강화학습 등을 거쳐 훈련되었습니다. 이번 글에서는 ‘gpt-oss’를 직접 사용해 보며 느낀 점과, 진화하는 기업형 LLM의 새로운 가능성을 살펴보고자 합니다.
OpenAI는 gpt-oss 모델들이 “추론(reasoning), 효율성(efficiency), 그리고 다양한 배포 환경(real-world usability)”을 중점으로 훈련되었다고 밝히며, 오픈 모델(open-weight language models)을 공개하는 것이 GPT-2 이후 처음이라는 점을 강조합니다. 여기서 다양한 배포 환경의 의미는 개인이나 기업이 자체 인프라에 배포하여, 원하는 방식으로 사용할 수 있는 오픈소스 LLM 환경을 의미합니다.
이제 기업들이 LLM을 도입하는 방식은 단순한 챗봇을 넘어, 내부 지식 검색이나 운영 효율화 같은 실질적 업무 지원으로 확장되고 있습니다. 특히 사내 문서, 운영 매뉴얼, 기술 위키처럼 구조화되지 않은 방대한 정보가 쌓이면서, 전통적인 키워드 검색만으로는 충분하지 않다는 문제가 분명해지고 있죠.
이러한 맥락에서 보안상 외부 API를 사용할 수 없는 기업 환경에서는 폐쇄형 LLM을 직접 운영하려는 수요가 빠르게 늘어났고, DeepSeek 같은 오픈 모델이 주목받으면서 OpenAI도 이를 외면할 수 없었습니다.
gpt-oss-120b 모델은 추론 벤치마크에서 o4-mini와 근접한 결과를 만들고, 단일 80GB GPU에서 효율적으로 구동됩니다. gpt-oss-20b 모델은 16GB 메모리급 GPU 환경에서도 실행되며, o3-mini에 유사한 결과를 보인다고 합니다. 이는 실무 환경에서 팀의 하드웨어 여건과 서비스 목표에 따라 모델을 나눠 적용하기에 적절합니다.

아키텍처적으로는 Mixture-of-Experts(MoE)를 채택한 점이 특징입니다. MoE는 한마디로 “전문가 상담소”같은 구조입니다. 일반 LLM은 모든 질문을 한 팀이 다 처리하지만, MoE는 여러 명의 전문가가 대기하고 있다가, 질문의 성격에 맞는 소수의 전문가만 골라서 답을 준비합니다. 이때 어떤 전문가를 부를지 결정해 주는 사람이 라우터이고, 라우터가 매 토큰마다 “이번에는 전문가 A와 C가 적합하니 두 분만 나와 주세요”처럼 선택을 합니다.

이 방식의 장점은 모델의 전체 크기(파라미터 수)는 아주 크더라도, 매 순간 실제로 계산에 참여하는 전문가 수가 적기 때문에 계산량과 지연이 줄어든다는 점입니다. 즉, 거대한 모델을 계속 풀가동하지 않고도 큰 모델이 가진 지식과 패턴을 부분적으로 똑똑하게 활용할 수 있죠. 결과적으로 입력을 처리하는 데 필요한 활성 파라미터의 수를 감소시킬 수 있습니다.
사고 사슬(Chain-of-Thought, CoT)이란 모델이 단순히 답만 내놓는 것이 아니라, 답을 얻기까지의 사고 과정을 단계별로 드러내는 방식을 말합니다.
예를 들어, “3개의 사과가 있고 2개를 더 사면 총 몇 개일까요?”라는 질문에 일반적인 모델은 그냥 “5개”라고 답할 수 있습니다. 반면 사고 사슬을 활성화하면 모델은 이렇게 생각 과정을 표현합니다.
즉, 중간 논리 단계를 자연어로 기록해 가면서 최종 답을 도출하는 것이 사고 사슬입니다. OpenAI는 최근 연구에서 추론 모델의 CoT를 모니터링하는 것이 오작동을 탐지하는 데 도움이 될 수 있다고 밝혔는데요. gpt-oss 모델이 CoT 추론을 기본적으로 지원하도록 설계했다고 합니다. 이는 단순 대화형 응답을 넘어, 에이전틱(Agentic) 워크플로에 알맞은 서비스를 구현하는 데 매우 중요한 기능입니다.
배포와 운영의 관점에서도 진입 장벽을 낮추려는 시도가 뚜렷합니다. 두 모델은 Hugging Face에서 무료로 다운로드할 수 있으며, MXFP4 형식으로 기본적인 양자화가 되어 있습니다. vLLM이나 Ollama, llama.cpp와 같은 LLM 추론 서버를 사용하여, 개발용 노트북부터 서버급 GPU까지 다양한 환경에서 쉽게 올릴 수 있도록 가이드가 정리되어 있습니다.
팀에 적용할 때는 OpenAI가 공개한 레시피 모음과 실행 가이드를 함께 참고하면, 양자화, 배치, 캐시 최적화, 경량 파인튜닝을 빠르게 시도할 수 있습니다.
이제 gpt-oss 모델을 실제로 사용해 본 후기입니다. 첫 번째 예제는 Nvidia RTX 4000 Ada 모델의 GPU 인스턴스에서 얼마나 무리 없이 구동되는지를 살펴보았고, 두 번째는 타 LLM 모델과의 성능 테스트, 세 번째는 실제 내부 프로젝트에 gpt-oss 모델을 적용해 봤습니다.
첫 번째 테스트 환경은 Ollama 추론 서버로 결정했습니다. Ollama의 최신 엔진은 gpt-oss가 채택한 MXFP4(4비트 혼합 정밀도) 형식을 기본적으로 지원하기 위해 새로운 커널과 런타임 최적화가 적용되어 있습니다. 덕분에 별도의 사전 양자화(quantization) 과정 없이도 모델을 곧바로 실행할 수 있고, 이는 메모리 사용량을 크게 절감하면서도 추론 품질의 손실을 최소화할 수 있습니다.

테스트 환경은 20GB 메모리를 가진 GPU 4장을 병렬로 묶은 구성에서 진행되었습니다. gpt-oss-120b 모델 실행 시 약 4~6초 수준의 초기 지연(First Token Latency)이 있었으나, 스트리밍 토큰 출력 속도는 안정적으로 유지되어, 실제 사용 환경에서 “너무 느리다”라는 느낌은 주지 않았습니다. 반면, gpt-oss-20b 모델은 단일 GPU만으로도 구동이 가능했고, 응답 지연이 짧아 대화형 애플리케이션에 적합한 속도를 보여줬습니다.
특히 Ollama는 GPU 리소스를 자동으로 분산 스케줄링해 병렬 연산을 최적화하는데요. 이 과정에서 KV 캐시 관리(key-value caching) 및 배치(batch) 실행 최적화가 적용되어, 효율적인 추론이 가능했습니다. 이러한 구조적 이점 덕분에 OpenWebUI와의 연동에서도 안정적인 실시간 응답을 제공할 수 있었고, 추가적인 튜닝 없이도 프로토타이핑 단계에서 충분히 실무 적용성을 검증할 수 있었습니다.

이번 벤치마크는 vLLM 추론 서버를 기반으로 파이썬으로 작성한 코드를 통해 수행했습니다. gpt-oss-20b 모델과 함께 Mistral, Gemma, Qwen2 등 최신 오픈소스 모델들을 동일한 환경에서 비교 테스트했고요. 테스트는 단순 응답 속도뿐만 아니라, 추론 정확도(reasoning accuracy), 사실성(factuality), 창의성(creativity), 지식 기반 질의응답 능력(KB-QA) 등을 종합적으로 평가하는 방식으로 진행되었습니다.
Mistral-7B는 경량 모델답게 낮은 지연(latency)과 높은 처리량(throughput)을 보여주며, reasoning 태스크에서 우수한 결과를 기록했으나, 복잡한 도메인 지식 질의에서는 커버리지가 제한적이었습니다.
Gemma-7B는 창의적 텍스트 생성(creative generation)에서 안정적인 품질을 보였으나, 사실 일관성(factual consistency) 측면에서는 불완전한 답변이 빈번하게 관찰됐죠. 반면, Qwen2-7B는 속도와 정확성 모두에서 균형 잡힌 결과를 보이며, 범용 모델로서의 강점을 보여줬습니다.

동일한 GPU 및 프롬프트 조건에서 gpt-oss-20b는 전반적인 작업 속도와 추론 능력에서 가장 뛰어난 성능을 보였습니다. 특히 reasoning 과제에서는 100% 정확도를 달성했으며, 이는 체계적인 사고 사슬 생성이 기본적으로 활성화된 아키텍처 설계 덕분으로 해석됩니다.
동일한 GPU 환경에서 gpt-oss-120b를 vLLM 서버와 함께 구동했을 때는 추론 지연이 심각하게 증가해 벤치마크 결과에서 제외했는데요. 이는 MXFP4 양자화 포맷에 대해 제 환경에서 vLLM 런타임 최적화 미비가 주요 원인으로 추정됩니다. 추후 vLLM의 커널 레벨 최적화 및 CUDA 커스텀 연산자 지원이 다양한 GPU에 적용될 수 있다면, 120b 모델 또한 적은 리소스로 구동할 수 있는 가능성이 있습니다.
매출 데이터를 활용한 글로벌 시장 분석용 사내 AI 애플리케이션은 원래 DeepSeek R1 모델 기반으로 운영되고 있었습니다. 재무 데이터 특성상 외부 API를 활용하기 어려워, 내부 직원만 접근 가능한 사설 클라우드 환경에 LLM 모델과 애플리케이션을 직접 배포해야 했습니다.
gpt-oss-20b 모델을 적용하여 숫자로 이루어진 복잡한 판다스 데이터프레임을 직접 입력값으로 받아, 차트 요약, 시계열 패턴 탐지, 지역별 시장 분석, 전략적 시나리오 제안까지 훨씬 정교한 응답을 생성할 수 있었죠. 특히 20b 모델은 수치 데이터 해석과 자연어 서술을 결합하는 멀티모달적 활용에 적합해, 단순한 요약을 넘어 데이터 기반 인사이트를 설명 가능한 형태로 도출해 준다는 장점이 있습니다.

기존 R1 대비, 추론 안정성(reasoning robustness)과 맥락 유지(context retention) 측면에서 향상된 결과를 보여줬는데요. GPU 리소스를 크게 소모하지 않으면서도, 우리 환경에서 필요한 응답 품질을 충족시켰습니다. 즉, 초거대 모델을 돌리지 않고도 재무 데이터 분석용 AI Copilot으로써 충분히 활용 가능한 수준의 성능을 보여주었다는 점이 핵심 성과입니다.
GPT-5와 비슷한 시기에 출시된 gpt-oss의 등장은 단순히 새로운 모델의 추가가 아니라, 기업과 개인 모두에게 AI를 바라보는 방식을 바꾸게 만드는 전환점이라 할 수 있습니다. 외부 서비스 의존에서 벗어나, 자율적으로 모델을 운영할 수 있다는 건 보안, 비용, 맞춤화 측면에서 큰 자유를 제공하기 때문입니다.
앞으로 기업들은 gpt-oss를 활용해, 내부 데이터에 특화된 지식 검색, 의사결정 지원, 맞춤형 에이전트 구축까지 다양한 영역으로 확장해 나갈 수 있습니다. 또한 중소기업이나 스타트업도 부담 없이 대형 모델을 다루며, 혁신을 시도할 수 있다는 점에서 산업 전반의 균형을 바꿔 놓을 잠재력을 지니고 있죠. 결국 gpt-oss는 ‘AI를 어떻게 쓸 것인가’에 대한 선택지를 넓혀 주었고, 이는 기술 민주화의 중요한 한 걸음이라 할 수 있습니다. 이제 남은 과제는 각 조직과 개발자가 이 기회를 얼마나 창의적이고 전략적으로 활용할 수 있느냐에 달려 있습니다.
특히 RAG, 멀티모달 확장, 에이전틱 워크플로와 같은 차세대 활용 방식과 결합한다면, 단순히 답변을 생성하는 도구를 넘어 의사결정을 지원하고 새로운 비즈니스 가치를 창출하는 핵심 엔진이 되지 않을까 싶습니다.
<참고 자료>
©️요즘IT의 모든 콘텐츠는 저작권법의 보호를 받는 바, 무단 전재와 복사, 배포 등을 금합니다.