GPT vs. 클로드 vs. 제미나이, 무엇이 가장 비쌀까?
AI 프로덕트 프라이싱 시리즈
④ GPT vs. 클로드 vs. 제미나이, 무엇이 가장 비쌀까?

이전 글에서는 AI 모델의 호스팅 비용과 리스크 관리 비용에 대해 알아보았습니다. 이번 글은 지금까지 살펴본 모든 비용 발생 요인을 고려해, AI 주요 벤더의 가격 모델을 어떻게 선택하면 좋을지 알아보려 합니다.
지금 당장 서울역으로 가야 한다면?
그에 앞서, 서울역으로 지금 당장 가야 한다면, 여러분은 어떤 교통수단을 선택하시겠습니까?
대중교통을 이용할 때, 가장 편하고 빠른 택시를 타기 주저하는 이유 중 하나는 비용입니다. 택시 요금 체계는 소요된 시간과 거리만큼 과금하는 구조이기 때문에 다른 교통수단보다 비용이 높을 수 있습니다. 게다가 교통체증이나 정체로 인해 서행할 경우 이동 거리 대신 시간이 흐른 만큼 추가 요금이 발생합니다. 반면 지하철은 거리에 따라 추가 요금이 부과되지만, 택시처럼 시간 요금이나 높은 비용 부담은 없습니다.
그럼에도 불구하고 편리성과 접근성 때문에 택시를 이용한다고 해보겠습니다.
이처럼 교통수단을 결정한 후에는 편리함, 목적, 비용을 고려해 적합한 서비스를 고르게 됩니다. 이제 또 다른 선택을 할 차례입니다. 여러분은 카카오택시, 우버(UT), 타다 중 어떤 서비스를 선택하시겠습니까?


여러 대중교통 중에서도 택시 요금을 언급한 이유는 택시의 과금 구조가 다른 이동 수단에 비해 상대적으로 비싸기 때문입니다.
대규모 언어 모델(LLM) 서비스도 이와 유사한 구조, 그리고 인식을 가지고 있습니다. 다양한 연령대의 사용자가 업무와 일상에서 폭넓게 사용하는 LLM 서비스는 일반적으로 사용한 만큼 과금되는 체계로, 타 서비스에 비해 비싸다는 인식이 있습니다.
그중 가장 대중적이고 잘 알려진 챗GPT(ChatGPT) 구독 여부는 항상 사람들의 논의 대상입니다. 해외 커뮤니티에서는 넷플릭스나 스포티파이 같은 성격이 다른 구독 서비스와 비교해 보면, 챗GPT의 가격이 비싸기에 더 저렴해져야 한다는 주장이 나오기도 합니다.
반면 2023년, 오픈AI가 챗GPT 운영에만 하루 70만 달러를 쓰며 이로 인해 회사가 재정적 부담이 된다는 기사가 다수 등장했습니다.* 결국 2024년 12월, 수익성을 개선을 위해 오픈AI는 월 $200인 프로 플랜을 출시하기도 했습니다.
*Business Insider, ChatGPT could cost over $700,000 per day to operate. Microsoft is reportedly trying to make it cheaper., Apr 20, 2023
이처럼 어느 서비스든 과금 체계와 금액에 대해 사용자와 기업의 입장은 크게 다를 수밖에 없습니다. 따라서 AI 제품을 만드는 실무자라면 이러한 차이를 이해하고, 어떤 상황에서 어떤 모델 또는 서비스를 선택하는 것이 가장 합리적인지 살펴보는 것이 중요합니다.
LLM 서비스의 가격에 영향을 미치는 요소
대규모 언어 모델(LLM)은 입력된 언어를 이해하고 결과물을 생성하는 과정에서 토큰(token)을 사용해 비용을 산정합니다. 토큰이란 텍스트를 처리하고 생성하는 데 필요한 기본 단위입니다. 우리가 쓰는 주요 서비스들은 토큰화(tokenization) 과정을 거쳐 LLM이 이해할 수 있도록 텍스트를 효율적으로 분석 가능한 단위로 분리합니다.
토큰이 과금 체계의 핵심 단위로 떠오른 이유가 있습니다. 언어의 특성상 토큰 단위로 계산하는 방식이 가장 정확하기 때문입니다. LLM 서비스는 입력 텍스트와 출력 텍스트의 토큰 수를 기준으로 사용량을 계산하며, 이에 따라 비용을 책정합니다. 이러한 토큰 기반 가격 모델은 사용량에 따라 탄력적으로 비용을 부과하지만, 사용량이 많아질수록 비용 부담이 커질 수 있어 신중한 관리가 필요합니다.
LLM과 입/출력 토큰의 관계
토큰의 수가 많아질수록 LLM이 처리해야 할 데이터 양이 증가합니다. 그리고 이는 연산 복잡성과 작업 비용을 높입니다. LLM 사용 시 입력되는 프롬프트(prompt)는 토큰화 과정을 거쳐 입력(input) 토큰으로 변환되며, 생성된 결과물은 출력(output) 토큰으로 정의됩니다.
LLM 서비스는 입력 토큰과 출력 토큰의 수를 각각 카운트하여 가격을 책정합니다. 특히 입력과 출력 단계에서의 순전파(forward pass) 방식 차이가 각 토큰의 처리 비용에 영향을 미치게 됩니다. 이러한 구조는 LLM 서비스 가격 책정의 핵심 요소로 작용합니다.

입력 토큰 처리
- 입력 토큰은 단일 순전파(single forward pass)로 병렬 처리됩니다.
- 프롬프트에 필요한 모든 정보가 포함되어 있어 문장의 전체 맥락이 한 번에 전달되며, 이를 기반으로 LLM이 효율적으로 계산을 수행합니다.
출력 토큰 생성
- 출력 토큰은 개별 순전파(separate forward pass)로 순차적으로 생성됩니다.
- 이는 앞서 생성된 토큰을 참조해 새로운 토큰을 하나씩 생성하는 순차적인 과정입니다. 이 과정은 반복적으로 동작하기 때문에 더 많은 컴퓨팅 자원과 메모리가 필요합니다.
출력 토큰 처리는 입력 토큰 처리에 비해 더 많은 컴퓨팅 자원과 메모리를 소모합니다. 각 토큰을 생성할 때마다 모델이 맥락을 이해하기 위해 이전 데이터를 지속적으로 참조해야 하기 때문입니다. 이러한 차이로 인해 출력 토큰이 입력 토큰보다 비용이 높은 경우가 많습니다.
정리하면, LLM의 입출력 토큰은 각각의 처리 방식과 연산량에 따라 비용 구조가 달라지며, LLM 서비스가 사용량에 따라 가격을 책정하는 중요한 이유 중 하나가 됩니다.
토큰 외 LLM 서비스 가격에 영향을 미치는 요소

LLM 서비스의 가격은 서비스별, 모델별로 차이가 있으며, 동일한 서비스 내에서도 성능, 특화된 기능, 처리 가능한 데이터 양에 따라 가격과 결과물의 품질이 달라집니다. 예를 들어, GPT-3.5는 기본적인 언어 처리와 빠른 응답 속도에 중점을 둔 반면, GPT-4는 이미지와 오디오 같은 멀티모달 데이터를 처리할 수 있는 고급 기능과 높은 정확도를 제공합니다. 즉, 모델의 가치와 처리 능력에 따라 가격이 달라지게 됩니다.
모델의 복잡도
- 정교한 모델일수록 더 많은 계산이 필요하며, 높은 사고 능력을 지원하기 위해 많은 컴퓨팅 자원과 연산이 요구됩니다. 전문가를 고용하는 데 있어 경험과 역량이 높을수록 비용이 증가하는 상황과 유사합니다.
멀티모달 데이터 처리
- 이미지, 오디오, 동영상 등의 데이터를 처리하려면 마찬가지로 추가 리소스가 요구됩니다.
응답 속도와 지연 시간
- 빠른 응답과 낮은 지연 시간을 유지하기 위해서도 최적화된 인프라와 더 많은 컴퓨팅 자원이 필요합니다.
이처럼 모델의 복잡성, 처리할 토큰의 양, 멀티모달 데이터 처리 요구사항, 응답 속도 최적화 등 다양한 요인이 LLM 서비스의 가격 책정에 영향을 미칩니다.* 이는 각 모델의 기술 사양과 활용 방식에 따라 달라집니다.
*참고 글: 삼성 SDS 인사이트, AI의 경제학: 성공적인 AI 비즈니스를 위한 비용 최적화 전략, Jun 26, 2024
주요 AI 벤더의 가격 구성
지금까지 살펴본 요소를 바탕으로 주요 AI 벤더의 가격 구성을 본격적으로 살펴보겠습니다.
가장 잘 알려진 주요 LLM 벤더와 서비스로는 오픈AI-챗GPT(ChatGPT), 앤트로픽(Anthropic)-클로드(Claude), 구글(Google)-제미나이(Gemini)가 있습니다. 모두 토큰 단위 가격 책정을 기반으로 하며, API를 통해 사용량 기반 가격 모델을 제공합니다.
또한, 모델별로 제공하는 가치에 따라 가격이 달라지는 가치 기반 가격 모델 요소도 혼합되어 있으며, 입출력 토큰 비용이 각각 다르게 책정됩니다. 이러한 차이는 각 벤더의 가치와 전략적 방향에 따라 가격 구조가 다르게 설계된다는 점을 보여줍니다.


*Cached(캐시된 프롬프트): 오픈AI의 프롬프트 캐싱 기능을 통해 동일하거나 반복적인 입력을 저장하고 재사용하여 처리 속도와 비용을 절감하는 기술입니다.
참고
벤더별 모델 성능과 가격 비교
입출력 토큰에 각기 다른 비용을 청구하는 세 가지 벤더를 비교했을 때, 표면적으로는 오픈AI가 가장 비싸고 구글의 제미나이가 가장 저렴해 보입니다. 그러나 단순히 가격 차이만으로 서비스를 평가하기보다는, 각 서비스가 제공하는 가치와 기능을 분석해야 실제로 어느 서비스가 더 경제적이고 효율적인지 알 수 있습니다.
이를 확인하기 위해 각 서비스의 무료 모델에 동일한 프롬프트를 입력해 비교해 보았습니다. 프롬프트는 “페니실린 작용 원리에 대해 설명해줘”였으며, 이어서 “관련된 이미지를 생성해달라”고 요청했습니다.

텍스트 응답
- GPT, 클로드, 제미나이 모두 간결함의 차이는 있었지만 양질의 정보를 제공했습니다. 다만 각 원리를 쉽고 간결하게 설명을 할 것인지, 각 원리의 단계를 설명할 것인지, 한 번에 이해할 수 있도록 개념을 한 줄로 설명할 것인지 등 스타일에 차이는 있었습니다.
이미지 생성
- GPT는 이해하기 쉬운 단면적 구조를 잘 표현하였고, 클로드는 개념을 도형으로 생성하였지만 불완전한 그림이 나왔습니다. 그리고 제미나이는 과거 챗GPT가 ‘이미지 생성’ 기능 없이 DALL-E를 사용해서 생성하던 때와 유사한 다이어그램을 제작했습니다.
바로 직전 모델까지만 해도 클로드와 제미나이에서는 이미지 생성이 불가능했습니다. 그래픽 라이브러리를 사용하거나 구글 서칭을 통해 이미지를 제공하였는데, 이제 클로드는 코드를 통해 그래픽을 직접 그릴 수 있는 마크업 언어를 활용하고 제미나이는 구글의 Imagen 3 모델을 사용하여 이미지를 생성할 수 있습니다. GPT 또한 ‘이미지 생성’이라는 고품질의 이미지 생성 기능을 추가하는 한편 부분만 원하는 대로 수정할 수 있는 임프린트(imprint)가 가능해졌습니다.
그러나 이러한 차이는 모델의 연동 기능과 기술적 제한에 따른 것으로, 단순히 비용 기반으로 서비스를 평가하기에는 한계가 있습니다. 그런 만큼 선택 시에는 필요한 기능과 예산에 맞는 모델을 신중히 선택하는 것이 중요합니다.

벤더사가 제공하는 모델별 토큰 계산기
특히 각 서비스의 결과물과 비용 차이는 단순히 모델 성능뿐 아니라 기업이 어떤 가치를 우선시하는지에 따라 달라집니다. 답변의 간결함과 내용의 질은 가격에 영향을 미치며, 간결한 답변이 충분한지, 아니면 상세한 내용이 필요한지는 모델 선택의 중요한 요소로 작용합니다.
토큰 기반이 아닌 AI 서비스의 가격 책정 방식
마이크로소프트 애저 AI(Microsoft Azure AI) 솔루션은 텍스트나 메시지 단위로 과금하는 방식입니다. 이는 사용자가 직관적으로 이해할 수 있도록 설계된 편입니다. 다만 제공하는 솔루션에 따라 과금 방식과 단위가 다르게 적용됩니다.
예를 들어, 애저 AI 봇 서비스는 메시지 단위로 과금되기에, 대화형 서비스 가운데 예측 가능한 과금이 중요한 경우 적합합니다. 음성 처리나 언어 이해와 같은 추가 기능은 별도로 청구됩니다.
반면 애저 AI 언어 서비스는 텍스트 레코드 단위로 청구되며, 제출된 텍스트 양에 따라 계층별 요금이 적용됩니다. 또한, 모델 학습이나 컨테이너 연결 같은 추가 작업에도 별도 비용이 발생할 수 있습니다. 이러한 텍스트 기반 과금 방식은 작업량이 입출력 텍스트의 단순 길이로 결정되는 경우에 적합합니다.
다만 처음의 직관적인 설계에도 여러 조건들이 붙은 애저 AI 솔루션의 과금 구조는 복잡할 수 있으므로, 정확한 비용 파악을 위해 전문가 상담이나 가격 계산기를 활용하는 것을 권장합니다.

허깅페이스(Hugging Face)는 AI와 머신러닝을 위한 오픈소스 플랫폼으로, 다양한 AI 모델의 다운로드 및 활용을 지원합니다. 여기에는 모델 학습과 미세 조정을 위한 도구 등 다양한 리소스가 포함되어 있습니다.
허깅페이스의 LLM을 사용할 때 과금 방식은 주로 GPU 하드웨어 사용 시간에 기반합니다. 오픈소스 모델을 중심으로 사전 학습된 모델을 제공하는 허깅페이스의 특성상, 토큰 수가 아닌 컴퓨팅 자원 사용 시간에 따른 비용이 산정되는 것으로 추측할 수 있습니다. 즉, 추론을 실행할 때 쓰인 컴퓨팅 파워에 대한 요금이 부과되는 구조입니다.

마치며
이처럼 결국, 주요 AI 서비스의 가격은 사용량과 가치 기반 가격 모델에 따라 결정됩니다. 그렇기 때문에 비용 관리 도구의 필요성이 부각되고 있습니다. 오픈AI, 앤트로픽, 구글 모두 토큰을 계산하는 API 또는 토큰 계산기를 자체적으로 제공하며, 오픈AI의 경우 토큰이 대체로 얼마나 발생했는지 모니터링하는 대시보드까지 제공합니다.
또한, 공식적인 지원이 없더라도 비용과 토큰을 추적할 수 있는 외부 서비스도 존재합니다. 예를 들어, 에이전트옵스(AgentOps)는 AI 에이전트를 테스트하고 디버깅할 수 있는 플랫폼으로, LLM 사용을 모니터링하고 세밀하게 관리할 수 있는 다양한 도구를 제공합니다. 데이터 시각화, 프롬프트 상태 분석, 세션 드릴다운 등의 기능을 통해 심층 분석이 가능하며, 비효율적인 LLM 호출을 파악하고 토큰 소비를 최적화하는 전략을 제공합니다. 이를 통해 비용과 사용량을 직관적으로 관리하고 최적화할 수 있습니다.

무엇보다 LLM의 작동 방식을 이해하면 주요 AI 벤더들이 가격을 어떻게 구성하는지 쉽게 알 수 있습니다. 비용은 주로 입력과 출력, 그리고 각 서비스가 제공하는 기능에 기반하여 책정됩니다.
또한, 전통적인 가격 모델을 이해하는 것으로도 왜 많은 LLM 서비스가 사용량 기반으로 과금을 측정하는지 이유를 파악할 수 있습니다. 물론 일부 서비스는 시간과 같은 단위 기반으로 가격을 책정하기도 하지만, 이는 기업이 서비스를 제공하는 방식에 따라 다릅니다.
이렇듯 LLM 모델이 제공하는 가치와 성능에 따라 가격은 유동적이며, 가격이 높다고 해서 반드시 비효율적인 것은 아닙니다. 중요한 것은 우리에게 필요한 기능이 무엇인지, 그리고 해당 기업이 어떤 가치를 제공하는지를 명확히 이해하는 것입니다. 기업이 어떤 사용자 경험을 우선시하며, 어떤 기술적 강점을 활용하는지에 따라 가격과 결과물의 특성이 달라지기 때문에 모델 선택 시에는 필요와 예산에 맞는 모델을 신중히 고려해야 합니다.
결론적으로, AI 서비스와 LLM의 가격 구조를 이해하는 것은 최적의 선택과 효과적인 비용 관리를 위한 핵심입니다. 그래야만 우리 제품을 쓰는 사용자가 더 나은 서비스를 합리적인 비용으로 활용할 수 있을 것입니다.
©️요즘IT의 모든 콘텐츠는 저작권법의 보호를 받는 바, 무단 전재와 복사, 배포 등을 금합니다.