이번 글에서는 생성형 AI의 대표적인 기능인 ‘이미지 생성’과 ‘문서 요약’을 예로, 비용을 산정하는 방법에 대해서 알아봅시다. 역시 이 기능의 가격과 비용 역시 “얼마에 만들 수 있는가”보다는 “고객이 어떤 가치를 느끼고 얼마를 지불할 의향이 있는가”에 초점을 맞춰야 한다는 점을 기억하세요.

AI 기능 사용 비용

비용 계산 예 1: 이미지 생성, 편집 기능

쇼핑몰을 위한 AI 이미지 생성 기능의 비용을 계산해 보겠습니다. 예로 들어볼 기업은 고무 오리 인형을 전문으로 판매하는 매장인데요. 우리는 고무 오리 인형을 사면 얼마나 예쁠지, 고객들이 미리 알 수 있도록 실제 환경에 배치하는 가상의 이미지를 생성하고자 합니다.

제가 꿈꾸는 업무 공간 어딘가에 고무 오리 인형과 그의 자동차를 놓아두고 싶습니다. (아래 왼쪽의 업무 공간 이미지 역시 생성 이미지입니다.) 여기에 생성형 AI를 활용해 오른쪽 이미지처럼 책상 위에 고무 오리 인형과 자동차를 올려놓았습니다. 이제 이 생성 비용에 대해서 알아보겠습니다.

그림 1. 부분 배경을 바꾸어 채우는 AI 이미지 생성 기능의 예 <출처: 작가>

오픈AI 사이트에서 이미지 모델별 사용 가격을 확인할 수 있습니다.

이렇게 배경을 바꾸면서 채우기를 하려면 편집 기능에 인페인팅(inpainting)이란 기능이 존재해야 합니다. 오픈AI 이미지 생성 기술 매뉴얼에서 확인하면, 이 글을 쓰고 있는 2025년 3월 초 기준으로 API를 통해 인페인팅을 사용할 수 있는 모델은 DALL-E 2뿐입니다. 따라서 이미지 하나를 만들 때마다 약 2센트의 비용이 듭니다.

참고: 오픈AI, DALL-E API FAQ

그림 3. 오픈AI DALL-E 2 모델의 인페이팅 기능 설명 <출처: 오픈AI>

우리 고무 오리 인형 쇼핑몰에서 상품당 다섯 가지 다른 배경의 이미지를 원한다고 가정해 봅시다. 총 200개의 상품이 있다면 1,000개의 이미지 생성이 필요하다는 뜻입니다.

DALL-E2의 경쟁 기업인 스태빌리티AI(Stability.ai)와도 비교해 봅시다. 어떤 구독 멤버십을 가지고 있는지는 가정에서 제외하고 순수하게 이미지 생성 가격만 비교할 예정입니다. 스태빌리티AI 가격 페이지에서 인페인팅 비용을 보면 이미지당 3 크레딧(3 센트)입니다. 이미지 1,000개를 만들면 $30의 비용이 든다는 것을 의미합니다. DALL-E 2의 경우 1,000개의 이미지를 생성하는 데 $20이 소요되니, $10 저렴합니다.

그림 4. stability.ai에서 인페인팅 사용 가격 <출처: statbility.ai>

물론 스테이블 디퓨전(Stable Diffusion)의 생성 품질이 DALL-E 2보다 나을 수도 있습니다. 기능의 비용 투자 대비 수익을 파악하는 것은 여러분에게 달려 있습니다.

비용 계산 예 2: 기술 전문 도서 내용 요약하기

이번에는 여러분이 ‘글로벌 테크 기업의 교육 부서에서 근무하고 있으며, 새로운 전문 도서를 구매할 때마다 몇 가지 다른 언어로 요약해 게시하려고 한다’는 가정을 합니다. 요약에는 줄거리, 캐릭터 및 주제를 포함해야 합니다. 물론 그 외에도 몇 가지 가정을 추가하는 것에 동의가 필요합니다: 추가하려는 책의 수, 번역할 언어의 수, 독자가 원하는 요약 유형 등입니다.

테스트 결과를 관리할 스프레드시트를 가격 변수와 비용 두 가지 섹션으로 나누었습니다.

요약 대상으로 쓸 20권의 책이 있고 평균적으로 책당 10만 단어가 있다고 가정합니다. 이를 다섯 가지 다른 언어로 번역하고 줄거리, 주제, 등장인물 중심으로 한 세 가지 요약 유형이 필요합니다. 요약은 약 200 단어로 할 예정입니다.

초기 입력 토큰을 계산해 보겠습니다. 도서 수(20) 에 각 책당 단어 수(100,000)를 곱합니다. 그런 다음 단어당 토큰 수(1.25)를 곱하면 250만 개의 입력 토큰이 나옵니다. 출력 토큰도 유사한 방법으로 하되 책 수(20)에 언어 수(5)를 곱하고 요약 유형(3)과 요약 길이(200)도 곱합니다. 그런 다음 단어당 토큰 수(1.25)를 곱합니다. 7만 5천 출력 토큰이 나오네요.

이제 비용을 계산해 보겠습니다. 첫 번째 검증 대상은 클로드 3.7 소넷(Claude 3.7 Sonnet) 모델을 선택했습니다. 클로드는 백만 입력 토큰 당 $3, 백만 출력 토큰당 $15의 비용이 듭니다. 따라서 총비용을 계산하려면 입력 토큰 수에 입력 토큰당 비용을 곱하고, 출력 토큰 수에 출력 토큰당 비용을 곱한 후 백만(토큰 단위)으로 나눠야 합니다. 결과적으로 비용은 약 8.63 달러가 나옵니다. 꽤 경쟁력 있는 가격입니다.

이제 시나리오 2를 살펴보겠습니다. 두 번째 검증 대상으로는 GPT 4o를 사용했습니다. GPT 4o는 클로드에 비해 약간 저렴하여 백만 입력 토큰 당 $2.5, 백만 출력 토큰 당 $10의 비용이 듭니다. 따라서 총비용은 $7이 됩니다. 물론 GPT 4o가 클로드 3.7보다는 저렴한 것은 사실이지만, 최근에 출시하면서 입력 토큰값을 30배, 출력 토큰값을 15배나 인상한 GPT 4.5의 경우엔 완전히 다른 시나리오가 되므로 모델 선택에 신중함이 필요합니다.

그림 6. 번역, 요약 기능을 수행하는 생성형 AI 모델별 비용 시나리오 <출처: 작가>

그림 7. 생성형 AI 모델별 입출력 토큰 가격 비교 <출처: 앤트로픽, 오픈AI>

AI 모델의 훈련과 학습 비용

AI 분야에서 “training”은 모델이 데이터를 통해 학습하는 과정을 의미합니다. 이를 한국어에서는, “훈련”과 “학습” 두 가지 표현을 섞어 사용하는데, 다음과 같은 문맥 차이에 따라 선택해 사용할 수 있습니다.

훈련: 모델이 주어진 데이터를 기반으로 성능을 향상시키는 과정에 초점을 맞춘 표현입니다.
학습: 모델이 데이터를 통해 지식을 습득하는 과정에 중점을 둔 표현입니다.

아래 글에서는 이러한 정의를 기준으로 두 단어를 활용할 예정입니다.

학습 클러스터 셋업

AI 모델을 훈련하기 위해 학습 클러스터를 설정하는 것은 필수적입니다. 모델을 훈련시키기 위해 많은 데이터를 입력하고 이러한 병렬 프로세스를 활용할 때 쓰는 주요 장치는 엔비디아의 GPU입니다.

대부분의 클라우드 제공업체는 모델 훈련을 위한 엔비디아 GPU 클러스터 플랫폼을 운영합니다. 대표적으로 SageMaker, AI Studio, Vertex AI, 또는 Databricks와 같은 플랫폼이 있습니다.

모델을 훈련시키기 위해서는 적절한 칩 유형을 선택해야 합니다. 작은 모델을 훈련시키려면 저렴하고 단순한 GPU인 엔비디아 T4를 사용합니다. 이는 미니LM이나 BERT와 같은 작은 모델을 미세 조정하는 데 훌륭하며, 감정 분석과 같은 작업에 적합합니다. 일반적으로 T4의 비용은 월 약 180~350달러입니다.

때로 더 많은 데이터가 있거나 더 큰 모델을 미세 조정하려면 더 큰 GPU 또는 여러 GPU가 필요할 수 있습니다. 엔비디아의 A100 또는 H100 클러스터는 일반적으로 모델을 처음부터 훈련시키거나 모델을 미세 조정하는 데 필요합니다. A100의 비용은 GPU당 월 약 800~2000달러이며, 보통 8개의 노드로 제공됩니다. 이러한 클러스터의 비용은 하루 약 1000달러입니다.

오픈 소스 모델인 Llama의 경우 처음부터 훈련시키는 비용이 상당히 비쌉니다. Llama 7 Billion의 경우 클라우드 요금을 사용할 때 비용이 약 8만 달러까지 들어가며, 65억 파라미터 옵션을 훈련시키려면 100만 달러 이상도 필요합니다.

게다가 더 큰 GPU 클러스터를 사용하는 경우 훈련 프로세스를 변경해야 할 수 있습니다. 모델 및 데이터에 대해 병렬화를 설정해야 하기 때문입니다. 그런 만큼 올바른 작업에 적합한 GPU를 선택하는 것이 중요합니다.

그러나 GPU만으로 모든 준비가 되는 것은 아닙니다. 일상적인 컴퓨터 작업을 위해 RAM, CPU, 디스크가 필요하듯이, 모델 훈련에도 같은 리소스가 필요합니다. 그래서 일반적으로 클라우드 제공업체는 CPU, RAM, 디스크, GPU를 함께 번들로 제공합니다. 예를 들어 AWS A100 클러스터를 빌리면 이미 96개의 CPU, 1테라바이트 이상의 RAM, 8테라바이트의 디스크가 제공됩니다. 따라서 GPU 클러스터를 대여한다면, 이런 리소스는 이미 사전 할당되어 있습니다.

데이터 전처리 비용

하드웨어 환경이 준비되었다면 이제 학습을 시킬 데이터입니다. 먼저 훈련 과정 전처리를 위한 비용입니다. 데이터가 지저분하다는 것은 무엇을 의미하고, 모델 훈련에 어떤 영향을 미칠까요?

첫 번째로 알아볼 지저분한 데이터는 누락 데이터입니다.

누락된 데이터는 모델이 예측을 하기 위해 필요한 모든 변수를 얻을 수 없기 때문에 쓸모가 없습니다. 예를 들어, 커머스 데이터의 경우, 특정 필드에 대한 정보가 부족하여 공란으로 채워진 값이 많아질 수 있습니다. 고객에 대한 완전한 프로필이 없는 경우도 많고, 리뷰, 평점, 좋아요 수의 조합이 부족하기도 합니다. 이러한 리뷰 테이블은 유용하지 않습니다. 데이터의 위치를 추적할 수 없다면 폐기할 수밖에 없습니다.

두 번째 경우는 잘못된 라벨이 붙은 데이터로, 이는 훨씬 더 심각한 문제를 불러올 수 있습니다.

이를테면, 고객 ID 652는 “이 제품이 마음에 들었다”고 리뷰했지만 평점은 5점 만점에 1점이라고 하겠습니다. 두 가지 상충되는 정보가 있습니다. 어떤 것이 진실일까요? 판단하기 어렵습니다. 데이터 라벨링 서비스를 받고자 해도, 이 작업에는 도메인 전문 지식이 필요하기에 모두 외주화하고 깨끗한 데이터를 기대할 수는 없습니다. 그렇기에 신뢰할 수 있는 도메인 전문가가 데이터를 검토하거나 직접 수동으로 검사하는 것이 중요합니다.

이 데이터 처리 과정을 건너뛰면 어떻게 될까요? 비용을 들여 모델을 훈련시킨다 해도 나쁜 결과를 얻을 수 있습니다. LLM 훈련을 위해, 클러스터 셋업에 수십억 원, 전문 인력에 또한 엄청난 비용을 지출하고 모델이 잘 작동하지 않는다면 무슨 의미가 있을까요? 프로세스를 재시작해야 합니다.

데이터 비용

이제 직접적인 데이터 비용에 대해 이야기해봅시다.

첫 번째로 올바른 유형의 데이터를 수집하기 위해 쓰이는 비용입니다. 로그 데이터, 고객 프로필 데이터 등을 적절하게 수집하고 저장해야 합니다.

다음 비용 유형은 변환 프로세스에 들어가는 비용입니다. 이것을 ETL (추출, 변환, 로드)라고도 하는데, 이러한 프로세스를 필요로 하는 이유가 있습니다. 우리의 데이터가 트랜잭션 또는 응용 프로그램 층에서 우리가 필요한 AI 형식으로 변환되어야 하기 때문입니다.

마지막 비용 유형은 우리에게 필요한 데이터 세트를 적절히 저장하는 데 필요한 비용입니다. 분석과 기존 시스템을 위한 데이터와 AI를 위한 데이터가 다를 수 있습니다. 분석 사용 사례에서는 제품 문서나 제품 정보가 필요하지 않을 수 있지만, AI 사용 사례에서는, 예를 들어 에이전트나 어시스턴트를 구축하는 경우 이 정보가 매우 중요합니다. 즉, 기존 데이터 인프라를 AI 사용 사례에 맞게 재구축해야 할 수 있습니다.

우리가 필요한 모든 데이터가 있다고 가정해 봅시다. 비용은 얼마나 들까요?

대형 언어 모델을 구축하려면 막대한 양의 데이터가 필요합니다. 많은 대형 언어 모델 제공업체가 사용하는 데이터 세트 중 하나는 커먼 크롤(Common Crawl)입니다. 커먼 크롤은 인터넷을 크롤링하고 이를 다운로드 가능한 형태로 제공합니다. 각 크롤은 매우 크고, 수백 테라바이트에서 페타바이트까지 증가할 수 있습니다.

이러한 정보는 S3와 같은 정적 저장소에 저장할 수 있습니다. S3의 가격은 테라바이트당 월 약 $23입니다. 또한, 동일한 데이터를 여러 버전으로 보유할 수도 있습니다. 밑의 자료에서 보듯 약 400테라바이트의 데이터라면 매달 기본적으로 $9,200(23 * 400)면 된다 해도, 보통 수십 개의 버전으로 작업을 진행한다면 매월 수십만 달러의 데이터 비용이 추가로 발생하게 됩니다.

그림 8. 공개된 세상의 모든 데이터를 모으는 커먼 크롤 <출처: 위키피디아>

여기에 덧붙여 데이터가 한 곳에 위치하지 않고, 여러 지역에 복제하여 사용한다면, 클라우드 제공업체가 네트워크 비용을 부과할 것입니다. 데이터를 한 지역에서 다른 지역으로 이동하면 테라 바이트당 약 $13의 비용이 드는데, 혹여나 타 클라우드 프로바이더로 데이터를 인터넷으로 전송할 경우 비용은 테라바이트당 약 $90가 청구됩니다. 이러한 비용은 데이터 모델을 훈련하는 기간 내내 발생하게 됩니다.

AI 모델 반복 훈련/학습 및 평가

AI 모델을 훈련할 때 처음부터 성공할 가능성은 거의 없습니다. 가트너의 조사에 따르면 AI 프로젝트의 약 54%만이 파일럿에서 프로덕션으로 전환된다고 합니다. 이는 절반 정도만 ‘전환’된다는 의미이지, 프로덕션을 통한 프로덕트/서비스가 성공한다는 의미는 더더욱 아닙니다.

* Venturebeat, “New Gartner survey: Only half of AI models make it into production”, Aug 22, 2022

이 퍼센티지를 언급하는 이유는 문제를 발견했을 때 여러 반복과 평가를 거쳐야 모델의 완성도가 높아지는 구조를 설명하기 위해서입니다. 이것을 모델 훈련 파이프라인이라고 합니다.

파이프라인은 비즈니스 요구 사항으로 시작하고, 해결하고자 하는 문제를 알게 되면 요구 사항 리뷰로 이어집니다. 문제 해결에 사용될 방법을 확인하고 아이디어를 생각합니다. 그런 다음 실험을 통해 모델이 작동하는지 확인합니다. 그리고 평가 단계에서 모델이 우리의 기준을 충족하는지 확인해야 합니다.

비즈니스 요구 사항이 있다고 가정합니다. 매우 구체적이고 잘 정의된 요구 사항이 있어야 합니다.

이제 리뷰를 시작해 보겠습니다. 전통적으로 AI와 같은 기반 기술은 학술 논문을 중심으로 리뷰를 하지만, 최근에는 블로그 게시물이나 오픈 소스 생태계에서도 흥미로운 아이디어가 발견되기에, 연구원이나 엔지니어들이 이런 아이디어를 파악하고 이해하는 시간을 예산에 포함시켜야 합니다.

다음 단계는 Ideation입니다. 리뷰와 마찬가지로 주로 시간 비용입니다. 엔지니어는 문제에 대해 생각하고 실험을 수행해야 합니다. 모델이 작동하는지 실험하지 않고는 알기 어려우므로 일반적으로 주기 형태로 실행합니다. 실험을 위해서는 모델 복잡도에 따라 10번에서 1,000번의 실험을 수행해야 합니다.

올바른 모델 아키텍처를 선택하고 데이터를 정리했다면 하이퍼 파라미터 튜닝이라는 작업을 수행합니다. 하이퍼 파라미터는 실제 모델 외부의 요소이며 모델이 더 나은 동작을 학습하도록 돕습니다. 배치 크기, 드롭아웃, 에폭(epoch) 수, 학습률과 같은 하이퍼 파라미터를 선택하고 이를 반복하여 모델의 손실을 최소화하도록 합니다.

그림 10. AI 모델 하이퍼 파라미터 실험 예 <출처: Weights and Biases>

실제로는 하이퍼 파라미터 수에 따라 수천 번의 반복이 있을 수 있습니다. 이제 모델이 꽤 잘 작동하는 것 같습니다. 평가 단계로 넘어갈 시점입니다. 평가는 모델을 테스트 세트에서 실행하는 것입니다. 테스트 세트는 이전에 본 적이 없는 데이터여야 합니다. 테스트 세트가 훈련 세트에 포함되어 있으면, 잘못된 결과를 초래할 수 있습니다.

이제 모델 훈련 파이프라인으로 처음으로 돌아가서 다시 시작합니다. AI 프로젝트 관리는 소프트웨어와 다릅니다. 잘못된 결과가 나올 많은 기회가 있으며, 그에 따라 프로젝트 전체를 재평가할 수 있습니다. 일반적인 권장 사항으로는 성공적인 모델 실행에 필요한 시간과 비용을 10배에서 100배까지 예산에 포함시키는 것입니다. AI 모델 훈련에서는 많은 불확실성이 있으므로 팀이 충분한 시간을 가질 수 있도록 해야 합니다.

마치며

이처럼 AI 기능의 도입과 모델 학습에는 다양한 비용 요소가 수반됩니다. ‘이미지 생성’과 ‘문서 요약’과 같은 기능을 활용할 때, 사용량에 따른 API 호출 비용이 발생하며, 이는 선택한 모델과 서비스 제공업체에 따라 다릅니다. 또한, AI 모델을 직접 훈련하려는 경우, GPU와 같은 하드웨어 인프라, 데이터 수집 및 처리, 반복적인 모델 학습과 평가 등에서 상당한 비용과 시간이 소요됩니다.

특히, AI 프로젝트의 성공률이 낮다는 점을 고려하면, 초기 투자뿐만 아니라 지속적인 운영 및 개선 비용도 중요하게 고려해야 합니다. 따라서 AI 도입 시에는 이러한 비용 요소를 종합적으로 검토하여, 비즈니스 가치와 투자 대비 수익을 면밀히 평가하는 것이 중요합니다.

다음 글에서는 모델을 호스팅하고, 여러 위험을 관리하기 위한 비용에 대하여 이야기해 보겠습니다.