최근 AI 시장에서 일어나고 있는 변화가 있습니다. 바로 경쟁의 축이 '모델'에서 '인프라'로 이동하고 있다는 겁니다. 여기서 핵심은 ‘AI 에이전트’입니다. 에이전트는 단순 챗봇과 달리, 복잡한 태스크를 스스로 분해하고, 여러 툴을 호출하고, 결과를 추론하여 다음 단계를 결정합니다.

문제는 이 과정에서 토큰 소비량이 기하급수적으로 증가한다는 건데요. AI 풀스택 기업 엘리스에 따르면, 단순 챗봇에 비해 5~30배 정도, 추론이 깊어지면 최대 83배까지도 늘어납니다. 여기서 중요한 변화가 생깁니다. AI 개발 초기엔 비용의 대부분이 모델을 학습시키는 데 들었습니다. 방대한 데이터를 모아 GPU로 훈련시키는 과정이죠. 그런데 에이전트가 확산되면서, 이제는 그 훈련된 모델을 매일 작동시켜 답을 만들어내는 비용, 즉 추론 비용(Inference Cost)이 더 커졌습니다.

쉽게 말하면 AI를 만드는 비용보다, AI를 매일 쓰는 비용이 더 많이 드는 시대가 된 거죠. 그러다 보니 GPU를 얼마나 효율적으로 확보하고, 운영하느냐가 곧 기업의 경쟁력이 됩니다.

그러나 이런 인프라 문제를 두고, 쉽게 결정을 내리긴 어렵습니다. 해외 클라우드를 쓰자니 비용과 데이터 주권이 걸리고, 직접 구축하자니 초기 자본과 운영 부담이 따릅니다. 어떤 인프라를 써야 하는지, 보안 조건을 충족하면서 GPU를 쓸 수 있는 구조가 있는지, 무엇보다 PoC(Proof of Concept)에서 전사 확장으로 어떻게 넘어갈지 등이 현실적으로 다가옵니다.

그래서 요즘IT는 이 흐름을 가장 가까이서 지켜본 팀을 만나보기로 했습니다. 바로 GPU 클라우드를 직접 구축하고 운영해 온 AI 풀스택 기업, 엘리스입니다. 학습에서 추론으로 수요가 이동하는 변화를 현장에서 체감해 왔고, 국내 CSP 최초로 GPU Spot 요금제를 출시한 것도 그 흐름의 일부였고요.

이들이 직접 겪어온 이야기를 듣기 위해, 엘리스 박정국 CTO와 김시완 클라우드 전략이사를 만나 인터뷰를 진행했습니다. 그리고 실전에서 기업들의 AX 전환이 막히는 이유와 체크리스트도 함께 정리해 봤습니다.

요즘IT 단어 사전
AI 풀스택 기업이란? 소프트웨어 개발에서 풀스택 개발자가 프론트엔드부터 백엔드까지 전 영역을 다루듯, AI 풀스택 기업은 인프라, 플랫폼, 모델, 서비스까지 전 레이어를 직접 운영하는 회사를 말합니다. 이번 글에서는 엘리스그룹의 비전을 설명하는 핵심 키워드로 등장합니다.

[인터뷰] 에이전트 시대, GPU 수요는 어떻게 달라지고 있나

에이전트 시대를 살아가는 지금, GPU 수요 패턴도 빠르게 바뀌고 있습니다. 학습 중심에서 추론 중심으로, IT 기업에서 전통 기업으로 말이죠. 그렇다면 실제 현장에서는 어떤 변화가 일어나고 있을까요?

엘리스 박정국 CTO, 김시완 클라우드 전략이사 — 엘리스 박정국 CTO(왼쪽), 김시완 클라우드 전략이사(오른쪽) <출처: 요즘IT>

Q. 1년 전과 비교했을 때, 기업이 GPU를 활용하려는 수요가 어떻게 달라지고 있나요? 그 변화의 기준으로는 무엇이 작용할까요?

김시완 클라우드 전략이사: 예전에는 GPU를 학습용으로 문의하시는 분들이 많았는데, 요즘에는 모델을 직접 올려서 추론용으로 써보고 싶어 하는 수요가 많이 늘었습니다. 2년 전 온디맨드 서비스를 처음 내놨을 때와 비교하면, GPU를 직접 쓰는 분들이 훨씬 많아졌고요. 확실히 대중화되고 있다는 느낌이 많이 듭니다.

박정국 CTO: GPU를 직접 구축해보겠다고 시작하면, 생각보다 쉽지 않다고 다들 느끼십니다. GPU는 다루기 어렵고, 전기도 많이 먹고, 초기 자본도 크기 때문이죠. 시행착오로 낭비하는 시간도 결국 다 비용이고요. 만약 2년을 쓴다고 가정했을 때, 직접 사서 운영하는 비용과 클라우드 서비스를 쓰는 비용을 TCO(Total Cost of Ownership, 초기 구매 비용뿐 아니라 운영·유지보수·인력까지 포함한 총소유비용) 기준으로 비교해 보시는 걸 추천합니다.

Q. 기업의 GPU 교체 주기와 요금제 부담도 달라지고 있는데요. 실제 GPU를 공급하는 입장에서 어떻게 대응하고 있나요?

김시완 클라우드 전략이사: 요즘은 새 AI 모델이 출시되어도 일주일이 지나면 바로 구식이 되는 시대입니다. GPU도 마찬가지예요. 빌딩형 데이터센터를 직접 구축하면 3~5년이 걸리는데, 완공 시점에 이미 설계가 구식이 되는 경우가 있습니다. 보안이나 데이터 주권 때문에 자체 구축이 꼭 필요하다면, PMDC처럼 3개월 안에 구축 가능한 모듈형 방식이 현실적인 대안이 될 수 있어요.

엘리스 PMDC — 엘리스의 AI PMDC(Portable Modular Data Center) 구축 타임라인 <출처: 엘리스>

박정국 CTO: GPU 사업을 하다 보면 항상 발생하는 패턴이 있습니다. 100% 가동이 사실상 불가능하다는 건데요. 학습을 돌리다가도 데이터 준비를 하는 동안 GPU가 쉬게 되거든요. 저희는 그 유휴 시간이 짧게 쓰는 워크로드 패턴과 맞아떨어진다는 걸 발견했습니다. 그래서 유휴 자원을 수요에 맞게 제공하자는 게 스팟 요금제의 출발점이었죠.

Q. 그렇다면 기업은 어떤 요금제를 선택하는 게 유리할까요? 또 아직 인프라를 갖추지 못한 기업이라면 무엇부터 시작해야 할까요?

박정국 CTO: 요금제는 워크로드 성격에 따라 다릅니다. 장기간 안정적으로 GPU를 써야 한다면 약정형(Reserved)이 맞고, 개발이나 PoC처럼 필요할 때 바로 쓰고 싶다면 온디맨드(On-demand)가 적합합니다. 실험, 배치 학습, 에이전트 추론 테스트처럼 중간에 잠깐 끊겨도 괜찮은 워크로드라면 스팟(Spot)이 가장 효율적이고요. 세 가지 모두 같은 인프라에서 같은 가상화 솔루션으로 제공되기 때문에 품질의 차이는 없고, 정책적인 부분만 다릅니다.

또 아직 인프라를 갖추지 못한 기업이라면, 먼저 2년 치 TCO(Total Cost of Ownership, 초기 구매 비용뿐 아니라 운영·유지보수·인력까지 포함한 총소유비용)를 계산해 보시길 권장합니다. 클라우드 서비스로 시작해서 워크로드를 파악한 다음, 필요하면 확장하는 방식이 현실적인데요. 보안이나 데이터 주권 때문에 자체 구축이 필요하다면, AI PMDC를 고객사 현장에 연결하는 하이브리드 방식도 함께 고려해 볼 수 있습니다.

인터뷰에 나온 것처럼, GPU 인프라 도입은 단순히 하드웨어를 사는 문제가 아닙니다. 비용 구조를 어떻게 설계하느냐, 보안을 어디서 통제하느냐, 어떤 요금제를 조합하느냐까지 함께 고민해야 하죠. 엘리스도 이 답을 찾기까지는 여러 시행착오를 거쳤다고 합니다. 이제 교육 플랫폼이 어쩌다 데이터센터까지 직접 만들게 됐는지, 그 과정이 어떻게 고객사의 AX 전환을 돕는 경험으로 이어졌는지 따라가 보겠습니다.

왜 교육 플랫폼이 데이터센터까지 만들게 됐을까?

많은 분들이 엘리스를 교육 플랫폼으로 알고 계실 텐데요. 엘리스는 원래 코딩 교육 플랫폼으로 시작했습니다. 그래서 학생들이 브라우저에서 바로 코드를 실행할 수 있어야 했고, 그러려면 컨테이너 기반 클라우드 실습 환경이 필요했습니다. 처음엔 AWS나 GCP를 썼지만, 이후 AI 교육에 대한 수요가 늘면서 GPU가 필요해졌습니다. 그런데 당시 대형 클라우드 회사들의 GPU 서비스가 AI 워크로드에 맞게 최적화되어 있지 않았다고 합니다.

그래서 "빌리는 것보다 직접 만드는 게 낫겠다"라는 결론을 내린 게 2021년이었습니다. 그때부터 엘리스는 GPU 클라우드를 직접 구축하기 시작했고, 2022년에는 컨테이너 한 대에 A100 GPU를 넣은 첫 번째 모듈형 데이터센터(AI PMDC)를 만들었습니다.

엘리스 김재원 대표는 기자간담회를 통해 "단순히 1~2년 내에 갑자기 클라우드를 하겠다고 선언한 게 아니라, 10년 전부터 복잡한 교육 환경의 실습 클라우드를 제공하다가 직접 GPU를 구축하게 된 것"이라고 설명했는데요.

그렇게 GPU 클라우드를 운영하기 시작하니 다음 문제가 보였습니다. 고객사 교육을 진행하다 보니, 기업들이 AI를 실제 업무에 쓰려면 내부 문서를 AI가 읽을 수 있어야 한다는 걸 알게 된 것이죠. 범용 AI 모델은 복잡한 표 구조가 들어간 계약서, 한글로 작성된 보고서, 기업마다 다른 양식의 PDF 앞에서 자주 막혔습니다. 그 다음엔 보안 문제도 뒤따랐습니다. 고객사 내부 데이터를 외부 서버로 보내는 걸 허용하지 않는 기업들이 많았고, 금융·의료·공공기관은 법적 제약까지 있었습니다.

결국 이런 문제들도 직접 풀 수밖에 없었습니다. 문서 문제는 특화 모델을 개발해 대응하고, 보안 문제는 고객사 데이터센터와 엘리스 인프라를 직접 연결하는 하이브리드 구조를 만드는 방식으로요. 막힐 때마다 직접 만드는 쪽을 택하다 보니, 어느새 인프라부터 모델까지 전 레이어를 직접 운영하는 구조가 된 겁니다.

엘리스 AI 풀스택 구조

서비스: AI 헬피챗(생성형 AI 솔루션), AX 교육
플랫폼: 엘리스LXP(AI 교육 실습 플랫폼)
모델: Helpy Vision(문서·표 구조 분석 특화 AI), Helpy Pro
인프라: AI PMDC(모듈형 AI 데이터센터, 하드웨어), ECI(GPU·스토리지·네트워크를 가상화해 클라우드 서비스로 제공하는 소프트웨어 스택)

AX 전환, 왜 실전에선 어려울까?

이 과정에서 엘리스는 수백 곳의 고객사가 AI 전환을 추진하며, 공통으로 막히는 지점들을 반복해서 목격하게 됩니다. 그 문제들은 엘리스가 먼저 겪어온 것들이기도 했죠. 그래서 실전에서 왜 어려운지, 그 해결 방법이 무엇인지도 제안했습니다.

CHECK 1. 우리 내부 데이터를 AI가 읽을 수 있는가?

AI 도입의 첫 번째 관문은 모델 선택이 아니라, 데이터 준비입니다. 범용 AI 모델은 한글 PDF, 복잡한 표 구조가 들어간 보고서, 기업마다 다른 양식의 문서를 제대로 처리하지 못하는 경우가 많습니다. 글로벌 모델이 한국 기업 특유의 문서 포맷을 학습하지 않았기 때문이죠.

이때 확인 방법은 간단합니다. 실제로 쓰려는 AI 모델에 우리의 핵심 문서를 넣어보는 겁니다. 표가 많은 계약서, 한글로 작성된 내부 보고서, 그룹웨어에서 뽑은 PDF 등 실제 업무에서 가장 자주 쓰는 포맷 10개 정도를 테스트해 보면 어디서 막히는지 바로 나옵니다. 여기서 못 읽는다면 선택지는 두 가지로 나뉩니다. 해당 포맷에 맞는 전처리 파이프라인을 별도로 구축하거나, 그 포맷에 특화된 모델을 따로 검토할 수 있습니다.

엘리스 ‘Helpy Vision’ 모델 — 복잡한 문서를 파싱하는 엘리스의 ‘Helpy Vision’ 모델 <출처: 엘리스>

CHECK 2. 데이터를 어디서 처리할 것인가?

기업 내부 데이터를 외부 AI API로 보내는 것에 대한 부담은 업종을 가리지 않습니다. 금융·의료·공공기관의 경우 법적 제약이 있고, 일반 기업도 영업 기밀·인사 정보는 외부로 보내기 어렵습니다. 그래서 외부 AI API를 쓸지, 자체 인프라에서 돌릴지는 기술 문제이기 전에, 보안과 법적 요건의 문제인데요. 도입 전, 아래 세 가지를 먼저 확인해야 합니다.

첫째, 우리 업종에 데이터 처리 위치에 대한 법적 제약이 있나요?
둘째, AI에 입력할 데이터에 개인정보·영업 기밀이 포함되나요?
셋째, 외부 유출 시 어떤 리스크가 발생하나요?

세 질문에 하나라도 "그렇다"가 나오면 외부 API 단독 방식은 재검토가 필요합니다. 구조적으로 보면 외부 API, 온프레미스, 하이브리드 세 가지 선택지가 있는데요. 외부 API는 빠르게 시작할 수 있지만 데이터 통제권이 약하고, 온프레미스는 통제권이 높지만 초기 비용과 운영 부담이 큽니다. 그래서 하이브리드 방식은 민감 데이터는 내부에서, 나머지는 외부 클라우드에서 처리하기 때문에, 절충점이 될 수 있습니다.

CHECK 3. PoC 이후 전사 확장을 처음부터 설계했는가?

사실 기업에서 PoC를 성공해도 전사 확장에는 실패하는 경우가 굉장히 많습니다. 가장 흔한 원인은 두 가지인데요.

첫째, 의사결정권자가 AI로 무엇을 할 수 있는지 모르면 예산 승인이 나지 않습니다. PoC 결과를 나중에 보고하는 방식으로는 부족합니다. 기획 단계부터 의사결정권자가 함께 참여해서 어떤 문제를 어떻게 풀 것인지를 같이 설계해야 이후 확장이 수월해집니다.

둘째, 전사 확장을 담당할 내부 AI 챔피언이 없으면 PoC 성공이 그 팀에서 멈춥니다. AI 리터러시가 조직 전체에 고르게 없으면 확산 속도가 느려지기 때문입니다. PoC를 시작할 때부터 "이게 성공하면 다음 팀으로 어떻게 넘길 것인가"를 미리 설계해두고, 그 전파를 담당할 사람을 지정해두는 것이 전제 조건입니다.

엘리스가 AX 교육에서 임원 교육을 가장 먼저 진행하는 이유도 여기 있습니다. 엘리스 김재원 대표는 "임원들이 교육을 듣고 나온 아이디어들이 프로젝트 개발로 이어지고, 그것이 다시 인프라를 활용하는 방향으로 가고 있다"고 설명했습니다.

엘리스 교육 커리큘럼 — 고객사, 리더 수준별 맞춤형 커리큘럼 <출처: 엘리스>

CHECK 4. GPU를 직접 살 것인가, 빌릴 것인가?

기업에서 GPU가 필요한 단계가 되면 이 질문이 반드시 나올 겁니다. 직접 구매가 저렴하게 느껴질 수도 있지만, 실제 TCO를 계산해보면 다른 경우가 많습니다. TCO(Total Cost of Ownership)는 단순 구매가가 아닌 운영 기간 전체에 걸친 총 소유 비용인데요. GPU의 경우 하드웨어 구매비 외에도 전기, 냉각, 네트워크 인프라 구축비, 운영 인력, 장애 대응 비용, 그리고 처음에 필연적으로 발생하는 시행착오 비용까지 포함해서 계산해야 합니다.

엘리스의 경우, GPU 클라우드를 직접 구축하고 운영하면서 이 비용 구조를 누구보다 잘 알게 됐는데요. 그래서 가격 정책을 잡을 때, 2년 치 TCO 기준으로 직접 구매보다 클라우드가 더 유리하게끔 포지셔닝했습니다.

결국 AX 전환은 기술이 아닌 설계의 문제

지금까지 살펴본 것과 같이 AI 도입에 실패하는 기업들을 보면 공통점이 있습니다. 바로 기술보다는 설계의 문제라는 건데요. 무엇을, 어떤 순서로, 어떤 구조로 할지를 미리 설계하지 않은 채 시작했기 때문입니다. 이렇게 되면 좋은 AI 모델을 골랐는데 우리 문서를 못 읽고, 에이전트를 만들었는데 보안 검토에서 막히고, PoC는 됐는데 전사 확장이 안 되는 상황이 벌어집니다.

엘리스가 10년간 겪어온 것도 같은 문제였습니다. 클라우드가 필요할 때 어떻게 구축할지, GPU가 필요할 때 빌릴지 직접 만들지, 고객사 데이터가 외부로 나가면 안 될 때 어떤 구조로 풀지, 매번 설계의 문제였지만, 직접 답을 찾아갔습니다.

만약 우리 팀이 현재 AX 전환을 고민하고 있다면, 이번 글에서 다룬 네 가지 질문에 먼저 답해보시길 바랍니다. 어떤 도구를 쓸지보다, 어떤 구조로 시작할지를 먼저 그려보는 일이 더 중요합니다. 또 우리 조직에 맞는 전략을 아직 찾지 못했다면, 이미 그 과정을 경험한 곳의 도움을 받는 것도 좋은 방법입니다. 여러분의 조직은 지금 어느 단계에 와 있나요?

AI 인프라부터 교육까지, AX 전환을 어디서부터 시작할지 고민이라면
엘리스와 시작해 보세요.

[엘리스에 문의하기]