요즘IT
위시켓
새로 나온
인기요즘 작가들컬렉션
물어봐
새로 나온
인기
요즘 작가들
컬렉션
물어봐
개발
AI
IT서비스
기획
디자인
비즈니스
프로덕트
커리어
트렌드
스타트업
서비스 전체보기
위시켓요즘IT
고객 문의
02-6925-4867
10:00-18:00주말·공휴일 제외
[email protected]
요즘IT
요즘IT 소개작가 지원
기타 문의
콘텐츠 제안하기광고 상품 보기
요즘IT 슬랙봇크롬 확장 프로그램
이용약관
개인정보 처리방침
청소년보호정책
㈜위시켓
대표이사 : 박우범
서울특별시 강남구 테헤란로 211 3층 ㈜위시켓
사업자등록번호 : 209-81-57303
통신판매업신고 : 제2018-서울강남-02337 호
직업정보제공사업 신고번호 : J1200020180019
제호 : 요즘IT
발행인 : 박우범
편집인 : 노희선
청소년보호책임자 : 박우범
인터넷신문등록번호 : 서울,아54129
등록일 : 2022년 01월 23일
발행일 : 2021년 01월 10일
© 2013 Wishket Corp.
로그인
요즘IT 소개
콘텐츠 제안하기
광고 상품 보기
AI

AI 기업 분석: 트웰브랩스, 엔비디아·AWS가 선택한 영상 AI 강자

이재훈
12분
8시간 전
255

AI 기술이 이미 생활 속 필수재로 자리 잡은 요즘, 그 기술 뒤에서 움직이는 기업들의 정체와 비전이 궁금하지 않으신가요? AI는 이제 단순한 기술 트렌드를 넘어 세상을 바꾸는 핵심 동력으로 떠올랐습니다.

 

〈AI 기업 탐구〉시리즈는 AI 산업의 대표적인 기업들을 하나씩 꼼꼼하게 살펴보며, 이들이 어떻게 탄생했고, 현재 어떤 전략과 비전으로 미래를 그려나가는지 구체적으로 조명하고자 합니다. AI를 이끄는 주인공들의 생생한 이야기를 지금부터 만나보세요.

 

Chapter 0. 왜 지금, 이 기업을 알아야 하는가?

마렝고가 뭐야?

AI 기업 소개 시리즈에서 다뤘던 '뤼튼(Wrtn)'이나 '아숙업(AskUp)'은 콘텐츠가 발행되기 전에도 한 번쯤 들어보신 분들이 많을 겁니다. 그렇다면 '마렝고(Marengo)'나 '페가수스(Pegasus)'라는 이름은 어떨까요? 이 이름은 대부분 들어보지 못하셨을 것 같은데요. 그러나 이 다소 생소한 이름 뒤에는 '한국 최초 엔비디아 투자 유치', 'CB 인사이트 글로벌 100대 AI 스타트업 4년 연속 선정'이라는 타이틀을 가진 국내 스타트업이 있습니다. 바로 오늘 소개할 '트웰브랩스(TwelveLabs)'입니다. 

 

<출처: 트웰브랩스>

 

트웰브랩스가 국내 대중에게 낯선 이유는 처음부터 글로벌 시장을 목표로 움직였기 때문입니다. 엔비디아, 인텔, 스노우플레이크 등 굵직한 글로벌 기업들이 이 스타트업에 투자를 결정한 것도 이들이 '글로벌 기준에서 경쟁력 있는 영상 AI 기업'이라는 점을 입증하는 사례라 할 수 있습니다. 한국보다 외국에서 더 유명한 국내 스타트업 트웰브랩스. 오늘은 그 이유에 대해 들여다보겠습니다.

 

 

Chapter 1. 탄생의 배경과 창립 철학

군대에서 시작된 스타트업

대한민국 남성이라면 성인이 된 후 누구나 한 번쯤 마주하게 되는 고민이 있습니다. 바로 군복무인데요. 국방의 의무는 분명히 의미 있는 일이지만, 약 2년 동안 사회와 단절된 상태로 지내야 한다는 점에서 많은 이들이 그 시간을 어떻게 보낼지 고민하곤 합니다. 이 시간을 제대로 활용하지 못하면, 말 그대로 2년의 기회비용을 잃게 되는 결과로 이어지기도 합니다. 

 

군대에서 소프트웨어 개발 부문 최우수상을 받은 이재성 대표 <출처: 이재성 대표 링크드인>

 

그러나 트웰브랩스의 이재성 대표에게 군 복무는 오히려 기회로 작용했습니다. UC 버클리에서 컴퓨터과학을 전공하던 그는 병역의 의무를 이행하기 위해 국방부 사이버작전사령부에 입대하게 됩니다. 그곳에서 AI 기술에 깊은 관심을 가진 이승준(현 CTO)과 김성준(현 Head of Eng)을 만나는데요. 세 사람은 복무 중에도 틈틈이 함께 AI 기술을 공부하며 서로의 비전에 공감했고, 전역 후 함께 창업하기로 뜻을 모읍니다. 당시 세 사람의 케미스트리가 얼마나 좋았는지는 먼저 전역한 이가 부대를 다시 찾아와 스터디를 이어갔다는 일화만 봐도 알 수 있습니다.

 

세상을 이해하는 AI

이들이 전역하던 2020년은 GPT-3로 대표되는 거대 언어모델 붐이 일던 시기였습니다. 텍스트 생성 모델을 연구하는 AI 스타트업에 천문학적인 비용이 모이고 있었지만, 이들은 오히려 영상에 주목했습니다. 유튜브, 틱톡 등 영상 데이터가 폭발적으로 늘어났음에도 정작 영상 속 내용을 이해하고 검색하는 기술은 걸음마 수준이었고, 이 분야야말로 차이를 만들어낼 수 있는 분야라 생각한 겁니다. 이후 트웰브랩스 미국 법인을 설립하고 본격적인 제품 개발 및 비즈니스를 시작하게 됩니다.

 

이들의 철학은 명확했습니다. "인간은 말을 배우기 전부터 시각과 청각 정보로 세상을 이해한다. AI 모델도 그렇게 만드는 것이 옳다"는 것이었죠. 트웰브랩스는 처음부터 영상이라는 감각 데이터에 집중해 세상을 해석하는 AI, 즉 비디오 파운데이션 모델 구축을 지향했습니다. 이를 위해 음성, 이미지, 텍스트 등 다양한 모달리티를 동시에 다루는 멀티모달 연구를 시작했고, 이 비전은 지금도 트웰브랩스 기술의 핵심 축으로 자리하고 있습니다. 

 

 

Chapter 2. 대표 서비스와 기술 혁신

입소문 난 맛집에 흔히 보이는 공통점이 하나 있습니다. 바로 메뉴가 단출하다는 점인데요. 잘하는 메뉴 하나, 많아야 두 가지에 집중해 승부를 거는 곳이 많습니다. 선택지가 적기 때문에, 그만큼 완성도에 대한 자신감이 있어야 가능한 전략입니다.

 

이러한 맥락에서 볼 때, 트웰브랩스는 영상 AI 맛집이라 불릴만합니다. 빠르게 변화하는 기술 트렌드 속에서도 흔들리지 않고, 여러 제품을 동시에 만들기보다는 영상 AI 모델에 기술력을 집중하고 있습니다. 현재는 크게 두 가지 모델을 운영하고 있지만, 두 모델 모두 영상 AI에 기반하고 있다는 점에서 초기 비전은 여전히 단단하게 유지되고 있습니다.

 

1) 마렝고, 비디오를 '이해'하다

트웰브랩스의 대표 모델 마렝고는 영상의 시각 정보는 물론 음성, 자막까지 통합적으로 벡터화해 이해하는 멀티모달 임베딩 모델입니다. 이 모델을 활용하면 영상 데이터에서 원하는 장면을 검색으로 쉽게 찾을 수 있습니다. 예를 들어, "파란색 나사(NASA) 티셔츠"를 입력하면, 수많은 비디오 중 해당 티셔츠를 입은 사람이 등장하는 장면을 정확히 찾아주는 식입니다. 

 

<출처: 트웰브랩스 유튜브> 

 

특히 최신 버전인 Marengo 2.7은 ‘리 임베딩’이라는 새로운 구조를 도입했습니다. 예전에는 하나의 벡터에 모든 정보를 압축했다면, 이제는 시각, 음향, 텍스트 정보를 각기 다른 벡터로 나눠 표현함으로써 정보 손실을 최소화하고 맥락 인식 능력을 극대화했는데요. 이를 통해 의미 검색, 하이브리드 검색, 이상 감지 등의 복잡한 기능도 쉽게 구축할 수 있습니다. 

 

결국 마렝고는 영상 데이터를 마치 데이터베이스처럼 질의 가능한 인프라로 전환시킨 모델입니다. 이는 단순한 모델 성능을 넘어, 영상 AI 분야의 새로운 표준을 제시한 기술적 분기점으로 평가받을 수 있습니다. 

 

2) 페가수스, 비디오를 '분석'하다

마렝고가 영상을 ‘기억’한다면, 페가수스는 비디오-텍스트 변환 기술을 기반으로 그 기억을 ‘말’로 풀어내는 역할을 합니다. 즉, 사람이 영상 데이터를 보다 직관적으로 활용할 수 있도록 돕는데요. 예를 들어, "농구 경기에서 3점슛, 턴오버, 타임아웃이 발생한 시간 코드를 나열해 주세요"라고 요청하면, 실제 그 상황이 생긴 시간과 함께 구체적인 상황 설명까지 제공하는 식입니다.

 

<출처: 트웰브랩스 유튜브> 

 

페가수스의 기술적으로 주목할 점은 두 가지입니다.

 

  • 첫째, 최대 1시간 이상의 긴 영상도 안정적으로 처리할 수 있다는 점입니다. 대부분의 기존 모델이 수 분 내외 클립에만 최적화돼 있는 데 비해, 페가수스는 영상 전체를 이해하고 타임스탬프 기반으로 정확한 응답을 제공합니다.
  • 둘째, 처리 효율을 극대화한 구조적 혁신입니다. 한 번 본 영상은 내부적으로 캐싱되어, 반복 질문 시에는 속도와 비용이 획기적으로 절감됩니다. 실제 실험에서는 30분 이상 분량의 질의응답 테스트에서 경쟁 모델 대비 최고 수준의 정확도와 응답 속도를 동시에 달성했습니다.

 

단순한 영상 요약기를 넘어, 실시간 모니터링, 회의록 자동화, 영상 기반 챗봇 등으로의 확장 가능성까지 갖춘 ‘실전형 영상 생성 AI’라 할 수 있습니다.

 

3) 따로 또 같이

마렝고와 페가수스는 단독으로도 강력하지만, 함께 사용할 때 진정한 잠재력이 드러납니다. 마렝고가 영상의 내용을 인덱싱 해두면, 사용자는 텍스트로 원하는 장면을 검색할 수 있고, 페가수스는 그 장면의 의미를 자연어로 설명해 줍니다.

 

즉, 영상이라는 비정형 데이터를 → 벡터로 정제하고 → 질문에 대한 설명을 생성하는 일련의 과정. 트웰브랩스는 이를 하나의 파이프라인으로 통합했고, 이 구조 자체가 영상 콘텐츠 처리의 새로운 전형으로 주목받고 있습니다.

 

 

Chapter 3. 비즈니스 모델과 시장 성과

압도적 가성비, 단일 분야 집중의 힘

앞서 트웰브랩스를 메뉴가 단출한 유명 맛집에 비유한 바 있습니다. 메뉴가 적다는 것은 단순함을 넘어선 전략적 장점이 있는데요. 바로 재고 관리가 용이하고, 리소스 낭비가 적다는 점입니다. 이를 통해 맛은 잘 유지하면서도 상대적으로 저렴한 가격을 유지할 수 있습니다. 트웰브랩스도 역시 이와 유사한 방식으로 기술과 비즈니스의 균형을 맞추고 있습니다. 영상 AI라는 단일 분야에 집중해 효율성과 전문성을 극대화한 것입니다.

 

트웰브랩스의 수익 모델은 B2B 중심의 API 판매에 집중되어 있습니다. 기업 고객은 트웰브랩스의 영상 AI 기능을 API 형태로 손쉽게 연동해, 검색·요약·질의응답 등 다양한 기능을 구현할 수 있습니다. 이때 트웰브랩스가 내세우는 가장 큰 장점은 "최고의 성능을 가장 저렴한 가격에 제공한다"라는 점입니다. 

 

<출처: 트웰브랩스>

 

실제로 영상 AI 분야에 있어서는 GPT, 제미나이, 클로드 등 글로벌 빅테크 모델보다 뛰어난 성능을 보이는 동시에, 토큰당 가격은 훨씬 더 저렴한 가격을 제시하며 경쟁력을 확보하고 있습니다. AI API 시장은 성능 못지않게 비용 효율성이 핵심 경쟁 요소이기 때문에, 트웰브랩스의 전략은 곧바로 성과로 이어졌습니다. 실제로 개발자 커뮤니티에서는 비슷한 성능 대비 3~5배 저렴하게 쓸 수 있다는 평가가 이어지고 있습니다.

 

이러한 기술력과 효율성을 바탕으로 트웰브랩스는 설립 초기부터 흑자 기조를 유지하며 안정적인 매출을 이어가고 있습니다. 대부분의 AI 스타트업이 적자를 감수하면서 성능 개선에 집중하는 것과 달리, 운영 안정성과 수익성을 동시에 확보한 보기 드문 사례로 평가받고 있습니다. 

 

AWS 베드록, 글로벌 진출 파트너

트웰브랩스가 단순히 기술력 있는 스타트업을 넘어, 글로벌 AI 시장에서도 존재감을 키우게 된 데에는 강력한 파트너십 전략도 한몫했습니다. 그중 대표적인 사례가 바로 AWS(아마존 웹 서비스)와의 협업입니다.

 

<출처: AWS>

 

2023년 10월, 트웰브랩스는 AWS의 생성형 AI 플랫폼 '베드록(Bedrock)'에 영상 AI 모델로는 최초로 통합됐습니다. 베드록은 GPT, 클로드, 스테이블퓨전 등 여러 생성형 AI 모델을 한 곳에서 제공하는 멀티모델 플랫폼으로, 기업 고객은 자체 데이터를 베드록 모델들과 결합해 다양한 AI 서비스를 개발할 수 있는데요. 이 플랫폼에 트웰브랩스의 모델이 포함되었다는 것은 기술적 신뢰성과 경쟁력을 동시에 인정받은 결과라 할 수 있습니다. 

 

이 협업은 단순한 유통 채널 확보를 넘어, 트웰브랩스가 자체 세일즈 조직 없이도 글로벌 고객과 연결될 수 있는 구조를 가능하게 했습니다. 이는 디즈니, 파라마운트 등 주요 글로벌 기업이 트웰브랩스의 고객이 된 계기가 되기도 했는데요. 이후에도 아마존 리인벤트(AWS re:Invent)와 같은 대규모 글로벌 행사에 공식 파트너로 초청되는 등 존재감을 넓혀가고 있으며, 북미 시장을 중심으로 점차 영향력을 확대하고 있습니다. 

 

실사용 사례로 입증한 시장 경쟁력

트웰브랩스의 기술은 단순히 이론상 성능이나 데모 수준에서 머무르지 않고, 실제 고객 현장에서 비즈니스 성과로 이어지는 사례를 통해 입증되고 있습니다. 대표적으로 미국 프로풋볼리그(NFL)는 트웰브랩스의 영상 검색·요약 기능을 활용해 경기 콘텐츠를 빠르게 가공·활용할 수 있는 워크플로우를 구축했으며, 이는 콘텐츠 제작 시간 단축과 운영 효율화로 이어졌습니다.

 

<출처: AWS Startups>

 

이러한 실효성은 기술 자체의 우수성뿐 아니라, 고객 맞춤형 API 최적화와 도메인 특화 파인튜닝 전략을 병행한 결과입니다. 고객사의 니즈에 따라 모델을 유연하게 조정해 주는 서비스 구조는 API 단가 이상의 가치를 창출하며, 결과적으로 고객 유지율과 재계약률을 높이는 데 기여하고 있습니다. 이는 B2B 기반 AI 서비스가 흔히 겪는 ‘도입 이후 이탈’ 문제를 최소화하며, 트웰브랩스의 흑자 경영을 뒷받침하는 핵심 요인 중 하나로 작용하고 있습니다.

 

이러한 기술력과 파트너십 기반의 성장세는 자연스럽게 투자 유치로 이어졌습니다. 2022년에는 약 60억 원 규모의 시드 투자를 유치했는데요. 이때 주요 투자자로 참여한 인덱스벤처스는 노션, 디스코드 등 90곳이 넘는 유니콘 기업에 투자한 세계적 VC로, 한국 기업에 투자한 것은 트웰브랩스가 처음이었습니다. 이후에는 엔비디아, 데이터브릭스, 스노우플레이크 등 글로벌 기술 기업들이 전략적 투자자로 참여하며 시장의 주목을 받았고, 누적 투자 유치액은 약 1,500억 원에 달합니다. 

 

 

Chapter 4. 도전과 한계

AI 스타트업 자체가 진입장벽이 높은 분야입니다. 단순한 아이디어만으로 시작할 수 있는 일반적인 IT 스타트업과 달리, AI 기업은 고도의 기술 인력, 대규모 연산 자원, 정제된 학습 데이터, 그리고 장기간의 연구개발이 필요합니다. 특히 AI 모델을 직접 개발하고 상용화 단계까지 끌어올리기 위해선 상당한 시간과 비용이 요구됩니다. 이런 상황에서 트웰브랩스가 선택한 '영상 AI'는 그중에서도 가장 난이도가 높은 영역 중 하나입니다. 

 

음성이나 텍스트보다 데이터의 복잡도가 월등히 높고, 멀티모달 방식으로 다양한 입력을 동시에 처리해야 하며, 연산 비용도 기하급수적으로 증가하기 때문입니다. 트웰브랩스는 이 높은 벽을 정면으로 돌파하고 있지만, 여전히 해결해야 할 과제도 적지 않은데요. 구체적으로 어떤 도전과 한계가 있는지 살펴보겠습니다. 

 

멀티모달 영상 AI의 구조적 난관

영상 데이터는 텍스트나 이미지보다 크기가 압도적으로 크고, 구조가 복잡하며, 다양한 정보가 동시에 얽혀 있습니다. 이 때문에 초기 학습 단계부터 고성능 GPU 수백 대, 수만 개의 CPU 코어가 필요한 대규모 인프라가 필수입니다. 실제로 설립 초기에 모델을 훈련하고 인덱싱 하고 이해하는 데 100제타바이트가 넘는 비디오 콘텐츠가 사용되었다고 인터뷰하기도 했는데요. 트웰브랩스는 AWS와의 협업을 통해 이를 구축해 왔지만, 분산 환경에서의 하드웨어 오류나 시스템 장애는 끊임없는 운영 리스크로 작용합니다.

 

<출처: 작가, ChatGPT-4o 생성>

 

한편 이들이 개발한 멀티모달 AI는 단순히 ‘보이는 것’을 넘어서, 장면·음성·자막 등 다양한 정보를 종합해 맥락을 파악하는 것이 핵심입니다. 하지만 이러한 멀티모달 처리에는 여전히 기술적 한계가 존재합니다. 예컨대 어두운 장면이나 편집이 심한 영상, 흔들리는 카메라 등은 모델이 의미를 정확히 이해하기 어렵습니다. 특정 분야에선 높은 정확도를 보이더라도, 다양한 상황으로 확장되면 성능 저하가 나타나는 ‘좁은 AI’ 문제도 안고 있습니다.

 

더불어 멀티모달 AI는 챗봇처럼 명확한 벤치마크 기준이 부족하다는 점도 도전 과제입니다. 고객마다 요구하는 결과의 기준이 달라 모델 성능을 객관적으로 비교하기 어렵고, 사용자 피드백을 기반으로 한 반복 개선이 필수입니다. 트웰브랩스는 이를 해결하기 위해 기업 고객이 자사 데이터를 활용해 파인튜닝할 수 있도록 지원하고 있으며, 특수 도메인에선 의미 있는 성과를 거두고 있습니다.

 

결국 트웰브랩스가 이 분야에서 지속가능한 성장을 이어가려면, 기술 고도화와 인프라 최적화라는 이중 과제를 동시에 해결해야 합니다. 초기의 기술 선점을 지키면서도, 거대 고객사의 다양한 요구를 만족시키기 위한 민첩한 대응력이 중요한 시점입니다.

 

거인들과의 경쟁

트웰브랩스는 창업 초기부터 글로벌 시장을 겨냥한 비즈니스를 지향해 왔습니다. 미국 법인을 중심으로 설립됐고, 모델과 서비스도 영어 데이터를 기반으로 먼저 개발되었습니다. 이처럼 출발선부터 '글로벌을 목표로 한 스타트업'이었기에 구글, 메타, OpenAI 등과 같은 빅테크와의 경쟁은 피할 수 없는 과제입니다.

 

실제로 MS의 애저 비디오 인덱서, 아마존의 레코그니션 역시 기업 고객이 사용할 수 있는 영상 분석 툴로 자리 잡고 있으며, 이들 서비스는 제한된 기능이라 해도 "안정성과 신뢰도"를 내세운다는 점에서 보수적인 고객의 선택지를 잠식할 수 있습니다. 

 

애저 비디오 인덱서 <출처: Microsoft>

 

특히 트웰브랩스가 창업할 당시에 비해 지금은 영상을 포함한 멀티모달 기술의 주목도가 매우 높아진 상태인데요. 만약 구글이나 MS가 대규모 언어 모델과 연동된 고성능 영상 AI를 강하게 드라이브한다면, 스타트업 입장에선 기술력만으로 시장을 지키기 어려울 수 있습니다.

 

트웰브랩스는 누구보다 앞서 비디오 파운데이션 모델을 상용화해 시장에서의 선점 효과를 확보했고, 고객의 도메인별 수요에 유연하게 대응하며 "전문성과 민첩성"이라는 스타트업 고유의 장점을 극대화해 왔습니다. 하지만 빅테크가 가진 막대한 자본, 탄탄한 인프라, 자체 생태계와의 연계를 고려하면 이러한 장점만으로는 경쟁 우위를 유지하기 어려울 수 있습니다.

 

결국, 트웰브랩스에게 있어 거인들과의 경쟁은 기술력의 싸움을 넘어, 얼마나 정교한 전략으로 틈새를 공략하고, 시장의 신뢰를 선점하느냐에 달려 있습니다.

 

 

Chapter 5. 결론 및 향후 전망

트웰브랩스는 한국보다 해외에서 더 많이 회자되는, 드문 유형의 스타트업입니다. 국내에선 아직 이름이 낯설 수 있지만, 이미 글로벌 테크 생태계에서는 ‘가장 먼저 비디오 파운데이션 모델을 상용화한 회사’로 기록되고 있습니다. 특히 영상이라는 고난도의 영역에서 멀티모달 AI를 실전 비즈니스에 연결한 사례는, 여전히 세계적으로도 찾기 어렵습니다. 단일 모델에 집중해 성능과 비용 효율을 동시에 잡았고, 대기업과의 협업 없이도 안정적인 수익을 만들어낸 구조는 B2B AI 스타트업이 나아갈 하나의 교본처럼 읽힙니다.

 

하지만 이제는 진짜 시험대에 올랐다고 볼 수 있습니다. 멀티모달 AI는 대중화 국면에 접어들었고, 빅테크는 언제든 자체 영상 모델을 밀어붙일 수 있는 자금력과 유통 채널을 갖추고 있습니다. 초창기의 선점 효과나 스타트업 특유의 유연성만으로는 시장을 지키기 어렵고, 기술뿐 아니라 전략, 고객 설계, 생태계 포지셔닝까지 복합적인 경쟁력을 요구받는 시점입니다.


이러한 과제가 많고, 압박이 큰 상황에서도 흔들림 없이 중심을 지키며 누구보다 명확한 해답을 제시할 수 있다면, 트웰브랩스는 단순히 ‘한국 AI 스타트업의 예외적 성공 사례’에 머무는 것이 아니라, 향후 글로벌 시장에서 ‘새로운 표준’을 제시한 기업으로 자리매김할 수 있을 겁니다.


★ 독자 EVENT ★
지금 요즘IT X에서 이재훈 작가의 『샘 올트먼 더 비전 2030』 도서 증정 이벤트(7/16~7/20)를 진행 중입니다.

많은 관심과 참여 부탁드려요!

 

©️요즘IT의 모든 콘텐츠는 저작권법의 보호를 받는 바, 무단 전재와 복사, 배포 등을 금합니다.

에디터가 직접 고른 실무 인사이트 매주 목요일에 만나요.
newsletter_profile0명 뉴스레터 구독 중