
글로벌 영상 특화 AI 모델 제공사 트웰브랩스 김근오 개발자 인터뷰
AI 분야로 전환을 고민하는 개발자들도 많지만 막상 실행에 옮기기는 쉽지 않습니다. "AI를 모르는데 어떻게 시작하지?" "머신러닝 이론부터 공부해야 하나?" 같은 질문에 막혀버리죠.
트웰브랩스의 데이터 엔지니어 김근오 씨도 트웰브랩스에 합류하기 바로 1년 전까지만 해도 AI와는 거리가 먼 백엔드 개발자였습니다. 6년간 프론트엔드, 백엔드, 네트워킹 시스템을 구현했지만 머신러닝이 어떻게 동작하는지, 데이터가 왜 중요한지 전혀 몰랐다고 합니다.
그런 그가 지금은 1페타바이트가 넘는 영상 데이터를 다루며, AWS 베드록에 한국 최초로 올라간 AI 모델의 성능을 끌어올리고 있습니다. 영상 AI 기업 트웰브랩스의 ‘마렝고’가 바로 그 모델입니다. 트웰브랩스는 영상 AI 모델에서는 전 세계적으로 앞선 것으로 알려진 한국 스타트업인데요. 2023년에 그 가능성을 알아본 엔비디아, 인텔, 삼성넥스트가 1000만 달러를 투자했고 현재 누적 투자유치치금 1500만 달러에 이릅니다.
"100개 비디오를 다운로드받는 파이프라인은 누구나 만들 수 있어요. 처음부터 큰 스케일을 경험할 필요는 없더라고요. 그 과정에서 수많은 에러를 만나게 되면 배울 수 있어요."
백엔드에서 출발해 AI 회사의 핵심 데이터 엔지니어가 된 그의 현실적인 전환 스토리를 들어봤습니다.
이 인터뷰에서 얻을 수 있는 것
- 백엔드 경험을 ML 데이터 엔지니어링으로 전환한 과정에 대한 레퍼런스
- 대규모 영상 데이터를 다루면서 마주치는 현실적 난관과 해결법
- AI/ML 경험이 없어도 데이터 엔지니어로 커리어를 넓히는 방법과 첫 프로젝트 아이디어
안녕하세요. 트웰브랩스에서 데이터 엔지니어로 일하고 있는 김근오입니다. 회사에서 사용하는 이름은 다니엘이고, 총 6년간 소프트웨어 엔지니어로 일해왔습니다.
트웰브랩스에 합류하기 직전에는 한국형 링크드인 서비스를 만들려던 스타트업에서 2년 정도 풀스택 엔지니어로 근무했습니다. 그 전 스타트업에서는 프론트엔드 개발이랑 블로그 시스템, 프로필 시스템, 네트워킹 시스템 같은 주요 서비스를 직접 구현했어요.
그러다 4년 전(2021년)에 트웰브랩스에 백엔드 엔지니어로 합류해 초기 API 서버와 데이터베이스 구조, 서버 보안 같은 서비스의 기술적 기반을 설계하고 구축했습니다. 지금은 데이터 엔지니어로서 더 나은 모델을 만들기 위해서 다양한 데이터 파이프라인을 설계하고 대규모 데이터를 구축, 관리하는 역할을 담당하고 있어요.
백엔드 엔지니어로 들어와서 프론트 일도 겸하고 있었는데, 회사가 모델을 대규모로 학습해야 하는 중요한 시점이 왔어요. 마침 제가 전 직장에서 쌓은 데이터 수집과 크롤링 경험이 딱 필요한 타이밍이었죠.
전 직장에서 링크드인과 같은 서비스를 만들면서 크롤링과 같은 기술적인 것들을 많이 경험해봤거든요. 외부 데이터를 안정적으로 수집하고 정제하는 과정이 결국 데이터 엔지니어링의 출발점이기도 하니까요. 회사에서도 제 경험을 인정해주시고 데이터 파이프라인 구축이라는 새로운 도전 기회를 주셨어요. 그렇게 데이터 업무를 백엔드와 함께 시작하다가 나중에는 완전히 데이터 엔지니어로 전환하게 되었습니다.
처음에는 책을 찾아봤어요. 구글링하거나 유튜브, 깃헙 소스코드를 보면서 어떤 식으로 흘러가는지 개념을 빠르게 잡으려고 노력했죠. 사실 단순히 빅데이터를 공부하면 되겠지, 생각했고요. 아파치 스파크, 하둡 같은 걸 공부했는데 실제와 너무 많이 달랐습니다.
제가 스파크 전문가는 아니지만 스파크를 예로 들자면, 스파크를 사용하는 방식부터 달랐어요. 일반적 회사에서는 여러 가지 소스에 있는 DB를 한 번에 읽어와서 정제하는 식으로 쓰는 걸로 알고 있어요. 하지만 트웰브랩스에서는 대용량 비디오 파일을 웹데이터셋으로 변환해서 모델이 학습할 수 있게 해야 하다 보니 일반적인 케이스와 달랐죠.
그런데 많은 개발자들이 공감할 거예요, 이론 공부가 전부가 아니라는 걸요. 사실 실제 개발에 들어가서 문제에 부딪혀 봐야 해결할 수 있는 것들이 많잖아요. 이번에도 그랬던 것 같아요.
실제 학습에 쓰이는 데이터가 어떤 건지 사이언티스트에게 여쭤봤어요. 이런 과정에서 어떤 식으로 데이터가 수집되고 정제되고 중복이 제거되어야 하는지, 데이터 파이프라인 설계 방향도 잡았던 것 같습니다.
또 경험이 없다고 해서 구현을 못하는 건 또 아니에요. 100개 비디오를 다운로드받는 파이프라인은 누구나 만들 수 있어요. 거기서부터 시작해서 알아가는 거라서, 처음부터 큰 스케일을 경험할 필요는 없어요. 그 과정에서 수많은 에러를 만나게 되면서 배울 수 있었죠.
전반적으로 하는 일이 너무 달랐습니다. 데이터 엔지니어는 고객이 내부 리서치 팀이고, 백엔드 엔지니어처럼 실시간 장애 대응 같은 일이 없고요.
또 무엇보다 AI에 대해서 지식이 없는 상태로 전환을 하다 보니 허들이 좀 있었어요. 예를 들면 비디오 데이터라는 게 단순히 수집해서만 되는 게 아니란 걸 나중에 깨달았어요. 비디오를 대규모로 수집하는 과정에서 비디오가 깨질 수도 있고, 업로드 당시부터 프레임에 노이즈가 있을 수 있고, 비디오 디스크립션이 부족할 수 있다는 걸 아예 몰랐죠. 그런 부분이 이해하기 힘들었던 것 같습니다.
또 1페타 바이트 이상의 규모를 다루다 보니 무결성 처리나 데이터 오염에 대해서도 고민이 많았고요. 데이터를 크롤링하면서도 종종 겪었던 문제였지만, 이 정도 스케일에서는 파일 손상이나 노이즈 처리 같은 부분이 훨씬 큰 도전이 됐습니다.
수집된 데이터를 리서처가 활용하려면 수집된 비디오 데이터가 아니라 웹데이터셋이라는 포맷으로 변환해야 했는데, 웹데이터셋이 어떤 것인지 감이 안 잡혀서 많이 헤맸어요. 영상 데이터는 텍스트, 오디오, 이미지의 집합체예요. 그래서 모델이 학습할 때는 이 데이터가 모두 분리되어 들어가야 하는데, 이걸 일관된 키로 정리하는 것도 어려웠고요.
사실 AI가 어떤 식으로 학습되는지를 알게 되고 익숙해지는 것에 허들이 있어서 어려웠던 것이지, 백엔드 개발자로 서비스 운영했던 경험은 많이 도움이 됐어요.
예를 들면 데이터 처리할 때 단일 인스턴스보다 병렬 인스턴스로 처리하는 방식은 이미 백엔드에서 많이 경험해본 것이고요. 대규모 크롤링도 마찬가지였습니다. 크롤러 워커들이 큐잉 시스템을 통해 작업을 분배받는 분산처리 역시 백엔드에서 충분히 경험해봤기 때문에 적용할 수 있었죠. 이런 경험들이 차곡차곡 쌓여 AI 분야를 이해하는 데 훨씬 수월했던 것 같습니다.
제가 일반 데이터 엔지니어 분들의 일을 경험해보지 못했기 때문에 얼마나 어떻게 다른지는 정확히 모르겠어요. 다만 생각해보자면, 로그나 데이터 분석을 위해서 데이터 엔지니어링을 하냐 아니면 학습을 위해서 데이터 엔지니어링을 하냐 이런 차이인 것 같습니다.
일반적인 회사에서 데이터 엔지니어는 ETL 파이프라인으로 서비스 운영하면서 생기는 로그나 유저 이벤트를 분석하기 좋은 형태로 만든 다음에 회사 운영 방향에 쓰는 일을 하는 걸로 알아요. 그런데 저희는 영상 학습을 위한, 모델 학습을 위한 데이터 엔지니어라는 점에서 다릅니다.
텍스트는 10억 개든 100억 개든 용량이 크지 않아요. 하지만 영상은 그 차이가 엄청나게 커요. 그래서 대규모 스케일링이 필요하죠. 또 데이터 학습에서는 ‘어노테이션’이라는 작업이 필요한데, 비디오나 이미지에 대해 세세하게 설명을 붙이는 게 어노테이션이에요. 이 일을 하는 어노테이터 분들과도 소통해야 하고, 그렇게 나온 걸 어떻게 정제해야 하는지 파악해야 합니다. 학습을 위해서 실제 학습 가능한 형태로 변환해줄 수 있는 일도 해요.
트웰브랩스는 대규모 영상 데이터를 다루는 회사이다 보니 데이터 수집 플랫폼을 개발했습니다. 지금도 유지 보수되면서 진행 중인 프로젝트예요. 대용량 데이터를 수집하고 정제하는 과정에서 많은 리소스가 필요해요. 분산 큐 기반으로 설계해서 대용량 데이터나 작업들을 안정적으로 수행할 수 있게 만들었습니다.
데이터를 수집하다 손상되는 파일을 발견하면 무결성 검사를 하고, 자동으로 복구를 시도하거나 제거하는 자동화도 있고요. 데이터 수집 당시 저작권 문제 판별을 할 수도 있어요. 학습할 때 민감한 부분이라서 문제없게 처리하려고 노력을 많이 했습니다.
최근에 허깅페이스에 공개된 데이터셋이 많이 올라오는데, 초기에는 리서처가 그런 것을 직접 다운로드했습니다. 그게 병목 태스크였어요. 그래서 지금은 허깅페이스에서 뭔가 사용해보고 싶다고 선택해서 제출하면 자동 다운로드해서 내부 표준 포맷으로 변경해 연구자들이 바로 쓸 수 있는 기능도 넣었습니다.
사이언티스트들과 같이 일을 하지만 한 팀은 아니에요. 제품마다 사이언티스트가 있고, 데이터 엔지니어는 데이터 엔지니어 팀으로 있어요. 사이언티스트마다 연구 주제들이 다 다르다 보니 원하는 데이터에 대한 니즈도 다 다릅니다.
그래서 저희 데이터 팀은 다양한 요구사항을 듣고 공통으로 활용할 수 있는 데이터 인프라스트럭처를 만들어요. 특정 프로젝트에만 맞는 툴보다는 동시에 사용할 수 있는 범용적인 데이터 시스템을 만들려고 합니다. 그래야 사이언티스트는 모델 개발에만 집중할 수 있죠. 데이터 품질은 우리가 맡고요.
파이썬으로 토이 프로젝트를 경험해보라고 추천하고 싶습니다. 지금은 워낙 LLM이랑 멀티모달이 나온 지 좀 지난 상황이어서 공개된 데이터셋이 엄청 많거든요. 그런 걸 학습 가능한 형태로 만들어보는 간단한 프로젝트를 해보면 좋겠어요.
데이터셋을 받아서 그걸 웹데이터셋 같은 학습 가능한 형태로 변환해보고 그걸 파이토치 데이터 로더 같은 걸로 읽는 과정이 한 사이클이에요. 크지는 않더라도 작게 시작해보면 좋겠습니다. 데이터를 수집이나 정제하는 것에서 난관에 부딪힐 거예요. 그러면서 하나씩 해보는 거죠. 저도 처음에 이렇게 했어요.
ML 데이터 엔지니어라고 해서 특별한 인프라스트럭처가 필요한 건 아니거든요. 그냥 백엔드에서 쓰던 인프라스트럭처를 가져와서 상황에 맞게 쓰면 되는 거예요.
사이트 한 개만 크롤링하는 서비스를 만들다가, 여러 사이트를 크롤링하는 서비스를 만들어 보는 식인 것 같아요. 하나의 프로그램에서 어떻게 적절하게 수집할 수 있을지, 어떻게 안정적으로 수집할 수 있는지 그런 파이프라인을 설계해보는 게 도움이 됐어요.
굳이 처음부터 큰 스케일링을 경험할 필요는 없다고 생각하거든요. 처음엔 작은 크롤링에서 시작해도, 결국은 데이터 파이프라인 설계와 같은 원리를 경험할 수 있습니다. 100개의 비디오를 다운로드 받는 파이프라인을 만들 수 있다면, 그 무결성 체크나 프레임레이트 같은 것을 확인하겠죠. 그런 것만 스스로 해봐도 그 과정에서 수많은 에러를 만나고 해결하면서서 도움이 될 거예요. 꼭 머신러닝닝 데이터 경험이 없다고 해서 구현을 못하는 건 아니에요.
현업 팁 | 작게 시작해도 괜찮다
- 처음부터 대규모 데이터를 다루지 않아도 됩니다.
- 예: 100개 비디오 다운로드 → 무결성·프레임레이트 체크 → 실패 로그로 개선
- 작은 규모에서 부딪히며 에러를 해결하는 경험이 결국 대규모 파이프라인 설계로 이어집니다.
개선할 수 있는 마인드예요. 특정 시스템을 끊임없이 개선할 수 있는 마인드. 학습에 필요한 데이터는 항상 부족하거나 노이즈가 많을 수밖에 없습니다. 완벽한 상태의 데이터는 없다고 생각해요.
협업도 중요한 것 같아요. 혼자 성과를 낼 수 없는 직군이 ML 데이터 엔지니어다 보니까 사이언티스트나 어노테이터 등과 협력해야 합니다. 그런 다양한 요구사항을 하나의 시스템으로 녹여낼 수 있는 마인드가 필요할 것 같아요.
데이터 엔지니어링이 기존에는 ETL 파이프라인을 만들어서 로그 등을 처리하는 파이프라인을 만들었다고 하면 이제는 머신러닝이 급부상하면서 ML 친화적인 데이터 파이프라인으로 진화하고 있다고 생각합니다.
글로벌 멀티모달 AI 시장이 24년도에는 15~16억 달러 규모였는데 최근에는 2030년까지 400억 달러 규모 이상으로 성장한다고 해요. 이런 데이터를 안정적으로 처리할 수 있는 데이터 엔지니어 역할이 커질 수밖에 없다고 생각해요.
백엔드에서 데이터 엔지니어로 전환한 그는 이제 트웰브랩스라는 글로벌 AI 스타트업에서, 이전에는 상상하지 못했던 대규모 데이터와 함께합니다. 리서치 사이언티스트와의 협업 속에서 새로운 시야를 얻고 있기도 하죠. 특히 “사이언티스트에게 ML 데이터 엔지니어링에 대해 많이 배운다”고 합니다. 엔지니어와 사이언티스트의 생각과 접근 방식이 많이 다른데, 그 관점의 차이에서 배울 점이 많다고요.
무엇보다 “트웰브랩스처럼 ‘비정형 데이터’를 대규모로 다루는 데이터 엔지니어링을 해볼 수 있는 곳은 희소”하다고 그는 말합니다. “‘영상’ 데이터는 텍스트, 이미지, 오디오가 합쳐진 ‘멀티모달’ 데이터이기도 해서 다양한 데이터를 다뤄볼 수 있어 특별하다”는 것이죠.
“지금은 멀티모달 시장이 이제 막 커지는 단계이다 보니 이런 일을 하는 곳이 적지만, 언젠가는 누구나 비정형 데이터를 다뤄야 할 순간이 올 거라고 생각해요. 그 시기를 앞서 경험하는 것 같아요.”
마지막으로 김근오 엔지니어에게 과거의 자신에게 무슨 말을 들려주고 싶은지 물어봤습니다. 이에 그는 “두려워하지 말라”는 말을 해주고 싶다고 했습니다. 백엔드 엔지니어인 자신이 AI 회사에서 자신이 할 수 있는 일이 있을지 불안해 했지만, 막상 부딪히고 나니 달랐다는 것입니다.
“AI 회사라고 해서 특별한 게 있는 건 아니더라고요. 처음엔 낯설고 어려웠지만, 결국은 익숙했던 개발 경험들이 도움이 됐고, 새로운 환경 속에서 다른 방식으로 배워 나가면 됩니다. 환경이 달라진 것이지, 하는 일이 완전히 달라지는 건 아니었어요.”
➡️ 현재 트웰브랩스는 전 분야에서 적극적으로 채용을 진행하고 있습니다. 관심 있는 분들은채용공고를 확인해 보세요.
노희선 에디터 heesun.noh@wishket.com
©️요즘IT의 모든 콘텐츠는 저작권법의 보호를 받는 바, 무단 전재와 복사, 배포 등을 금합니다.