
김성주 네이버클라우드 AI 리서치 엔지니어/테크리드 인터뷰
최근 ‘독자 AI 파운데이션 모델’, ‘소버린 AI’ 개념이 떠오르며 국내 LLM도 주목을 받고 있는데요. 국내 대표 테크 기업인 네이버는 자회사 네이버클라우드를 통해 ‘한국의 문화와 맥락을 가장 잘 이해’한다는 점을 강조하는 초거대 LLM 모델 하이퍼클로바X를 개발해냈죠.
최근에는 한국어 성능을 평가하는 벤치마크에서 좋은 평가를 받는 국내 LLM들이 있지만, 네이버는 그 길을 가장 먼저 갔다고 할 수 있습니다. 얼마 전 ‘독자 AI 파운데이션 모델 프로젝트’에서 네이버클라우드가 주도하는 컨소시엄이 5개 국가대표 AI 정예 팀 중 하나로 선정되기도 했죠.
이제 텍스트를 넘어 오디오 LLM 등 다양한 모달리티를 높이며 고도화해나가고 있는데요. 네이버의 초거대 LLM 모델 하이퍼클로바X에 테크리드 중 한 명으로 참여했고, 현재도 오디오 LLM을 개발하고 있는 김성주 네이버클라우드 리서치 엔지니어를 만나 LLM 개발과 리서치 엔지니어 커리어에 관한 이야기를 나눴습니다.
김 테크리드는 “지금처럼 전 세계 기업이 AI 기술을 서로 공개하고 확산시키는 흐름 속에서는 OpenAI와 같은 프런티어 기업의 기술도 더 이상 독보적이라 보기 어렵다”며 “결국 기술이 수렴하는 가운데, 네이버 LLM도 지속적인 개발만 이어진다면, 머지않아 그들과 어깨를 나란히 하게 될 것”이라고 말했습니다.
AI 개발에 대한 다양한 트렌드와 담론 속에서 국내 LLM 개발 트렌드를 파악하고 관련 커리어를 쌓아나가고 싶은 분들께 도움이 되고자 인터뷰 내용을 공유합니다.
네이버클라우드 하이퍼스케일AI 조직의 파운데이션 리서치에 소속된 AI 리서치 엔지니어 겸 테크리드로 일하고 있습니다. 하이퍼스케일 AI 조직은 이전에 클로바(Clova)라고 불리던 연구 조직의 전신을 이어받은 곳이고요. 현재는 팀 리딩보다 기술적 의사 결정에 많이 참여합니다. 과제나 프로젝트를 진행할 때 기술적 접근 방식을 제안하고 주도적으로 진행하는 '행동대장' 역할이라고 할 수 있습니다. 최근에는 특히 오디오 LLM(Audio LLM) 미션에서 강화학습(Reinforcement Learning) 관련 기술을 직접 만들고 학습하며 연구와 실험을 하고 있습니다.
코드생성 능력을 향상 시키기 위한 기술적 의사결정들을 했어요. 대표적으로 가상 데이터 생성을 극한으로 밀어붙여서 성능을 끌어올렸고, 여러 종류의 사용 가능한 오픈소스 데이터 수집하고 정제해 하이퍼클로바X의 기반 능력을 향상시켰습니다.
제가 기술적 의사결정에서 중요하게 생각하는 건 개발하는 기술이 스케일러블(Scalable)해야 한다는 점인데요. 이는 기술을 극한으로 밀어붙였을 때 성능이 단조 증가(Monotonically Increasing) 하는 축을 찾는 것을 의미합니다. 성능이 단조 증가한다는 것은 성능이 점차 증가한다는 건데요. 극한까지 밀어붙이면 어느 순간까지는 성능이 올라가다가, 성능 개선폭이 감소하는 시점이 옵니다. 그 시점에 도달하면 다른 방법론으로 넘어가게 되죠.
예를 들어, GPU는 코어 밀접도를 높이는 방식으로, CPU는 나노 공정을 통해 선폭을 얇게 만드는 방식으로 스케일링됩니다. 코드 생성 능력을 높이는 미션에서 가상 데이터 생성(Synthetic Data Generation)이 이러한 '극한의 축'이었고, 이를 많이 할수록 모델 성능이 계속 증가한다는 것을 확인했습니다.
가상 데이터 생성은 RFT(Rejection Fine-Tuning) 기법을 통해 이뤄져요. LLM에게 질문을 주고 수많은 응답을 만들게 한 뒤, 응답 중에서 정답에 해당하는 답변만 골라 모아서 모델을 학습시키는 방식입니다. 정답을 고르는 과정에서도 LLM이나 AI를 활용할 수 있죠. 이렇게 생성된 가상 데이터를 필터링하고 모델에게 학습시키는 것이 RFT의 핵심이에요. 이걸 극한으로 밀어붙이는 작업은 시간과 GPU의 영향을 크게 받아요. 많은 질문 세트를 준비하고 응답도 충분히 많이 만들어야 하는데, 가용한 시간 동안 GPU 자원을 최대한 활용해야 하는 것입니다. GPU가 많을수록 같은 시간 내 더 많은 데이터를 만들 수 있죠.
대표적으로 코드 자동 완성 기능이 있었죠. 코드를 작성하는 가운데 코드를 추천해주고, 탭을 누르면 자동 완성되는 기능이요. 또 대화형 챗봇 기능도 만들었어요. 코드나 개발 관련 질문에 답변해주는 창인데, 두 개 다 깃헙 코파일럿과 같은 기능이죠. 사내 개발자들이 자신이 이용하는 VS Code나 인텔리제이(Intellij)에 이를 붙여서 코드 자동완성, 챗봇, 리팩토링 기능을 썼어요. 현재는 생산성 도구는 내부에서 만들지 않는다는 정책에 따라 이 프로젝트는 중단하긴 했지만, 코딩 자동 완성 기능의 이용 비율이 초기 출시 대비 800% 증가하고 대화 기능도 많이 활용될 정도로 내부 반응은 매우 좋았어요.
LLM 자체가 컴퓨팅 파워를 얼마나 투입하느냐에 따라 성능이 올라간다는 점이에요. 대규모 언어 개발에서 특히 중요한 건 GPU의 양이에요. 그건 곧 자금을 뜻하기도 하고요. 중요한 점은 현재 발전이 느려보여도 성능이 점점 글로벌 모델을 따라잡고 있다는 거예요. 어느 지점에 도달하면 성능이 수렴하는 지점이 오게 될 겁니다. 그때까지 네이버클라우드 같은 회사들이 지금처럼 개발을 따라가기만 한다 해도 소버린 AI는 할 수 있을 거라 생각해요.
하이퍼클로바 X에 '듣는 기능'이나 '말하는 기능'과 같은 새로운 모달리티(Modality)를 추가하기 위해 연구하고 있어요. 이를 위해 음성 데이터와 텍스트 데이터를 얼라인(Align)시켜 텍스트 LLM이 가진 지식을 오디오에서도 활용할 수 있도록 합니다. 즉, 음성으로 질문해도 텍스트 지식을 활용하여 음성으로 대답할 수 있게 하는 거예요. 또, 리얼타임 풀 듀플렉스(Real-time Full Duplex) 기술을 통해 실시간으로 듣고 말하는 기능도 연구하고 있습니다.
데이터는 주로 인터넷에 공개된 사용 가능한 오픈 소스 음성 데이터와 별도로 구매한 음성 데이터를 활용하여 수집합니다. 데이터를 구매하는 전담 팀이 따로 있고요.
가장 큰 기술적 도전은 텍스트 LLM의 지식을 오디오 모달리티로 전이(transfer)할 때 지식의 퇴화(degradation)가 일어나는 것을 해결하는 것입니다. 오디오 이해와 발화 능력을 학습시키면 텍스트 기반의 지식이 약해지는 경향이 있거든요. 이건 뇌의 크기(모델 규모)는 동일한데 더 많은 종류의 데이터를 이해해야 하는 한계 때문이죠. 오픈AI와 같은 곳은 방대한 GPU 자원과 데이터를 통해 이를 해결하고 있지만, 네이버는 한정된 자원으로 퍼포먼스를 올려야 하는 과제를 안고 있습니다. 그럼에도 이를 해결할 수 있는 방법을 많이 고안했고 성과를 내고 있다고 말하고 싶어요.
현재는 실험적으로 어디에 적용할지 찾고 있는 단계예요. 서비스 적용 시점이나 확정된 서비스는 없습니다. 내부에는 음성 대화 모델 데모가 있지만, 서비스 적용은 수익성 등 많은 의사결정이 필요하여 아직 상용화하고 있지는 않습니다. 자연스러운 음성 대화를 만드는 방향의 연구에 집중하고 있어요. 텍스트를 음성으로 잘 변환해 주기만 해도 많은 활용처가 있을 것으로 보고 있죠.
딥러닝 시대로 넘어오면서 언어별 특별한 차이를 이용해 모델에 적용하기보다는, 타깃 언어의 데이터를 많이 모으면 AI 모델이 해당 언어를 잘하게 되는 방식이 됐어요. 그래서 한국어라고 해서 특별히 다른 방식으로 처리하고 영어라고 해서 다른 방식으로 처리하는 별도의 처리는 하지 않습니다. 한국어 발화 데이터를 많이 모으면 한국어를 더 잘하게 되고, 영어를 더 많이 모으면 영어를 더 잘하게 되는 방식이죠.
'미션 제도'를 특징으로 합니다. LLM 연구는 프런티어 연구로, 긴급한 이슈 대응이나 기술 개발이 필요할 때가 많습니다. 이러한 경우, 특정 미션 달성을 위해 해당 미션 조직을 만들고 여러 팀에서 인력이 차출되거나 통째로 투입되어 문제를 함께 해결합니다. 미션이 완수되면 다시 해산하는 문화가 특별하다고 생각해요. 이는 오픈AI에서도 유사하게 운영되었던 방식이라고 합니다. 또, 기술적 해결 방법에 관해서는 개인의 전문성을 존중하는 방식으로 진행됩니다. 예를 들어, 가상 데이터 생성과 같은 과제에서는 특정 팀원이 구체적인 개발 방법이나 일정을 스스로 정하여 주도적으로 진행하도록 의사를 존중하죠.
초거대 언어 모델의 윤리적, 사회적 문제 해결을 위해 전담 팀을 운영하고 있어요. 이 팀은 윤리적이거나 정치적인 문제로 인한 논란이 발생하지 않도록 대응하고 연구하죠. 문제 되는 발언을 하지 않도록 모델을 훈련하는 데 집중합니다. 모델 학습 단계 중 포스트 트레이닝(Post-training)의 SFT(Supervised Fine-Tuning) 및 RL(Reinforcement Learning) 단계에서 문제가 있는 발언을 하지 않도록 학습이 진행돼요. 다만, LLM은 확률적으로 작동하기 때문에 의도치 않은 동작이 발생할 수 있어서, 이를 지속적으로 개선하고 있습니다.
AI 리서치 사이언티스트와 AI 리서치 엔지니어들이 모델에 대한 실험을 수행하고, ML옵스와 데이터 엔지니어는 데이터 생성과 모델 생산 관리를 담당합니다. 최종적으로 모델이 완성되면 개발자들이 해당 모델을 실제 서비스에 연동(서빙)하여 유저들이 사용할 수 있도록 합니다. 모델의 스펙이나 사용 방법은 미리 논의해 개발자에게 전달되고, 개발자는 만들어진 모델을 최대한 엔지니어링 기법을 통해 서비스에 잘 활용될 수 있도록 하죠.
가장 기본이 되는 것은 ‘태도’라고 생각해요. AI 분야는 매우 빠르게 변화하므로, 며칠 또는 심지어 오늘 안에 해결해야 하는 긴급한 문제들이 많습니다. 이러한 부담스러운 상황에서도 긍정적인 태도로 문제를 해낼 수 있는 힘이 중요합니다. 또 긴급성을 인지하고 빠르게 대응하는 능력과 집요함이 필요합니다. 솔직히 말하면 프런티어 리서치 특성상 ‘워라밸’을 지키기 힘들 정도로 많은 시간과 노력을 투입해야 할 때가 많습니다.
기본기를 가장 중요하게 봅니다. 머신러닝, 딥러닝에 대한 기본적인 지식, 그리고 수학적 백그라운드가 탄탄한 사람을 선호해요. 최신 AI 기술이나 프레임워크 사용 경험도 중요하지만, 그 밑바탕이 되는 수학, 머신러닝 백그라운드에 대한 깊은 이해가 있어야 빠르게 새로운 지식을 습득하고 좋은 의사결정을 내릴 수 있기 때문입니다. 기본기 다음으로는 AI에 대한 관심도와 새로운 지식을 빠르게 습득하는 능력이 중요하죠. 면접에서는 자신이 진행했던 프로젝트나 경험, 특히 가장 도전적인 프로젝트가 무엇이었는지를 질문하여 이러한 역량과 관심을 파악합니다.
AI 엔지니어는 범위가 넓어요. 그래서 크게 AI 소프트웨어 개발자와 AI 리서치 엔지니어로 나누어 설명할 수 있습니다.
AI 소프트웨어 개발자
AI 리서치 엔지니어
개인적으로 클로드 코드(Claude Code)를 많이 사용합니다. 터미널에서 실행되고 자연어 입력에 따라 프로그램을 만들거나 코드를 수정해 주는 기능을 제공하는데요. 성능이 가장 뛰어나 요청한 의도대로 코드를 틀리지 않고 완성해 주는 비율이 높습니다. 특히 VIM을 활용한 터미널 개발 환경에 클로드 코드를 띄워놓고 개발하면 편리합니다. 그 외에 ChatGPT도 많이 활용해요. 논문 조사나 기술 조사 시에는 오픈AI의 O3나 딥리서치를, 내용 요약이나 번역에는 Clova-x나 GPT-4o를 사용하죠. 코딩은 주로 클로드 코드를 씁니다.
앞으로 1년간 가장 주목되는 트렌드는 RL(Reinforcement Learning) 컴퓨트 스케일링과 테스트 타임 컴퓨트 스케일링이에요.
이 두 가지 스케일링 방법은 LLM 모델 크기나 사전 학습 데이터의 한계에도 불구하고 성능을 크게 향상시킬 수 있는 돌파구를 찾았다는 것을 의미합니다. 이를 통해 사람보다 똑똑한 AI, 즉 슈퍼 인텔리전스(Superintelligence)를 만들 수 있는 단계에 도달하고 있죠. 최근 Grok-4가 PhD 학생들보다 똑똑한 성능을 보여주며 수학 벤치마크 AIME 25 (American Invitational Mathematics Examination)에서 100점을 받은 사례가 이 두 가지 스케일링 기법의 중요성을 입증했어요.
현재 수준의 작업은 10년 안에 대체될 수 있다고 생각합니다. 다만, AI가 발전하며 해결할 수 있는 문제가 더 많아져서 문제마다 도메인마다 좀 더 뾰족한 문제를 푸는 AI 리서치 엔지니어들이 더 많아질 수도 있다고 생각합니다. 물론 그 시점의 AI 리서치 엔지니어의 일은 지금의 일과는 전혀 다를 것 같습니다. 어떤 문제를 풀 때 AI가 풀 문제의 범위를 정하고, 문제 푸는 방식에 대해 감독하는 감독관 같은 느낌 일 것 같습니다.
요즘 가장 관심이 많은 주제는 강화 학습(Reinforcement Learning)입니다. 그록 4(Grok-4)가 강화 학습 스케일링을 통해 성능 향상을 보였듯이, 저도 RL 컴퓨트 증가와 테스트 타임 스케일링 증가를 통해 LLM 성능 향상을 이루어보고 싶다는 구체적인 계획이 있어요.
소버린 AI는 한 나라가 특정 기술을 외부에 의존하지 않고 스스로 통제하며 보유하는 것이라고 생각합니다. 이는 특히 일자리 창출 측면에서 매우 중요하다고 생각해요. 저는 네이버가 검색을 잃지 않았기 때문에 국내에서 검색과 관련한 좋은 일자리를 만들 수 있었다고 생각해요. 마찬가지로 카카오톡이 있었기에 관련 일자리들이 생겼고요. 코어 기술이 국내에 없다면 관련 산업 전체 일자리가 국내에서 사라지는 거라고 봅니다. AI도 마찬가지로 ‘소버린 AI’를 통해 그 핵심 기술에서 파생되는 많은 일자리를 국내에 만들 수 있다고 생각해요. 또 코어 기술을 외부에 의존한다면 가격 인상이나 사용 중지 등 통제할 수 없는 의사결정의 피해를 볼 수 있고, 군사적 도입 등 국가 안보 측면의 위험 방지를 위해서도 소버린 AI가 중요하다고 생각합니다.
원래 ‘생각하는 기계’를 만드는 게 꿈이었던 그는 “그 꿈이 이렇게 젊은 날에 이룰 수 있는 건지 몰랐다”며 “이제 그걸 어떻게 만드는지 알게 되고 직접 만들게 되니 너무 재밌다”고 말합니다. 그런 만큼 빠르게 바뀌는 기술 환경 속에서도 호기심을 갖고 긍정적인 태도로 ‘집요’하게 문제를 해결하는 역량을 AI 리서치 엔지니어의 중요한 역량으로 꼽았는데요. 그 자신도 빠르게 진행해야 하는 프로젝트로 집중해야 하는 기간은 시간 가는 줄 모르고 새벽까지 일한다고 합니다. 그만큼 한국의 프런티어 모델을 개발한다는 자부심을 갖고 있었습니다.
그가 몸담은 네이버클라우드는 한국어 LLM의 개척자로서, 하이퍼클로바X에 이어 오디오 LLM까지 이어지는 새로운 도전을 통해 ‘듣고 말하는’ AI의 가능성을 넓혀가고 있습니다. 한정된 자원 속에서도 글로벌 수준의 기술을 만들어가는 네이버의 도전은 단순히 모델 성능을 넘어서, 우리 사회가 주체적으로 기술을 설계하고 발전시킬 수 있다는 가능성을 상징합니다.
지금 이 순간에도 생각하는 기계를 만들고 있는 이들 덕분에, 한국의 AI는 더 멀리 나아가고 있는 게 아닐까요.
*네이버 LLM인 하이퍼클로바 X 개발은 네이버클라우드에서 진행하고 있어서 글에서는 네이버, 네이버클라우드를 혼용해 사용했습니다
노희선 에디터[email protected]
©️요즘IT의 모든 콘텐츠는 저작권법의 보호를 받는 바, 무단 전재와 복사, 배포 등을 금합니다.