고양이도 알아듣는 생존형 AI 기초: 트렌드③ 아주 가까운 미래 편
요즘 IT 시장을 보면 온통 AI 이야기로 가득 차 있습니다. 특히 ‘챗GPT’가 등장한 이후로 정말 많은 것이 바뀌었죠. 이런 흐름에 ‘AI가 내 일을 대체할 거라는데, 정작 나는 아무것도 모르겠어.’라는 두려움이 퍼지고 있습니다. ‘AI 포모(AI FOMO)’라는 이름으로요.
두려움에 빠진 분들을 위해 AI를 이해할 때 필요한 최소한의 이야기를 준비했습니다. 어려운 이론은 뛰어넘고 실제 산업을 이해할 때 도움을 줄 것들만 다루겠습니다. 목표로 하는 것은 새로운 뉴스가 나왔을 때 적어도 “그 소식이 왜 중요한지” 정도는 이해할 수 있는 겁니다. 모두가 ‘이건 정말 중요하다!’라고 말할 때, 최소한 그 이유 정도는 알 수 있도록 말이죠. 집사 옆에 식빵 굽던 고양이도 알아들을 수 있는, 생존을 위한 AI입니다.
에이전트와 MCP, 여기까지가 지금 모두에게 알려진 트렌드 키워드입니다. 사람마다 느끼는 우선순위와 중요도는 다르다 해도 “중요하다”는 데에는 동의할 키워드죠.
이번에는 아직 대단히 유행하지는 않았다만 ‘진짜 에이전트’를 만들기 위해 필요한 것들을 살펴보겠습니다. 다뤄볼 키워드를 편의상 에이전트의 관점에서 묶을 텐데요. 그 등장 시기도 배경도 조금은 산발적입니다. 그렇게 제목은 ‘아주 가까운 미래’여도 사실은 ‘아주 가까운 과거’의 이야기들 중심입니다.
그래도 이런 변화로 에이전트와 함께할 미래는 어떤 모양일지 그 단편적인 모습을 그려볼 수는 있을 겁니다. 생존형 AI 시리즈의 마지막입니다.

- 고양이(요고): 마지막도 빼놓을 수 없지. 어떤 키워드가 나와요?
- 나: 에이전트 계층과 피지컬 AI, 바이브 코딩까지! 함께 가봅시다.
사회성 장착: #에이전트 계층과 #HITL
에이전트에게 도구만 쥐어 주면 모든 일을 해낼 수 있을까요? 글쎄요. 아무리 힘센 슈퍼맨도 혼자 세상을 다 구할 수는 없습니다.
AI 에이전트 역시 혼자서는 일하지 않을 가능성이 큽니다. 여러 에이전트가 한 팀처럼 연결되고 협력하는 형태가 일반적일테죠. 쉽게 말해 에이전트에 사회성을 장착 시키기로 한 겁니다.
어허, 에이전트라고 다 같은 에이전트 아닙니다
먼저 볼 것은 에이전트 계층(agent hierarchy)이라는 개념입니다. 에이전트를 계층 구조로 쌓는 겁니다. 그러니까 판단과 평가, 조율에 최적화된 상위 에이전트와 개별 단위 수행에 최적화된 에이전트가 함께 일하는 거죠.
상위 에이전트는 개별 에이전트들이 수행한 결과물을 관리·감독하며, 리소스를 점검하는 등 업무 조율자의 역할을 합니다. 실제 수행은 특화 에이전트들이 합니다. 이를테면 도구 하나를 능숙하게 다루거나, 특정 영역의 업무를 전문적이고 효율적으로 수행하는 데에 최적화된 에이전트입니다.*
*이러한 수직 계층은 구조의 한 형태로, 모든 협업이 이러한 구조로 이뤄지는 것은 아닙니다. 지금도 더 효율적인 분산 구조에 대한 연구가 이어지고 있고요.
익숙합니다. 마치 우리네 팀과 같네요. 지시하고 평가하며 조율하는 팀장님, 누구는 엑셀 전문가, 누구는 커뮤니케이션 전문가인 팀원들이 한데 모여 데굴데굴 굴러가는 팀이요.

어허, 사람이라고 예외는 아닙니다
비유라고만 생각하셨나요? 천만에요. 이 에이전트 계층에는 사람도 들어갈 수 있습니다. 휴먼 인 더 루프(Human-in-the-Loop)는 AI 시스템의 일부로 사람을 집어넣는 구조를 말합니다.
그래도요, 이런 구조 안에서는 이왕이면 사람에게 팀장님 역할을 시켜 줍니다. 에이전트가 무언가를 수행하거나 큰 변화를 이뤄내기 전, 주요한 검토와 결정을 사람에게 맡기는 겁니다. 그래서 앞으로는 조율과 판단 능력이 중요해질 거라고 보는 거고요.
어떻게 소통해요? 아마도 A2A…?
그럼 에이전트끼리는 어떻게 대화하냐고요? 하나의 시스템 안에 있다면 뭐 적당한 규칙 아래 돌아갈 수 있을 겁니다. 그런데 만약 또다른 에이전트와 만나 일을 시키려고 한다면요?
여기에도 새로운 규칙이 필요합니다. 구글이 발표한 A2A라는 것이 그 예인데요. 엄밀히 말해 프로토콜이라기보다는 간단한 소통 규약에 가까운 개념입니다. 에이전트끼리 무슨 규칙으로 필요한 데이터를 교환할지 정의한 소스죠. 또, MS가 발표한 NLWeb이란 것도 있습니다. 웹에서 에이전트가 상호작용할 때 표준이 될 소스라고 하네요. 물론 아직까지 MCP에 대한 논의조차 충분히 않은 상황이니 둘 다 대세라고 하기에는 애매합니다.
그래도 “에이전트라고 혼자 다 할 수 있는 건 아니다, 함께 일해야 한다”는 사실은 모두 깨달아 가고 있습니다. 그러니 실질적인 연결과 협력이 한층 더 활발해질 것으로 보입니다. 내키는 대로 만드는 것이 아닌 어느 정도 약속에 따른 에이전트를 만들어 내야 한다는 거죠.
- 고양이(요고): 에이전트한테 사회성을 주는 법, 한 번 정리해 주세요.
- 나: 에이전트는 여러 에이전트가 각자의 역할에 따라 움직이는 계층을 가질 확률이 높아요. 이 구조 안에는 사람이 관리/감독을 위해 들어가기도 하며, 또, 이들의 소통을 위한 규약들도 생겨나는 중!
몸통 장착: #피지컬AI
지금까지 우리는 이 에이전트를 시스템, 즉, 가상의 공간 안에서만 살펴봤습니다. 그렇지만 즉각적인 변화를 불러오는 데는 물리력 만한 게 없습니다. 이처럼 AI 시스템이 물리적 상황에 개입하기 위해 상황을 인지하고 이해하며 수행하는 분야를 묶어 피지컬 AI라고 부릅니다.
이제 로봇이 등장할 차례입니다. 사실 로봇은 ‘기계’가 등장한 산업혁명부터 뭇 사람들의 꿈과 희망을 먹고 자랐습니다. 그만큼 영역이 넓고 깊다는 뜻이기도 합니다. 그러니 여기서는 ‘AI를 하드웨어에 이식하는 것’에서 중요한 기술 키워드들만 조금 다뤄 보겠습니다.

뇌를 조금만 줄여줄래요? #경량화 #지식 증류
AI 모델, 특히 LLM을 하드웨어에 붙이려니 이런 고민이 듭니다. ‘모델이 복잡하고 무겁다’는 거죠. 스마트폰에 AI를 넣었다고 노트북만큼 무거워지면 누가 쓰겠어요? 게다가 하드웨어가 동작하는 것과 함께 모델에 부여할 리소스는 한계가 있습니다. 그러니 적당한 자원만 먹으면서도 효과를 내는 것이 중요합니다.
그래서 AI 모델을 실제 제품에 적용하거나 널리 보급하려면, 사용 목적에 꼭 맞게 압축하고 간소화하는 경량화 기술이 중요합니다. 데이터 유형을 바꿔 줄이기도 하고, 알아야 하는 지식만 추려서 넣기도 합니다. 성능과 크기라는 잣대 사이에서 줄다리기를 하죠.
*조금 더 알아보기: AI 스마트폰의 핵심, LLM 경량화 테크닉
한편 작은 모델을 만드는 또 다른 효율적인 방법으로 지식 증류(Knowledge Distillation) 기술도 주목 받고 있습니다. 더 큰 모델의 지식을 작은 모델에게 전달하며 효율을 끌어올리는 방법인데요. 큰 모델은 일종의 ‘선생님’, 작은 모델은 ‘학생’이라고 봐도 됩니다. 특히 증류 기술로 무지 싸게 만들었다 알려진 딥시크의 추론 모델 R1이 등장하며 인기를 끌었죠. 꼭 이런 하드웨어뿐만 아니라 모델을 구축하는 새로운 방식으로 주목받고 있으니, 눈여겨 봐도 좋겠습니다.
*조금 더 알아보기: AI 모델 ‘지식 증류’의 모든 것
불쾌한 골짜기는 좀 그래 #휴머노이드
AI 모델의 경량화 기술만큼이나 많은 관심을 받는 분야가 또 한 가지 있습니다. 휴머노이드(Humanoid), 사람을 닮은 로봇의 활용이죠. 이들 휴머노이드 로봇은 사람과 비슷한 모습으로 일상에서 받아들이기 쉽게 설계됩니다.
하지만 휴머노이드가 친숙함만 주지는 않습니다. ‘불쾌한 골짜기’라는 현상이 유명하죠. 사람을 너무 닮은 로봇이 오히려 불편하고 이상한 느낌을 줄 수 있다는 건데요. 그래서 꼭 사람 형태의 로봇이 아니더라도 사용자에게 친근하게 다가갈 형태에 대해서도 연구와 논의가 이루어지고 있습니다.
예를 들면 우리 집에 있는 AI 스피커나 로봇청소기도 넓은 의미에서는 로봇이라고 볼 수 있잖아요? 휴머노이드뿐만 아니라 이렇게 사람 모습을 닮지 않은 ‘논-휴머노이드(Non-humanoid)’ 형태의 로봇이 속속 나오는 이유입니다. 어떻게 하면 조금이라도 더 친숙하게 일상에 녹아들 수 있을지 고민하는 겁니다.
- 고양이(요고): 로봇이야 로봇대로 있으면 되는 거지. 왜 꼭 사람의 일상에 녹아들어야 해요?
- 나: 고양이답다만, 핵심을 찌르는 질문이네요. 사람에 맞춰 설계된 시스템에 들어가기 편하다는 것이 가장 큰 이유지만, 이제부터 설명할 이유도 있을 거예요.
핸드폰 그 다음? #엣지 기기
이런 가운데 사람의 곁에서 작동하는 장치, 즉, 엣지 기기(Edge Device)는 무엇보다 사람들이 AI 에이전트에게 무언가를 요청하는 첫 번째 접점이 될 가능성이 높습니다.
예를 들어, 가까운 미래에 AI에게 무언가를 부탁할 일이 생겼다고 합시다. 일단은 에이전트를 불러야 할 겁니다. 핸드폰 앱이든, AI 스피커든, 노트북이든, 전등이든 뭐든요. 그럼 가장 처음 호출받은 엣지 기기 속 에이전트가 반응합니다. 이 녀석은 초기 통제 권한을 가집니다. 사람으로부터 권한을 부여 받아 다른 여러 에이전트에 작업을 지시할 수 있는 힘, 즉, ‘상위 권한’을 확보한다는 거죠. 무슨 에이전트와 소통할지, 어떤 MCP 서버와 연결할지 모두 그 에이전트가 관여할 겁니다.
이런 이유로 여러 기업이 그 최초의 접점이 되는 엣지 기기를 선점해 사용자가 자사의 서비스나 시스템에 ‘락인(Lock-in)’ 하려는 전략을 함께 펼치고 있습니다.

스피커와 안경과 브라우저와 알 수 없는 ‘무엇’
아마존은 ‘에코(Echo)’라는 스마트 스피커와 음성 비서 알렉사(Alexa)를 중심으로 시장을 형성하고 있습니다. 올해 2월 ‘알렉사+’란 이름으로 대대적인 업데이트가 있었죠. 이제는 알렉사에 에이전트가 붙어 말만 걸면 물품 배달, 식당 예약 등을 해준다고 합니다. 아마존이 커머스는 또 전문가니까요.
한편 메타는 스마트 안경 중심으로 방향을 잡고 있는 듯합니다. 미디어에 자주 나오던, 그 눈 앞에 스크린이 펼쳐지는 안경을 개발하고 있다는 이야기가 들려요. 그렇게 스마트 안경 역시 생각보다 유망한 후보 중 하나고요.
구글은 자체 스마트폰인 픽셀(Pixel) 시리즈를 보유하고 있습니다. 한국에서야 픽셀 폰을 아무도 안 쓰지만, 그래도 미국에서는 점유율을 약 5% 정도 확보하고 있다네요. 사실 구글은 로봇에 안경에 스피커에 안 건드린 부분이 거의 없는 편입니다. 여기에 안드로이드 생태계와 크롬 같은 브라우저로 시스템 레벨에서 사용자 접근 영역을 확대하는 것도 큰 장점이고요.
애플은 당연히 아이폰 중심으로 강력한 생태계를 구축하고 있습니다. 비전 프로(Vision Pro)로 스마트 안경 분야에서도 성과를 내고 있고요. 다만 최근 발표한 애플 인텔리전스가 워낙 나쁜 평가를 받아 얼마나 회복할 지는 잘 모르겠습니다.
재미있는 점은 오픈AI 역시 이 영역을 적극적으로 건드린다는 겁니다. 아이폰을 개발한 디자이너 ‘조니 아이브’의 회사를 9조 원에 인수하면서요. 심지어 이들이 만드는 AI 전용 하드웨어는 아직 어떤 형태일지 모른다고 합니다. 완전히 새로운 무언가가 나올 수도 있다고도 해요. 마치 스티브 잡스가 갑작스레 들고 나온 스마트폰처럼 말입니다.
해 줄 거면 다 해 줘요: #Service-as-a-Software
좋아요. 기술을 다 구축했다고 칩시다. 그럼 이 에이전트들은 구체적으로 무슨 일을 하게 될까요?
그 힌트가 되는 단어, Service as a Software입니다. SaaS, 한번쯤은 들어본 말인가요? 사실 원래 SaaS는 원래 Software as a Service의 약자입니다. 소프트웨어를 사람들이 쓰기 쉬운 서비스 형태로 제공하는 개념이죠. 뭐, 슬랙, 노션, 피그마, 이런 것들이요.
두 가지 SaaS를 자세히 보세요. 앞 뒤가 바뀌었죠. Service와 Software의 위치가 뒤집어 졌습니다. 단어 위치를 뒤집은 게 무슨 의미냐고요? 이제는 소프트웨어를 아예 ‘하나의 완전한 서비스’로 취급하겠다는 말입니다.
- 고양이(요고): S를 뒤집어서 어쩌구요?
- 나: 복잡한 거 없이요, 소프트웨어가 ‘업무’ 하나를 통으로 처리해주는 것! 에이전트한테 맡긴다는 거죠.

또메인 지식
이런 구조가 돌아가려면 무엇이 필요할까요? 에이전트(와 이 에이전트를 만드는 사람들) 모두가 맡은 일이 돌아가는 방식을 처음부터 끝까지 다 알아야 할 겁니다. 그렇게 또 도메인 지식이 중요해집니다.
이를테면 최근 요즘IT에서 편집 작업을 위한 AI 도구를 테스트했는데요. 문제가 많았습니다. GPT API를 끌어다 썼는데, 작가들의 기존 글을 툭하면 날리고 요약해 버렸습니다. 기존 원고와 편집본, 기존 편집 가이드를 학습시켜 시스템 프롬프트를 구성해도 글마다 적용 방식이 달라야 했고요. 게다가 토큰 한도는 언제나 압박이고, 맥락이 길어지면 정보가 날아가기도 했습니다.
무엇보다 편집 작업은 ‘최상의 글’을 만드는 데 목표가 있지 않습니다. 기존 글의 맥락과 구성, 문체를 모두 살리면서 ‘조금 더 나은 무언가’를 만들어야 하죠. 알아서 하라고 맡겨 버리면 맞춤법이야 틀림없다 해도 개성이라고는 하나 없는 결과물만 나옵니다. 이를 해결하기 위해 맥락을 나누고, 수정 대상을 선정하고, 유사도를 판단하며, 유지와 변화의 선을 잡는 실험이 필요했고요. 더 앞서는 인간 편집자의 업무를 분 단위로 나누는 일도 했습니다. 그렇게 만든 도구는 시간은 줄여줬지만, 아직 보조 도구 이상의 역할을 해내지는 못합니다.
그러니까 에이전트에는 이런 일의 구조를 모두 이해하고 반영해야 합니다. 기존 산업 안에 숨겨진 복잡한 관계나 상황, 또는 해결해야 하는 현실의 업무 흐름을 아주 정확하게 이해해야 합니다. 마치 사람이 그러하듯이요. 무엇을 버리고 무엇을 취할까, 원하는 결과물의 형태는 무엇이며, 완성도는 어떻게 평가할 수 있을까, 그 모두를 이해해야 한다는 것입니다. 기술적 완결성이 전부가 아니라는 말이죠.
#바이브 코딩: 시작은 코딩 에이전트?
이처럼 에이전트를 만드는 일이 복잡하긴 한데요, 그렇다고 멈춰 있지는 않습니다. 이미 여러 기업이 에이전트 상용화를 위한 걸음을 떼고 있으니까요. 그리고 그 첫 시작은 “프로그래밍”, 즉, 코딩하는 에이전트로 보입니다.
이러한 코딩 에이전트의 침공을 대변하는 키워드 중 하나는 “바이브 코딩”입니다. 이미 메가 트렌드에 가까운 키워드로 AI에게 ‘코드 작성’이란 영역을 맡기며 프로그래밍하는 행위를 뜻하죠.
- 고양이(요고): 바이브 코딩, 흠. 많이 들어봤는데, 더 알려 달라.
- 나: AI하고 말하면서 코딩하는 겁니다. 자세한 것은 “바이브 코딩 할 줄 모르는 사람은 다 잘릴까?”에서.

에이전트 기능을 제공하는 AI 코딩 도구는 유명한 것만 찾아도 코덱스(Codex), 클로드 코드(Claude Code), 제미나이CLI(GeminiCLI), 코파일럿(Copoilt), 커서(Cursor), 윈드서프(Windsurf), 레플릿(Replit) 등등 하여간 많습니다.
무엇보다 에이전트 상용화의 시작이 ‘코딩’에 있는 것은 어쩌면 서비스를 만들어낼 사람, 즉, 개발자들이 가장 잘 이해하는 영역이기 때문은 아닐까 생각해 봅니다. 물론 아주 많이 축적된 데이터, LLM이 가장 잘 이해하는 논리적인 언어 구조 역시 중요한 이유겠지만요.
또한, ‘프로그래밍’이란 행위는 그 자체로 새로운 서비스를 낳을 테니, 이러한 에이전트의 발전을 기대해 봐도 좋겠습니다. 무지막지 빠른 제품 개발의 시대가 올 지도 모르겠습니다.
여기까지 요약 with 요고AI
- 현실에 적용하기 위해 에이전트에 필요한 요소들(계층 구조, HITL, 도메인 지식, 경량화 등)을 정리!
- 에이전트의 협력을 위한 구조와 물리적 개입을 다루는 피지컬 AI 개념이 등장
- 기획과 개발 과정에서 도메인 지식의 중요성과 ‘바이브 코딩’ 기반 코딩 에이전트의 역할도 함께 봄
마치며
지금의 인공지능은 끊임없이 ‘합리성’을 추구하며 발전하고 있습니다. 하지만 그 합리성이라는 게 과연 어떤 방향을 향할지, 무엇을 위한 합리성인지는 아직 정해지지 않은 상태입니다.
그렇게 고유한 독점의 영역, ‘지능’이라는 것의 소유권을 잃어버린 인류는 조금 헤맬지도 모릅니다. 이런 불확실성이 AI에 대한 막연한 두려움이나 불안감으로 다가오기도 하고요. 저도 그렇습니다. 지금 당장 내 자리를 빼앗기는 것은 아닐까, 나이 들면 뭐 먹고 살아야 하나, 그런 무서움이 있습니다. 그래서 조금 더 손을 뻗어 얘기하고 싶었고, 긴 시간에 걸쳐 AI에 대한 이야기를 썼습니다.
제가 준비한 이야기는 여기까지입니다. 그 다음의 이야기는 혼자 주저리주저리 말하는 것이 아닌 듣고 얘기하며 채우고자 합니다. 요즘IT에 여러분의 이야기를 들려 주세요.
- 요즘IT에 연락하기 [email protected]
©️요즘IT의 모든 콘텐츠는 저작권법의 보호를 받는 바, 무단 전재와 복사, 배포 등을 금합니다.