뜨거운 감자, ‘AI 에이전트’의 현재와 미래

빌 게이츠 마이크로소프트(MS) 창업자는 “AI 에이전트로 인해 컴퓨터를 사용하는 방식이 5년 내로 완전히 바뀔 것”이라고 말합니다. 그는 앞으로 사람들이 말만 하면 컴퓨터가 복잡한 작업을 거의 모두 처리할 수 있으며, 이러한 변화가 개인의 생활과 비즈니스, 사회의 형태까지 혁신할 것이라고 강조합니다.

최근 구글의 대항마로 인기를 얻는 생성형 AI 기반 대화형 지식 검색 플랫폼, 퍼플렉시티(Perplexity)의 창업자 아라빈드 스리니바스 역시 “가까운 미래에 개인화된 AI 에이전트가 보편화될 것”이라고 예측했습니다. 지난 8월, 한국을 방문한 그는 “AI 에이전트가 고도로 발전하면서 우리의 업무와 일상을 편리하게 해주는 보조적인 도구를 넘어 스스로 판단하고 행동하는 진정한 '개인비서'로 발전할 것”이라고 말했습니다. 이를테면, AI 에이전트가 나의 개인 캘린더와 계좌 정보를 참고해 알아서 휴가 계획을 짜주는 것은 물론, 최저가 항공권과 숙박 예약까지 해준다는 것입니다.

이처럼 테크 업계 거물들은 하나 같이 AI 에이전트에 주목하며 장밋빛 예측을 내놓고 있습니다. 바로 그 AI 에이전트는 올해를 기점으로, 다가올 2025년 AI 업계의 가장 핫한 트렌드 중 하나로 자리 잡을 듯합니다. 도대체 AI 에이전트가 무엇이길래, 모두가 그토록 주목하고 있는 것일까요?

이번 시간에는 AI 에이전트의 현주소를 짚어보고, 앞으로의 가능성을 둘러싼 주장들의 허와 실을 알아보겠습니다. AI 에이전트라는 기술은 어디까지 와 있고, 어디를 향해 나아가고 있는 것일까요?

AI 에이전트, 정말 미래를 바꿔줄까?

사실 AI 에이전트는 완전히 새로운 무언가가 아닙니다. 2010년대 등장하며, 인공지능 개인 비서를 표방한 애플의 시리(Siri)나 아마존의 알렉사(Alexa) 등 스마트 어시스턴트 역시 AI 에이전트의 일종이라고 할 수 있습니다. 다만 이러한 기존 AI 에이전트들은 기대에 전혀 부응하지 못했습니다. 스마트 어시스턴트라는 이름과 다르게 사람의 말귀를 잘 알아듣지도 못하고, 스스로 척척 업무를 수행하지도 못하며, 우리 일상을 바꿀 혁신과는 매우 거리가 멀었습니다.

그 때문에 사용자 입장에서는 아직 AI 에이전트가 바꿀 미래가 크게 와닿지 않을 것입니다. 단순히 생성형 AI를 보다 잘 활용하게 도와주는 보조 도구라는 인상이 강하기 때문입니다. 자주 하는 질문 추천이나 답변 출처 제공 등 몇몇 편리한 기능들을 제공하기는 하지만, 아직 챗봇 서비스의 연장선에 있다는 느낌이 강합니다. 본질적으로 우리 생활을 바꿀 만한 임팩트는 보여주지 못하고 있죠.

그런데 이번에는 조금 다릅니다. 최근 다시 주목받고 있는 AI 에이전트 기술의 본질은 결국 생성형 AI 기술의 발전과 밀접하게 연관되어 있습니다. AI 에이전트가 사람의 팔다리라고 한다면 AI 모델은 두뇌와 같습니다. 패러다임의 전환이라고 불릴 법한 눈부신 발전과 함께 AI 에이전트의 '두뇌'와도 같은 모델의 성능이 이전과는 비교할 수 없을 정도로 나아졌습니다. 덕분에 이전에는 AI 에이전트로 불가능했던 영역의 태스크들이 가시권에 들어온 것입니다.

AI 에이전트에 날개를 달아준 AI 모델의 진화

여기서 AI 에이전트의 개념을 조금 더 짚어보고자 합니다. AI 에이전트란 간단히 말해, 사용자가 AI 모델과 상호작용하며 원하는 태스크를 수행할 때, 일종의 매개체 역할을 하는 소프트웨어라고 정의할 수 있습니다.

기술적으로도 그다지 새로운 개념은 아닙니다. 네트워크나 운영체제 속에 존재하며 특정한 목적 달성을 위해 사용자를 대신해 작업을 수행하는 자율적 프로세스라는 개념은 컴퓨터 과학 분야에 수십 년 전부터 존재해 왔기 때문입니다.

하지만, 앞서 말했듯 생성형 AI 기술의 눈부신 발전과 함께 모든 게 달라졌습니다. AI 에이전트의 핵심이자 ‘두뇌’에 해당하는 초거대언어모델(LLM)은 이제 '자동화'와 '지능적 의사결정'이 가능한 수준까지 진화했습니다. 천문학적인 양의 매개변수(parameter)를 바탕으로 텍스트와 이미지 등 다양한 데이터를 사전학습(pre-training)하는 과정 덕분입니다.

이제 방대한 양의 데이터 속에서 스스로 최적의 패턴을 추론할 능력을 갖춘 LLM은 AI 에이전트를 제어하기에 걸맞은 지능을 갖추었습니다. 한 발 나아가 사용자 데이터에 기반한 분석으로 사용자가 무엇을 원하는지 정확히 파악하고, 그에 맞는 행동을 선택하는 커스터마이즈 기능까지 제공합니다.

멀티모달(Multimodal) AI 기술은 이러한 가능성을 더욱 확장시키는 중요한 요소입니다. 멀티모달 AI는 LLM이나 이미지 생성 AI에서 한 단계 더 진화한 기술입니다. 텍스트, 이미지, 음성 등 다양한 형식의 데이터를 동시에 처리하고 이해할 수 있는 능력을 가진 AI 모델을 뜻합니다.

예를 들어, 멀티모달 AI 모델에 기반한 AI 에이전트는 사용자가 텍스트로 명령을 내리면 그에 맞는 이미지를 생성하거나, 음성으로 받은 정보를 텍스트로 변환해 이해하고 적절한 답변을 제공하는 등 다양한 방식으로 상호작용할 수 있습니다. 이러한 특성은 AI 에이전트가 더 직관적이고, 풍부한 상호작용을 하도록 해줍니다.

이처럼 생성형 AI에 기반한 AI 에이전트는 반복적이고 시간이 많이 소요되는 업무를 자동으로 처리함으로써, 인간이 보다 창의적이고 전략적인 작업에 집중할 수 있도록 도와주는 것은 물론이고 업무 스케줄을 관리하면서 사용자가 미처 생각하지 못한 최적의 일정이나 작업 순서를 제시할 수도 있습니다.

AI 에이전트, 어디까지 왔나?

앤트로픽의 컴퓨터 유즈

얼마 전, 앤트로픽(Anthropic)에서 AI 에이전트 '컴퓨터 유즈'를 공개했습니다. AI 사용자 커뮤니티를 또 한 번 놀라게 한 발표였습니다. 컴퓨터 유즈는 키보드 입력, 버튼 클릭, 마우스 커서 이동 등 컴퓨터 조작에 필요한 모든 작업을 마치 사람처럼 수행할 수 있습니다. 어떻게 가능한 것일까요?

우선 컴퓨터 유즈과 기존 AI 어시스턴트와 다른 점은 ‘모델’입니다. 이 에이전트는 현존하는 AI 모델 중 최고의 성능을 자랑하는 모델, 즉, SoTA(State-of-The-Art) 모델인 Claude-3.5-Sonnet을 기반으로 작동합니다.

기존의 규칙 기반(rule-based) 환경에서 작동하던 AI 에이전트는 주로 제한된 범위 내에서만 명령을 수행할 수 있었습니다. 하지만 최신 AI 모델에 기반한 컴퓨터 유즈는 실제 사용자 컴퓨터의 다양한 소프트웨어와 시스템에 접근하고, 사용자 명령을 이해하며 복잡한 작업을 실행할 능력을 갖추고 있습니다. 문서 작성, 인터넷 검색, 스프레드시트 작업뿐만 아니라 프로그램 설치와 같은 작업까지도 스스로 할 수 있다는 말입니다.

컴퓨터 유즈는 AI가 처리할 명령을 텍스트 형태로 변환하여 실행하는 방식으로 작동합니다. 사용자가 "이메일을 보내줘"라고 명령하면 필요한 이메일 주소와 내용, 그리고 제목을 자동으로 추출하고, 이메일을 작성한 다음, 전송하는 일련의 과정을 스스로 처리합니다. 이 모든 작업을 위해 사용자는 단지 텍스트 혹은 음성으로 명령어만 입력하면 그만입니다. AI 에이전트가 사용자의 요구에 맞는 적절한 작업을 탐색하고 수행합니다.

MS의 에이전트들

MS는 지난 11월, 미국 시카고에서 열린 '이그나이트 2024'에서 AI 기반 작업 도우미 MS365 코파일럿의 신규 AI 에이전트를 대거 선보였습니다. 특정 사이트나 파일, 폴더가 있는 곳을 마치 사람처럼 쉽게 찾아주는 ‘셰어포인트 에이전트’, 직원의 휴가 신청 관리와 급여 및 복지 정보 확인을 대신해 주는 ‘직원 셀프서비스 에이전트’ 등이 소개됐습니다.

이러한 작업이 가능한 이유도 마찬가지입니다. MS 코파일럿의 AI 에이전트가 오픈AI의 GPT-4o와 같은 최첨단 모델에 기반하여 작동하기 때문입니다. MS의 ‘셰어포인트 에이전트’는 사용자가 원하는 정보나 파일을 찾을 때, 해당 정보가 있는 위치 또는 데이터베이스를 자동으로 파악하고, 이를 효율적으로 찾아줍니다. 동일한 원리로 '직원 셀프서비스 에이전트'는 직원들이 휴가를 신청하거나 급여, 복지 정보를 조회할 때 필요한 절차를 자동화합니다. 이 에이전트는 사용자의 요청을 이해하고, 관련 시스템에 접근하여 정확한 데이터를 실시간으로 제공하는 역할을 합니다.

이처럼 AI 에이전트는 대량의 데이터에서 빠르게 필요한 정보를 추출하고 이를 최적화된 형태로 사용자에게 제공합니다. 단순히 작업을 돕는 보조 도구에서 벗어난 것입니다.

무엇보다 이런 진화는 AI가 실제로 사람처럼 ‘생각’하고 ‘행동’할 수 있는 수준에 다가가고 있음을 시사합니다. 사용자가 AI에 의뢰하는 작업의 범위가 점차 확대되며, AI 활용에 대한 새로운 패러다임이 나타나고 있습니다.

가까운 미래: 구글의 자비스(Jarvis)와 오픈AI의 오퍼레이터

AI 시장을 선도하는 빅테크 기업들 역시 자사의 AI 에이전트 서비스를 출시할 야심 찬 계획들을 밝히고 있습니다.

구글에서 연내 공개할 예정인 AI 에이전트 자비스(Jarvis)는 영화 '아이언맨'에 등장하는 AI 비서와 이름이 같습니다. 또, 그 이름처럼 실제 인간을 대신해 각종 작업을 수행할 수 있습니다. 자비스에는 구글의 웹 브라우저와 연동한 검색은 물론, 쇼핑, 호텔, 항공편 예약 등을 처리할 기능까지 탑재될 예정이라고 합니다.

오픈 AI는 내년 초, ‘오퍼레이터(Operator)’란 이름의 AI 에이전트 공개를 앞두고 있습니다. 오퍼레이터는 개발자용 API로 제공될 예정이며, 구글의 자비스와 마찬가지로 인터넷에서 사용자의 작업을 대신하거나 코딩하는 능력을 갖출 것으로 보입니다. 인간 개발자들을 복잡한 코딩 업무에서 해방하고 보다 본질적이고 창의력을 요하는 업무에 집중하도록 만들 것입니다.

이렇게 영화 속에서만 존재할 것 같았던 AI 에이전트가 코 앞의 현실로 다가왔습니다. 단순한 작업 보조 도구를 넘어, 점차 개인의 디지털 생활을 총괄하는 '인공지능 비서'로서 그 역할을 확장해 나가고 있습니다.

먼 미래: 상호작용으로 더욱 똑똑해지는 AI 에이전트

유발 하라리는 그의 저서 ‘넥서스(nexus)’에서 미래에는 정보 네트워크 참여자로서 AI를 어떻게 정의할 것인가에 대한 논의가 필요할 것이라고 주장합니다. 기업에 법인이라는 지위를 부여했던 것처럼, AI에도 일종의 지위를 부여하고 권한과 책임을 지워야 한다는 그의 주장은 충분히 설득력 있어 보입니다.

자비스와 오퍼레이터로 살펴보았듯이 미래의 AI 에이전트는 우리가 속한 사회와 네트워크 속에서 마치 사람처럼 의견을 제시하고 행동할 능력을 갖추어 나가고 있습니다. 곧 AI 에이전트는 인간의 질문에 답하는 것을 넘어 데이터에 기반해 스스로 판단하고 행동하는 능력까지 갖출 것입니다.

미래의 에이전트가 지금의 AI 에이전트와 가장 다른 점은 무엇일까요? 하나만 꼽자면, 인간뿐 아니라 AI 에이전트끼리도 상호작용이 가능하다는 점일 것입니다.

기술적인 관점에서 해석하자면, 현재의 AI 에이전트는 단일 생성형 AI 모델이 여러 데이터 소스에 접근하여 아웃풋을 얻어내는 방식입니다. 그러나 앞으로는 여러 개의 AI 에이전트를 결합하여 최적의 성능을 얻어내는 방향으로 발전할 가능성이 큽니다.

예를 들어 사용자에게 최적의 여행 플랜을 짜주는 AI 에이전트가 있다고 가정해 봅시다. 우선 탐색에 특화된 AI 에이전트는 특정 지역에 대한 정보를 찾아 인기 관광지, 날씨, 현지 교통 상황 등을 실시간으로 분석해 만든 최적의 여행 일정을 제안할 수 있습니다. 곧이어 여행지 추천, 항공권 예약, 숙박 정보 등을 담당하는 AI 에이전트가 필요한 예약을 담당할 것입니다. 이 두 개의 AI 에이전트가 서로 소통하며, 하나의 완벽한 여행 계획을 만들어 내는 것입니다.

AI 에이전트 간의 상호작용 예시 <출처: Haiping Chen 미디엄>

협력이 아닌 토론으로 더 나은 결론을 도출하는 AI 에이전트 시스템 역시 등장할 수 있습니다. 두 개 이상의 AI 에이전트가 서로 다른 시각에서 문제를 바라보고 의견을 교환하며 결정을 내리는 방식입니다.

다시 여행 플랜을 짜는 AI 에이전트의 예로 돌아가 보겠습니다. 에이전트 하나는 여행 경비 절감을 최우선 목표로 두고, 다른 하나는 여행의 질을 높이는 것을 중요시하는 것입니다. 이러한 두 에이전트가 각자의 우선순위에 따라 계획을 제시한 다음, 이를 바탕으로 논의하고, 서로 타협하며 공동의 결론에 도달하는 방식입니다. 이 과정에서 AI들이 다른 AI의 의견을 고려하기에 더 균형 잡힌 결론을 도출할 수 있을 것입니다.

이처럼 AI 에이전트 간의 상호작용은 각기 다른 기능을 가진 AI들이 협력해 더 높은 수준의 효율성과 정확성을 달성하게 만듭니다. 그만큼 우리가 경험할 미래의 AI 환경은 지금보다 훨씬 더 유기적이고 복잡하며 지능적인 형태로 발전할 것입니다.

마치며: AI 에이전트의 기술적 한계

AI 에이전트가 만능 요술지팡이는 아닙니다. 여전히 잘못된 판단을 내리거나, 예기치 못한 상황에서 오류를 일으킬 가능성도 적지 않습니다. 한편 AI 에이전트의 맥락 이해와 추론 능력이 아무리 발전해도 여전히 특정 업무를 수행하기 위해 필요한 맥락이나 인간의 감정을 이해하는 데에 어려움을 겪을 가능성이 높습니다. 아무리 상호작용하는 AI 에이전트라 해도 결국 인간이 원하는 태스크를 제대로 수행하려면 많은 시행착오를 거쳐야 할 것입니다.

기술적으로 살펴보면, 현존하는 거의 모든 최첨단 생성형 AI 모델은 트랜스포머 아키텍처에 기반하여 작동합니다. 트랜스포머 구조는 인간의 뇌 구조에 착안해 만들어진 심층신경망(DNN, Deep Neural Network)을 채택합니다. 자기-어텐션(self-attention) 메커니즘으로 입력 데이터 내의 중요한 관계를 파악하고, 각 요소 간의 의존성을 잘 반영하여 효율적인 학습을 이뤄내는 것이 핵심입니다. 인간 뇌의 시냅스와 비슷하게, 중요한 정보를 강화하고 덜 중요한 정보를 약화시키는 과정에서 영감을 얻은 방식입니다.

다만 이러한 딥러닝 기반 모델이 어떤 정보를 강화했는지 확신하기 어렵습니다. 모두 도출한 로직을 인간이 이해할 수 없는 블랙박스 모델이라는 점을 명심해야 합니다. 즉, AI 에이전트가 스스로 판단하고 실행한 결과가 심각한 문제를 초래했을 때, 법적 책임을 묻는 것이 아주 어렵다는 뜻입니다.

또한 사용자 데이터와 관련된 보안 문제 역시 여전히 중요한 과제입니다. AI 에이전트가 개인 정보를 다루는 과정에서 개인정보 보호와 관련된 법적, 윤리적 문제가 발생할 수 있습니다. 결국 인간이 AI 에이전트에 대한 통제력을 잃게 될 경우, 사회적으로 심각한 문제를 초래할 수 있습니다. 강력한 무기인 만큼 모두의 협의 아래 조심해서 기술을 다뤄야 하는 이유입니다.