요즘 IT 시장을 보면 온통 AI 이야기로 가득 차 있습니다. 특히 ‘챗GPT’가 등장한 이후로 정말 많은 것이 바뀌었죠. 이런 흐름에 ‘AI가 내 일을 대체할 거라는데, 정작 나는 아무것도 모르겠어.’라는 두려움이 퍼지고 있습니다. ‘AI 포모(AI FOMO)’라는 이름으로요.

두려움에 빠진 분들을 위해 AI를 이해할 때 필요한 최소한의 이야기를 준비했습니다. 어려운 이론은 뛰어넘고 실제 산업을 이해할 때 도움을 줄 것들만 다루겠습니다. 목표로 하는 것은 새로운 뉴스가 나왔을 때 적어도 “그 소식이 왜 중요한지” 정도는 이해할 수 있는 겁니다. 모두가 ‘이건 정말 중요하다!’라고 말할 때, 최소한 그 이유 정도는 알 수 있도록 말이죠. 집사 옆에 식빵 굽던 고양이도 알아들을 수 있는, 생존을 위한 AI입니다.

전 선택을 잘 못합니다. 늘 잘못된 선택을 한다기 보다는 ‘선택 자체’가 어렵다는 뜻입니다. 욕심이 적은 편이기도 하고, 이래도 저래도 크게 상관없다는 성격 탓이기도 합니다. 그래서 선택이 필요할 때면 주변 사람이나 시스템에 의지하고는 합니다.

사실 그 이면에는 선택에 따라올 책임이 두려운 마음이 있습니다. 모든 선택은 변화를 가져오고 그에 따라오는 책임이 생기니까요.

지금의 시장도 그 선택이란 기로에 놓여 있습니다. 새로운 선택의 주체로 AI가 자라났거든요. 이 중심에는 또 다른 트렌드 키워드, ‘에이전트’가 있습니다. 그렇게 에이전트의 등장과 배경, 진화와 함께 또 다른 책임의 이야기를 살펴보겠습니다.

고양이(요고): 마지막이라도 얄짤 없수다. 키워드 뱉으라냥
나: 역시 T냥이. 오늘의 키워드: 에이전트, 추론(reasoning), MCP, 기타 등등!

두둥, 에이전트의 (재)등장

LLM의 파급력을 파악한 사람들은 곧바로 그 능력을 최대 한도까지 써보기로 합니다. 이렇게도 시켜보고 저렇게도 시켜본 거죠.

그런데요, 또 하다 보니 그 ‘채팅’이란 곳에 갇히는 게 슬슬 답답한 느낌이 듭니다. 아무리 챗GPT가 혁신이라고 해도 결국 의견을 주는 정도니까요. 지식을 제공하는 게 전부인 것도 답답한 데 그 모든 건 단지 채팅으로 이뤄질 뿐입니다. 그래서 마치 사람처럼, 조금 더 나를 도와줄 AI에 대한 욕구가 생겨납니다.

그 욕구에 응답해 무대 한가운데로 등장한 것. 바로 ‘에이전트(Agent)’입니다.

뉴트로 에이전트

사실 ‘등장’이라고 말하기가 뭐합니다. 에이전트는 AI라는 분야에서 처음부터 중요했던 개념이거든요. 시리즈를 시작하는 글에서 우리는 인공지능을 “(넓은 범위로는) 불확실한 상황에서도 기대할 수 있는 가장 좋은 결과를 내도록 행동하는 에이전트(Agent)를 만드는 것”이라고 정의했습니다. 에이전트 자체가 AI 개발의 목표일 만큼 핵심 요소란 거죠.

AI에서 말하는 에이전트는 다양한 정의가 있겠지만, 보통 “목표”, “수행”, “시스템”이라는 3가지 요소를 포함합니다. “사람을 대신해 목표를 가장 잘 수행할 소프트웨어 시스템”이라는 거죠. 지금의 AI 에이전트는 나아가 사람의 목적을 달성하기 위한 대리자로서 목표를 세우고, 필요한 자원을 모으며, 할 일을 잘게 쪼개 계획하고, 다시 평가하고, 일정 범위 안에서는 수행까지 해줍니다. 100% 사람의 몫이던 일들까지 넘어온 겁니다.

*최근 등장한 에이전트 시스템을 ‘에이전틱 AI(Agentic AI)’로 구분해 부르기도 합니다. 넓은 범위에서 목표 수행을 돕는 시스템은 워낙 많으니, 스스로 목표를 세우고 태스크를 구분해 수행하는 지금의 LLM 기반 에이전트를 따로 부르자는 거죠. 다만 아직은 두 가지를 섞어 말하고는 하고요. 구분에 대한 필요성이 더 확실해지면 이를 분명히 나누어 사고하는 것도 좋겠습니다.

에이전트 하면 뭐가 좋은데요?

조금은 진부하지만, 적당한 예시로 또 아이언맨을 돕는 자비스만한 게 없습니다.

늘 바쁜 아이언맨이 말합니다. “헤이, 자비스. 오늘 무슨 미팅이 잡혀있지?”
자비스의 브리핑이 끝나기도 전에 늘 그렇듯 지구가 위기에 빠지고, 아이언맨이 외칩니다. “다 취소시켜!”

아이언맨이야 “취소시켜!”라고 하면 그만이지만, 이 선택은 꽤 많은 변화를 불러옵니다. 우선, 약속 당사자들에 연락을 취해야 합니다. 적당한 이유를 만들고 일정을 조정해야 하죠. 아예 취소되면 좋겠지만, 중요한 약속은 뒤로 미뤄야 할 수도 있습니다. 그럴 때는 다음 스케줄을 참고해 대화를 주고 받아 빈 시간대로 옮겨야 합니다. 게다가 미팅 장소는 또 어떻고요. 고급 식당이라면 위약금도 내야 합니다. 아이언맨 씨의 온라인 뱅킹에 들어가 적절한 인증을 마치고 돈을 송금해야 한다는 뜻입니다.

그래도 자비스는 다 해줍니다. “취소시켜!”라는 말에 담긴 목표(=중요도를 파악하고 일정을 조정해)를 이해하고, 그에 따른 할 일(=약속 당사자-식당 연락, 위약금의 파악과 집행)을 계획한 다음, 수행(=전화와 송금)해낼 겁니다. 상대에 반응에 따라 돌발 상황이 생겨도 유연하게 대처합니다. AI 에이전트의 정석이죠.

아, (내가) 하기 싫다

이처럼 “취소시켜!”란 선택은 빠르지만, 그에 따른 대응은 오래 걸립니다. 느리기도 느린데 또 하기도 싫습니다. 진부하고 귀찮으니까요. 딱히 생산적이지도 않습니다.

그런데 이런 일이 비즈니스에는 쎄고 쎘습니다. 문제는, 누구나 자비스가 아닌 아이언맨이 되고 싶어한다는 거죠.

의문이 생깁니다. 진즉에 하면 될 것을 왜 안 했냐고요? 딱히 쉰 적은 없습니다. 다만 아직 기술이 모자랐죠. 특히 조금 더 ‘사고’에 가까운 무언가를 할 수 있는 시스템이 필요했습니다. 그리고 마침 나타난 LLM이 상황을 바꿔버립니다.

뇌 장착: #추론(Reasoning)

LLM이 대세로 떠오르며 다들 이리저리 쓰다 보니, 자연스럽게 프롬프트(prompt)를 잘 구성하는 기술이 아주 중요해졌습니다. 그렇게 생겨난 프롬프팅 기법 중 의도적으로 사람처럼 ‘사고’하도록 구성하는 방식(Chain of Thought)이 히트를 칩니다. 문제에 대해 ‘어떻게 접근하고, 무슨 방법을 고려해서, 이렇게 진행하라’는 식으로 명확히 알려주는 겁니다.

고양이(요고): CoT? 무슨 방식이지?
나: 프롬프트를 이런 식으로 쓰는 거죠.

“당신은 전문가 프롬프트 엔지니어입니다. 다음 지침을 따르세요.
1. Chain of Thought 방식을 스스로 적용하여, 논리적 추론 과정을 단계별로 자세히 보여주세요.
2. 목적은 “Chain of Thought 방식을 설명할 수 있는 예시 프롬프트” 5개를 만드는 것입니다.
3. 각 예시 프롬프트는 초보자가 CoT를 이해하고 직접 활용해 볼 수 있도록 구체적 상황, 입력 형식, 기대 출력 등을 포함해야 합니다.
4. 마지막에 각 예시가 어떠한 학습 목표나 활용 사례에 적합한지 한 문장으로 부연 설명을 덧붙이세요.
이제 위 지침에 따라 예시 프롬프트 5개를 생성해 주세요.”

생각 좀 하고 말해주세요

혹시 챗GPT에서 모델을 바꿔 사용해 본 적 있나요? 특히 o 시리즈, 그러니까 o3, o4-mini, o4-mini-high 이런 것들로요. 모델을 바꾸면 답변도 바뀝니다. 시간이 오래 걸리지만, 답을 준비하는 내내 회색 텍스트가 나타났다 사라졌다 하는 걸 볼 수 있죠. 기계가 사고하는(사실은 생성된 토큰을 순차적으로 보여주는 것이지만, 사고하는 것처럼 보이는) 과정을 사용자에게 드러내는 겁니다. 그렇게 나온 결과는 성능이 또 좋은 편이고요.

그 전까지 AI 모델은 대부분 정해진 연산 규칙에 따라 거의 즉각적으로 결론을 도출했습니다. 머뭇거리지 않죠. 빨라서 좋기는 한데, 또 빠르기에 실수도 합니다. 특히 복잡한 단계별 연산이 필요한 수학 문제는 젬병입니다. 더 복잡한 개별의 ‘일’에 대해서는 말도 못하고요. 머리는 좋은데, 도무지 ‘사고’란 게 없는 녀석입니다.

반면 이 추론은 좀 더 신중한 사람의 사고 방식과 비슷합니다. 문제를 정확히 이해하려 노력하고, 그 문제를 해결할 가장 좋은 방법을 찾은 다음, 어떻게 행동할지 미리 계획을 세우는 과정을 거치거든요.

좀 해보니까요, 와, 이게 굉장히 괜찮습니다. 특히 단계별 사고가 필요한 복잡한 문제를 푸는 데 유용했고요. 그래서 프롬프트를 넘어 아예 모델의 기초 사고 방식으로 이를 써보기 시작합니다. 마찬가지로 괜찮은 성과를 보였고요.

*다만 추론을 만능 도구로 보는 것은 위험합니다. 특히 지난 6월에 나온 “사고의 한계”라는 논문은 추론(reasoning) 방식의 한계를 지적합니다. 특정 복잡도를 넘어가면 새로운 추론 방식 역시 문제를 해결하지 못한다는 거죠. 물론 이 지적에 대한 지적도 곧바로 쏟아지고 있으니 당장은 추이를 지켜봐도 좋겠습니다.

추론(Re) + 행동(Act) + etc

이제 시선은 “그럼 우리 사고하는 LLM을 에이전트의 ‘뇌’로 써볼까?”에 도달합니다.

그렇게 추론(Reasoning)과 행동(Acting)을 연결하는 ReAct 프레임워크가 등장합니다. 지금은 ReAct 프레임워크가 가진 문제들을 격파하며, 멀티모달 인식, 메모리 관리, 상태 추적 등을 붙이며 더 높은 수준으로 발전하는 중이고요.

어찌 되었든 목표에 도달하는 행동을 하기 위해 필요한 것, 문제를 추론해 목표를 정하고 풀어나갈 계획을 세우며 스스로를 평가하는 ‘뇌’를 달아줄 실마리가 잡힌 셈입니다.

고양이(요고): 오호, 그러니까 추론(reasoning)을 장착한 LLM이 에이전트의 뇌가 되었다는 것인가?
나: 맞습니다. 에이전트가 활동할 토대가 제대로 만들어 지며 트렌드 중심으로 오게 된 것!

(잠깐) 헷갈리니까 ‘추론’ 이름 좀 바꿔 주세요

그런데 잠깐, 혹시 기시감이 느껴지지는 않았나요? 추론은 모델이 결과를 내는 과정 그 자체를 말하는 건데, 왜 추론을 다시 설명하고 있나 싶잖아요. 사실 영어로는 이름이 다릅니다. 앞서 말한 추론, 모델이 결과를 내는 과정은 Inference, 사고 과정에 대응하는 추론은 Reasoning을 더 많이 쓰거든요. 그런데 한국어로는 둘 다 ‘추론’이라고 부르고요.

최근에는 일반적인 범용 모델과 문제 해결에 특화된 추론 모델을 명확히 구분하는 것이 학습이나 활용 측면에서 굉장히 큰 차이를 만들어냅니다. 실제 서비스나 활용도를 생각하면 이 구분은 정말 중요한 변화고요. 그러니 한글 단어도 좀 구분하면 좋을 것 같은데 말이죠. 어떤 단어가 좋을까요? 사고? 리즈닝?

연결 장착: #MCP

여기까지 왔지만요, 사실 뇌 만으로 굴러가는 것은 하나도 없습니다. 멋진 계획을 세워봤자 움직일 수 없으면 땡이니까요. 자비스가 계획을 세워도 전화를 걸어 말할 수 있어야 하잖아요. 게다가 혼자서는 할 수 있는 것도 없습니다. 상황에 유연하게 대응하려면 여러 도움이 필요하죠. 그렇게 에이전트에게 이런저런 것들을 달아주는 것이 다음 과제로 떠오릅니다.

사람들은 가장 먼저 에이전트를 외부와 연결하며 도구를 쥐어주기로 합니다. 그렇게 나온 다음 트렌드, 바로 MCP입니다.

혼자 해봤자 뭐 얼마나 하겠습니까

사무실에서 일하는 사람의 도구는 뭘까요? 컴퓨터요. 컴퓨터가 전부인가요? 아뇨. 컴퓨터로 서류 뭉치를 눌러 문제를 해결할 거 아니잖아요. 필요한 프로그램들이 있습니다. ‘구글 워크스페이스(Google Workspace)’나 ‘슬랙(Slack)’, ‘노션(Notion)’ 이런 것들이요. 에이전트도 똑같습니다.

물론 이전에도 이런 도구들을 AI 시스템에 연결할 방법은 있었습니다. 랭체인(LangChain) 프레임워크 같은 데서 특히 이런 연결을 지원했죠. 하지만 각각 서비스가 모두 같은 구조를 가진 게 아니니까, 하나씩 개별적으로 연결해야 한다는 한계가 있었습니다. 결국 서비스 하나씩 추가할 때마다 무지 많은 시간이 걸렸죠.

그래서 아이디어가 나옵니다. ‘LLM을 외부와 연결할 때 쓸 공통의 규약을 정하면 훨씬 더 쉽지 않을까?’ 하는 생각이죠. 완전히 새로운 생각은 아닙니다. 흔히 개발에서 쓰는 프로토콜(Protocol)이란 ‘공통의 규약’이 있거든요. 그렇게 AI 에이전트와 도구를 연결하는 데 최적화된 프로토콜에 대한 욕망이 생겨났죠.

우리 약속합시다, 이렇게 소통하기로

그 프로토콜이 바로 ‘MCP’입니다. MCP가 규정한 방식은 이렇습니다.

에이전트(=LLM 애플리케이션, Host)는 사용자로부터 목표를 받습니다. 그렇게 해야 할 일을 계획하고 보니 외부의 도움을 받을 일이 있습니다. 이제 요청 담당자(=Client)를 구성해 함께 찾아가기로 합니다. 규격(=JSON-RPC 2.0)에 맞춰 ‘이 도구를 이렇게 사용하게 해주세요’라고 써 보낸 거죠. 요청을 받는 곳은 MCP 서버(MCP Server)입니다. 서버는 요청이 온 에이전트의 권한을 확인하고, 도구를 요청받은대로 실행하도록 호출한 다음, 그 결과를 받아와 다시 응답합니다. 에이전트이자 호스트는 이를 바탕으로 목표를 달성하고요.

고양이(요고): 음, 잘 이해가 안 가는 걸?
나: 가장 유명한 비유로는 “USB-C 포트와 같다”는 말을 해요. 앤트로픽이 공식 문서에서 그렇게 말했거든요. 그러니까 MCP는 USB-C 규격이고, 그 규격에만 맞추면 외부와 다 연결할 수 있다는 것!

좋은 아이디어네요? 콜!

다만 문제가 있습니다. 프로토콜은 말 그대로 ‘약속’이라는 거죠. 게다가 모두가 모두와 하는 약속이라 별다른 제재가 있는 것도 아닙니다. 더군다나 핵심 요소인 ‘MCP 서버’는 그 도구를 소유한 회사가 만들어 줘야 합니다. 본인들의 서비스에 접근할 권한을 제어하는 것이니까요.

그래서 누군가 “이 약속을 우리 지켜보자~” 하고 열심히 얘기하고, 설득하고, 때로는 혜택도 주는 그런 존재가 필요했습니다. 누가 그런 귀찮은 일을 하냐고요? 모델 공급 3대장 중 하나, 앤트로픽이 했습니다. 애초에 저 프로토콜을 개발한 것도 앤트로픽이거든요.

아무튼 이렇게 힘센 존재의 적극적인 지원 아래, 클로드 모델 기반 생태계를 공유하던 이들부터 조금씩 MCP를 따르기 시작합니다. 한 번 만들어진 흐름은 곧 생태계 모두를 빨아들였고요. 이제는 오픈AI를 비롯해 수많은 도구 제공사들이 MCP를 지원하고 있습니다.

MCP는 에이전트에게 ‘도구’를 더 쉽게 쥐어줬다는 것만으로도 중요하지만, 사실 “AI 에이전트 생태계의 주요한 첫 표준”이라는 점에 더 큰 의의가 있다고 봅니다. 에이전트의 활동 무대가 좁은 시스템 내부가 아닌 “시스템이 접근할 수 있는 모든 곳”이라는 사실을 모두에게 알려준 거니까요. 또, 마음 먹으면 약속도 지킬만 하다는 사실도요.

*더 자세한 작동 방식과 발전 과정은 <요즘 핫한 ‘MCP’, 정체가 뭘까?> 글 참고!

여기까지 요약 with 고양이AI

에이전트는 LLM 이후 가장 중요한 AI 트렌드로, 사람의 목표를 대신 설정·수행하는 주체
추론(reasoning)하는 LLM은 '사고하는 뇌' 역할로 에이전트 성장의 새로운 동력
MCP는 외부 도구/데이터와 에이전트를 이어주며 행동하는 '팔과 다리' 연결의 기반을 제공함

마치며: 큰 힘에는 큰 책임이 뒤따른다

기술 트렌드는 아직 검증과 대안 연구가 이뤄지는 중인 만큼 또 달라질 겁니다. 어떤 기술이 태어나고 사라질지, 어제와 오늘이 다릅니다. 게다가 에이전트 생태계는 이제 시작에 가깝고요. 피지컬 AI, Service-as-a-Software, 경량화 등 이미 달리고 있는 사람들을 만날 분야도 많습니다. (다음 글에서 다룰 예정이에요!) 다만 그 욕망은 크게 달라지지 않을 겁니다. “내 일을 알아서 대신해 주는 존재”에 대한 욕망이요.

마지막으로요. 이러한 흐름을 맥락에 맞게 전달하려고 에이전트를 사람처럼 보며 뇌와 팔다리를 붙여봤습니다만, 다시 한 번, AI는 사람이 아니란 것을 강조하고 싶습니다. 그저 목표 달성을 위해 달리는 기계죠. 그 ‘목표’에 대한 설정이 중요하다는 말입니다. 자비스에게 “취소 시켜!”를 달성할 가장 쉬운 방법은 아이언맨 슈트들을 약속 당사자의 집 앞으로 보내는 일일지도 모르니까요.

그뿐만이 아닙니다. 에이전트가 판단하고 수행하고 남은 자리에는 ‘책임’이 있습니다. 이 책임을 설정하고 구현하는 것은 개개인의 몫이 아닙니다. 사람들의 집합, 즉, 거버넌스가 나서야 할 자리고요. 더 많은 사람이 참여할수록, 더 많은 이들이 관심을 가질수록 다양성이 피어날 겁니다.