바이브 코딩으로 ‘AI 에이전트 토론 프로그램’ 만들기

11분

2025.04.29.

8.8K

인간-AI 협업에서 AI-AI 협업으로

최근 AI 간 협업에 관한 흥미로운 연구 사례가 뉴스에 보도됐다. 영국 임페리얼 칼리지 런던(Imperial College London)의 연구진은 약 10년간 연구해 온 문제를 AI에 맡겼다. AI는 단 이틀 만에 연구진이 오랜 기간 연구하여 얻은 결과와 동일한 결론을 도출해 냈다고 한다.

여기서 주목할 점은 결론에 도달하는 과정이 AI 간 협업으로 이루어졌다는 것이다. 관리자 역할을 수행하는 AI 에이전트(agent)는 인간이 입력한 연구 계획을 세부 과제로 나누었다. 그리고 개별 영역에 특화된 AI 에이전트에게 과제를 분배해 연구를 진행했다. 즉, AI 에이전트들이 팀을 구성하고, 가설을 설정한 후 상호 토론을 거쳤다는 것이다. 이들은 검증과 개선을 반복하며 최종 결론에 도달했다.

앞서 거짓말쟁이 AI 잡아낼 4가지 ‘팩트 체크’ 방법 글에서 소개한 ‘AI 집단지성’ 검증 방법 또한 이 사례와 유사한 맥락을 가진다. 이는 AI 모델마다 내놓는 답변이 다르며, 동일한 모델마저도 같은 질문에 매번 다른 답을 제공한다는 것에 착안한 방법이다. 동일한 프롬프트(prompt)를 여러 차례 입력해 답변을 비교하며 공통적으로 반복되는 내용을 추출하고 활용할 수 있었다.

이런 과정은 UX 리서치에서 널리 쓰이는 포커스 그룹 인터뷰(FGI, Focus Group Interview) 또는 포커스 그룹 디스커션(FGD, Focus Group Discussion)을 떠올리게 한다. 이는 6~8명으로 구성된 소규모 그룹이 진행자의 주도 아래 하나의 주제를 놓고 의견을 나누고 이를 기록하는 방법론*이다.

*엄밀하게 포커스 그룹 인터뷰(FGI)는 진행자의 질문에 참여자 그룹이 답변을 하는 인터뷰 방식이며, 포커스 그룹 디스커션(FGD)은 참여자 그룹 내에서 토론하며 의견을 주고받는 방식으로 차이가 있다. 다만 이 글에서는 두 가지 그룹 구성원이 하나의 주제에 대해 번갈아 가며 의견을 이야기한다는 점에 초점을 맞추어 두 가지 방법론을 함께 언급했다.

이 원리를 적용해 새로운 시도를 해보기로 했다. 기존에 인간 참여자 그룹을 대상으로 진행했던 포커스 그룹 인터뷰를 AI 참여자 그룹을 구성해 진행하는 것이다. 그렇게 요즘 유행하는 바이브 코딩으로 AI 토론 프로그램을 만든 과정을 소개하려고 한다.

AI끼리 토론시키기

우선 기존 AI 서비스를 활용해 AI끼리 토론하도록 해보았다. 어떤 결과물을 생성할 수 있을지, 성능은 어느 정도인지 결과물을 확인했다.

노트북LM의 AI 토론 팟캐스트

AI 간 토론을 시킬 수 있는 도구 중에 노트북LM의 ‘스튜디오’ 기능이 있다. 노트북LM은 사용자가 첨부한 문서에 집중해 응답을 생성하는 AI로, 데이터 분석에 특히 유용하다. 이 도구의 ‘스튜디오’ 기능을 활용해 AI 호스트가 토론을 진행하는 과정을 실험해 보았다.

우선, AI와 함께 진행한 가상 퍼소나 인터뷰 파일 5개를 노트북LM 서비스에 첨부했다. 이어 프롬프트(prompt)를 입력하는 대신 ‘스튜디오(Studio)’ 섹션으로 이동하니, AI 음성 개요 및 심층 분석 대화 기능이 나타났다.

여기서 파란색 생성 버튼을 누르면 첨부한 데이터를 바탕으로 두 명의 AI 호스트(host)가 토론하는 음성 파일이 생성된다. 생성된 음성을 실제 들어보니 마치 팟캐스트(podcast)를 듣는 듯한 느낌을 준다. AI 호스트들은 첨부된 문서 내용을 요약할 뿐 아니라, 문서의 주제를 기반으로 새로운 토론 거리를 만들어 꼬리 질문을 이어가는 방식으로 대화를 진행한다.

현재 베타(beta) 버전에서는 영어로만 생성 가능하며, 대화 길이는 약 18~20분 정도다. 이렇게 생성한 음성 파일을 AI 요약 도구인 릴리즈 AI(Lilys AI)에 첨부하고 번역한 결과는 다음과 같다.

노트북LM에 첨부한 가상 인터뷰는 ‘시니어 사용자의 맥도날드 키오스크 사용 경험’을 주제로 한다. AI 호스트들은 우선 시니어 사용자들의 전반적인 경험을 살펴보았으며, 기술에 대한 이해 수준에 따라 키오스크 사용 경험이 달라진다는 점을 논의했다. 또한, 키오스크 사용 시 느껴지는 감정적 압박감이 식사 경험 전체를 저하할 수 있다는 점도 다루었다. 나아가 현대 사회에서 시니어 사용자들이 소외감을 느낄 가능성까지 논의의 주제로 꺼냈다.

특히 흥미로웠던 부분은 대화 후반부에서 AI 호스트들이 기술과 인간의 상호작용 방식을 탐구하면서, 기술 사용 시 ‘주체성(agency)’의 중요성을 다룬 점이다. 이는 원래 AI 가상 퍼소나 인터뷰에서는 다루지 않은 내용으로, AI가 스스로 만들어 논의한 심화 토론 주제였다.

AI 호스트들은 이러한 ‘주체성’을 기술 사용 경험에서 사용자가 스스로 통제권을 갖는 것이라고 정의했다. 게다가 이런 현상이 시니어 사용자의 키오스크 사용 경험에서 동일하게 나타난다고 설명했다. 예를 들어, 인터뷰 안에서 일부 시니어 사용자는 붐비지 않는 시간을 골라 매장을 방문하거나, 미리 맥도날드 메뉴를 학습하는 등 스스로 적응 전략을 세운다. 단순히 기술을 이용하기보다는 자신만의 방식으로 경험을 만들어가고자 노력하는 모습을 보인다는 것이다.

이에 따라 AI 호스트들은 단순히 기능적 해결책을 제안하는 것이 아니라, 시니어 사용자의 내면에 존재하는 다양한 욕구와 선호도까지 반영한 디자인 전략이 필요하다는 결론을 도출했다. 이처럼 AI끼리 토론으로 예상하지 못했던 견해를 발견할 수 있다는 점이 무척 인상적이었다.

다만 현재 베타 버전인 만큼 대화가 매끄럽지 않은 부분이 존재하며, AI 호스트 수가 두 명으로 제한된다는 한계도 있었다.

릴리즈 AI의 대화 노트

릴리즈 AI(Lilys AI)에서도 노트북LM의 ‘스튜디오’와 유사한 기능을 활용해 볼 수 있다. 릴리즈 AI는 텍스트, 음성, 영상, 링크 등을 첨부하면 내용을 한눈에 파악할 수 있도록 요약하고 정리해 주는 AI 도구다. 요약 결과는 여러 형태로 제공되는데, 이 중 ‘대화 노트’ 기능을 이용하면 AI로 설정한 퍼소나들이 첨부 파일에 대해 나누는 대화를 확인할 수 있다.

다음은 노트북LM에 첨부했던 것과 동일한 인터뷰 파일을 입력해 생성한 대화 노트 결과다.

이 대화에는 방송 진행자, 디지털 기기 연구 교수, 시니어 디지털 교육 전문가까지 총 세 명의 퍼소나가 등장한다. 이들은 첨부된 인터뷰 파일의 주제인 ‘시니어 사용자의 맥도날드 키오스크 사용 경험’에 대해 이야기를 나눈다. 대화 내용을 살펴보면, 각 퍼소나가 설정된 본인의 특성에 따라 의견을 주고받고 있다.

우선 방송 진행자는 두 전문가가 의견을 펼쳐나갈 수 있도록 번갈아 질문을 던지며 대화를 진행한다. 시니어 디지털 교육 전문가는 시니어 사용자의 긍정적인 키오스크 사용 경험을 만들려면 칭찬과 격려로 자신감을 키워주는 것이 중요하다고 강조한다. 한편 연구 교수는 시니어 사용자 대상의 교육 프로그램이 필요하다고 언급하며, 매장 직원이 먼저 시니어에게 다가가 도움을 주는 접근법도 중요하다고 말한다.

함께 출처로 제시된 부분을 확인해 보니 AI 퍼소나의 발언은 모두 첨부한 인터뷰 파일에 담긴 실제 사용자 의견에 근거한 것이었다. 그럼에도 불구하고 각 페르소나가 서로 다른 관점으로 대화를 이어가는 모습은 실제 토론 현장을 지켜보는 듯한 몰입감을 주었다. 대화 흐름도 자연스러워 주요 쟁점을 빠르게 파악하는 데 큰 도움이 되었다.

이처럼 노트북LM과 릴리즈 AI는 모두 AI 퍼소나들이 입력된 파일 내용을 기반으로 토론하며 내용을 요약한다는 점에서 흥미로웠다. 하지만 두 도구 모두 사용자가 직접 자료를 제공해야만 활용할 수 있다는 한계가 있다. 여기서 한 걸음 더 나아가, 진정한 ‘AI 협업’에 더 가까운 형태로, AI 에이전트들이 자율적으로 토론하고 결론을 도출하는 간단한 프로그램을 직접 만들어 보기로 했다.

바이브 코딩으로 AI 에이전트 토론 프로그램 만들기

새로 만들 ‘AI 에이전트 토론 프로그램’은 특정 주제를 두고 AI 에이전트들이 각자의 역할과 관점을 가지고 의견을 주고받으며, 토론을 거쳐 하나의 결론이나 합의점을 도출하는 방식으로 구성했다. 노트북 LM이나 릴리즈 AI(Lilys AI) 같은 기존 도구처럼 정해진 자료에 반응하는 것이 아닌, 비교적 열린 주제를 두고 AI가 능동적으로 사고하며 서로 상호작용하는지를 실험하는 데 중점을 두었다.

1. CLI 기반 프로그램 만들기

최근 AI의 코드 생성 실력이 나날이 발전하면서, 느낌대로 코딩한다는 뜻을 가진 ‘바이브 코딩(Vibe Coding)’이 주목받고 있다. 그렇다면 과연 나처럼 개발을 전혀 모르는 사람도 AI를 이용해 프로그램을 만들 수 있을까?

자랑할 이야기는 아니지만, 나는 파이썬(Python) 설치조차 할 줄 몰라 클로드가 코드를 작성해 줘도 어디에 사용하는지 물어봐야 하는 ‘개발알못(개발을 전혀 알지 못하는 사람)’이다. 이런 사람도 과연 AI를 활용해 원하는 프로그램을 만들 수 있을지, 그 가능성을 직접 확인해 보고자 했다.

처음에는 클로드에게 AI끼리 의견을 주고받는 ‘멀티 에이전트 시스템(multi-agent system)’을 구현하는 방법을 물어봤다. 여기서 ‘에이전트(agent)’란 특정 목표를 달성하기 위해 자율적으로 행동하고 의사결정을 수행하는 인공지능 시스템을 의미한다.

클로드는 이 질문에 대한 답으로, 우선 파이썬을 설치하고 AI용 API 키(API key)를 발급받아 코드를 입력하면 프로그램을 구현할 수 있다고 설명했다. 또한, 실제 필요한 코드도 모두 제공해 주기 때문에 그대로 따라 하기만 해도 프로그램을 완성할 수 있다고 안내했다.

하지만 위 이미지에서 볼 수 있듯이, 프로그램을 직접 설치하고 터미널(terminal)에 코드를 입력하는 등 수작업으로 진행해야 하는 번거로움이 있었다. 이보다 훨씬 간편하게 프로그램을 만들기 위해 ‘커서 AI(Cursor AI)’를 활용하기로 했다. 커서 AI는 자연어를 입력하면 코드 생성은 물론, 클로드에서 수동으로 진행한 ‘코드 생성→복사→입력’의 과정을 자동으로 처리해 주므로 훨씬 효율적이었다.

커서 AI 채팅창에 ‘AI끼리 토론 후, 결론 도출하는 프로그램 만들어줘’라는 프롬프트를 입력했다.

잠깐 기다리면 커서 AI가 자동으로 파이썬을 이용해 필요한 파일과 프로젝트 구조를 만들어준다. 이 과정에서 사용자가 수동으로 해야 할 작업은 단 하나, 필요한 API 키를 발급받아 커서 AI가 알려준 위치에 입력하는 것뿐이다.

그 외에는 오류가 발생했을 때 간단히 “고쳐줘”라고 요청하거나 프로그램 실행 버튼을 눌러주는 정도만 했다. 이렇게 몇 번 AI와 대화를 주고받다 보니 어느새 프로그램이 만들어졌다.

다음 이미지를 보면, 완성된 토론 프로그램에는 ‘분석가 앤디’, ‘창의적인 클라라’, ‘실용적인 팻’이라는 세 명의 에이전트가 각자의 고유한 관점을 가지고 의견을 주고받는다.

첫 토론 주제로 ‘인공지능 시대의 인재상’이라는 키워드를 입력해 보았다. 그러자 세 명의 AI 에이전트가 이 주제를 놓고 총 3라운드에 걸쳐 토론을 진행했다. 마지막에는 기술력과 데이터 분석 능력, 창의성과 독창적 사고 등 다양한 역량을 두루 갖춘 인재가 인공지능 시대에 필요하다는 결론을 도출했다.

다만 이 AI 토론 프로그램은 CLI(Command Line Interface, 명령줄 인터페이스) 기반으로 작동하기 때문에, macOS에서는 터미널(Terminal), Windows에서는 CMD(명령 프롬프트) 창을 열어야만 실행할 수 있었다.

2. GUI 기반 프로그램 만들기

그래서 이번에는 좀 더 친숙한 GUI(Graphical User Interface, 그래픽 사용자 인터페이스)를 만들어 달라고 요청했다. GUI는 CLI처럼 텍스트로 명령어를 입력하는 방식이 아닌, 아이콘, 메뉴, 버튼 등 시각적인 요소로 시스템과 상호작용할 수 있는 인터페이스다. 우리가 일반적으로 사용하는 앱이나 웹 화면 대부분이 GUI에 해당한다고 보면 된다.

이 GUI는 다음과 같이 두 단계에 걸쳐 생성해 보았다.

먼저, 간단하게 “GUI를 만들어 줘”라는 프롬프트를 입력했다. 그 결과, 토론 주제를 입력할 수 있는 입력창, ‘토론 시작’ 버튼, 그리고 결과를 확인할 수 있는 출력 창이 들어간 왼쪽 화면의 GUI가 자동으로 생성됐다. 터미널 창보다 훨씬 직관적인 인터페이스였지만, 결과 화면의 가독성과 디자인 디테일은 다소 부족해 보였다.

그래서 이번에는 GUI의 가독성을 높이고, 디자인 완성도를 개선해달라는 요청을 추가로 입력했다. 이때 핀터레스트(Pinterest)에서 찾은 디자인 레퍼런스를 첨부하고, 그 컨셉을 반영해달라고 구체적으로 지시했다. 오른쪽 결과를 살펴보면, 첫 번째 인터페이스에 비해 각 라운드와 퍼소나 구성이 훨씬 명확하게 정리되어 있다. 또한 첨부한 레퍼런스 이미지에 나타난 다크 퍼플 톤앤매너도 효과적으로 들어갔다. 심지어, 서비스명인 ‘에코 마인드(Echo mind)’까지 자연스럽게 삽입되었다.

마지막으로 지금까지 진행된 토론 히스토리를 확인할 수 있는 사이드 창과, 새로운 토론을 시작할 수 있는 버튼을 추가하여 GUI를 완성했다.

여기서 조금 더 발전한다면, 사용자가 직접 토론에 참여할 에이전트의 특성(퍼소나)을 지정하는 기능을 적용해 볼 수 있겠다. 또한 다양한 AI API를 연동하여 더욱 폭넓은 캐릭터 구성을 실험해 볼 가능성도 열려 있다.

마치며

AI 에이전트들이 자율적으로 함께 의견을 나누고 결론을 내릴 수 있는 세상이 도래했다. 이번 실험으로 확인한 것은, AI 에이전트들이 단순히 정보를 요약하고 정리하는 일뿐만 아니라 서로의 입장을 조율하고 논리적으로 토론하며 결론을 도출할 수 있는 방향으로 진화하고 있다는 점이다. 특히 인간이 주도하지 않아도 AI만의 방식으로 사고 흐름을 구성하고 새로운 시각을 제시하는 모습은 매우 인상적이었다. 이처럼 ‘AI와 인간의 협업’을 넘어서 ‘AI와 AI의 협업’이 실현되고 있는 모습은 앞으로 우리가 어떤 방식으로 AI 시스템을 설계하고 조율해야 하는지에 대한 중요한 시사점을 던져준다.

무엇보다 이러한 실험이 가능한 배경에는 ‘바이브 코딩’이라는 새로운 개발 방식이 있었다. 원하는 기능이나 구조를 자연어로 설명하고 피드백을 주고받으며 결과물을 만들어가는 과정은 개발을 전혀 알지 못하는 비전문가에게도 열려 있는 새로운 창작 방식이었다. 특히 CLI에서 GUI로 연결하는 과정에서 확인했듯 기능 구현에서 디자인 커스터마이징까지 이어지는 흐름은 마치 디자이너와 개발자의 협업처럼 유연하고 직관적이었다.

이처럼 지금 시대에 가장 중요한 것은 정교한 코드 작성 능력이 아니라, ‘무엇을 만들고 싶은가’에 대한 명확한 아이디어와 그 아이디어를 AI에 효과적으로 전달하는 능력은 아닐까? 이 능력은 지금 이 시대를 살아가는 우리 모두에게 열려 있는 가능성이기도 하다.