왜 내가 만든 LLM 서비스는 멍청할까요?

15분

2025.04.25.

LLM: 인간 두뇌의 일부분에 불과하다

대규모 언어 모델(LLM)은 놀라운 언어 이해력과 생성 능력을 갖추고 있지만, 이는 인간 인지 시스템의 일부분에 불과합니다. 인지과학의 관점에서 보면, LLM은 주로 '언어 처리'와 제한된 형태의 '작업 기억(working memory)'에 해당하는 능력을 가지고 있습니다. 인간의 뇌는 이보다 훨씬 복잡합니다. 우리의 뇌는 어떤 정보에 주의를 기울일지 결정하는 '주의 제어 시스템', 중요한 정보를 장기 기억으로 변환하는 '기억 부호화 시스템', 필요할 때 관련 지식을 꺼내오는 '기억 인출 시스템', 그리고 현재 상황에 맞게 행동을 조절하는 '실행 통제 시스템' 등 다양한 인지 모듈들이 상호작용합니다.

LLM은 텍스트를 이해하고 생성하는 '언어 처리' 부분을 담당하지만, 작업 기억의 용량을 벗어난 정보를 어떻게 관리할지, 어떤 정보에 주의를 기울일지, 어떤 기억을 인출하고 활용할지 등은 모델 자체가 결정하지 못합니다. 이러한 '인지 제어' 기능이 바로 대화형 AI 서비스의 개발자들이 직접 구현해야 하는 부분입니다.

일상으로 들어온 대화형 AI의 중요성

최근 대화형 AI 서비스의 가치는 점점 더 많은 사람들에게 인식되고 있습니다. 단순히 질문에 답변하는 것을 넘어, 이러한 서비스는 마치 실제 사람과 대화하는 것처럼 우리의 말을 경청하고, 정리하고, 요청 사항을 이해합니다. 저 역시 클로드 서비스를 애용하며 오늘의 할 일을 메모하고, 글감을 정리하고, 포스팅의 초안부터 퇴고까지 함께 작업합니다. 이런 대화형 서비스는 인간의 창의성을 증폭시키고, 더 높은 퀄리티의 결과물을 빠른 시간 안에 달성할 수 있게 해주죠.

챗GPT나 클로드 같은 서비스는 이제 IT 종사자를 넘어 일상생활에까지 자연스럽게 녹아들고 있습니다. 뤼튼의 캐릭터챗 같은 서비스는 대화형 AI가 일상 속으로 어떻게 스며드는지를 잘 보여주는 사례입니다. 사람들에게 AI와의 대화는 더 이상 특별한 경험이 아니라 자연스러운 일상의 활동이 되어가고 있습니다.

이 글은 "챗GPT에서는 되는데 왜 우리 건 안 돼요?"라는 질문에 시달리는 개발자들을 위한 안내서입니다. 언어 모델 API의 근본적인 한계와 이를 극복하기 위한 기술적 접근법들을 살펴보면서, AI 서비스를 개발할 때 마주하는 실제 도전 과제와 이를 해결하기 위한 아이디어를 공유하겠습니다. 앞으로 무리한 요구 사항이 들어올 때, 작업이 얼마나 어려운지 설명하기 위해 제 글이 인용될 수 있으면 좋겠습니다.

LLM은 아무것도 몰라요

인간 두뇌 vs LLM: 기억력의 차이

우리 인간은 대화를 나눌 때 자연스럽게 두 가지 기억 시스템을 활용합니다. 하나는 '작업 기억'으로, 지금 이야기하고 있는 내용을 일시적으로 저장합니다. 다른 하나는 '장기 기억'으로, 과거의 경험과 지식을 보관합니다. 친구와 식당에서 대화할 때, 우리가 "지난주에 말했던 그 영화 기억나?"라고 물으면 상대방이 무슨 영화인지 기억해내길 기대합니다.

LLM은 이런 인간의 기억 시스템과 달리, 오직 '작업 기억'에 해당하는 부분만 가지고 있습니다. 마치 매번 기억상실증에 걸린 사람처럼, LLM은 지금 당장 보고 있는 텍스트만 처리할 수 있을 뿐입니다. 여러분이 "아까 말했던 그 아이디어"라고 언급해도, 그 '아까'가 무엇인지 LLM이 스스로 알 방법은 없습니다. 우리가 직접 그 내용을 다시 알려주지 않는 한, LLM은 이전 대화를 기억하지 못합니다.

LLM과의 대화는 기술적으로 볼 때 일련의 독립적인 메시지 교환에 불과합니다. 매번 메시지를 보낼 때마다 AI는 마치 처음 만난 사람처럼 응답합니다. 여러분이 "방금 이야기한 내용에 이어서…"라고 말해도, 그 "방금"이 무엇인지 AI는 알 수 없습니다.

가장 기본적인 해결책은 이전 대화 내용을 모두 함께 보내는 것입니다. 그러나 이 방식에는 두 가지 큰 문제가 있습니다. 첫째, 대화가 길어질수록 처리해야 할 텍스트의 양이 계속 증가하여 응답 속도가 느려집니다. 둘째, LLM이 처리할 수 있는 텍스트의 양에는 명확한 한계가 존재합니다.

또 다른 접근법은 최근 몇 개의 메시지만 보내는 "슬라이딩 윈도우" 방식입니다. 이는 마치 "오늘 아침에 무엇을 먹었는지"는 기억하지만, "일주일 전에 무엇을 먹었는지"는 잊어버리는 것과 같습니다. 이 방식의 문제점은 사용자가 "우리가 맨 처음에 논의했던 아이디어로 돌아가 볼까요?"라고 말했을 때, 그 내용이 이미 윈도우 밖으로 밀려났다면 AI는 그것이 무엇인지 알 수 없다는 것입니다.

지능적 정보 선별

그렇다면 실제로 챗GPT나 클로드 같은 서비스는 이 문제를 어떻게 해결하고 있을까요? 핵심은 "필요한 정보를 모두 포함하면서도 입력 크기는 최대한 작게 유지하는 것"입니다. 하지만 이 결정을 LLM 스스로 할 수는 없습니다. LLM은 텍스트 처리에는 뛰어나지만, "지금 이 질문에 답하기 위해 어떤 이전 정보가 필요한가?"를 결정할 능력은 없습니다. 이것이 바로 개발자와 엔지니어의 역할이 중요한 이유입니다.

최신 AI 서비스들은 대화 내용을 효율적으로 관리하기 위해 다양한 기술을 활용할 것으로 추정됩니다. 예를 들어, 대화의 각 부분을 벡터로 변환하여 현재 질문과 의미적으로 관련된 부분만 선택적으로 포함하는 방식이 있을 수 있습니다. 사용자가 "서론을 수정하고 싶어"라고 말하면, 시스템은 자동으로 '서론'이라는 단어와 의미적으로 가까운 이전 대화 내용을 찾아내는 것이죠.

또한 하나의 사용자 요청에 대해 내부적으로 여러 번의 LLM 호출이 발생할 가능성도 있습니다. 예를 들어, 먼저 필요한 정보를 결정하고, 그 정보를 요약하거나 가공한 후, 최종 응답을 생성하는 방식을 사용할 수도 있습니다. 이러한 기술적 접근법에 대해서는 다음 섹션에서 더 자세히 살펴보겠습니다.

지금도 발전하는 챗GPT와 클로드

챗GPT와 클로드는 단순히 기반 모델만 발전시키는 것이 아닙니다. 지난 1년간 두 서비스를 번갈아 사용해보니, 대화 길이의 지속 시간과 맥락을 이해하는 능력이 크게 향상되었음을 느낄 수 있습니다. 심지어 기반 모델이 동일한 시기에도 이런 발전이 있었습니다.

이는 LLM 응용 서비스에 사용자에게 보이지 않는 수많은 노력과 기술이 적용되고 있음을 시사합니다. OpenAI는 이러한 기술을 'Assistant API'라는 이름으로 별도로 제공하고 있습니다. 이는 GPT-4o 모델 제공을 넘어, 대화 메시지를 기록하는 '스레드(Threads) API'까지 제공하여 개발자가 맥락 관리에 신경 쓰지 않고도 AI 서비스를 구축할 수 있게 합니다. 다만 실제 사용해본 경험으로는 아직 챗GPT 서비스의 성능에는 미치지 못하는 것으로 보입니다.

"챗GPT처럼 만들어 주세요."라는 요청에 개발자들이 진땀을 흘리는 이유가 바로 여기에 있습니다. LLM API 호출 몇 줄만으로는 결코 구현할 수 없는 복잡한 시스템이 그 뒤에 숨어 있기 때문입니다.

대화형 AI 서비스의 구현: 기억의 저장과 인출

작업 기억과 장기 기억은 다르다

인간의 기억 시스템은 놀라운 방식으로 작동합니다. 우리가 친구와의 대화를 기억할 때 모든 말을 그대로 기억하지는 않습니다. 대신 핵심 내용과 맥락을 중심으로 정보를 '부호화(encoding)'합니다. 나중에 그 기억이 필요할 때는 연관된 단서를 통해 정보를 '인출(retrieval)'하죠. "지난주 카페에서 얘기했던 그 영화 제목이 뭐였지?"라는 질문을 받으면, 우리는 '카페', '지난주', '영화'라는 단서를 바탕으로 기억을 더듬어 관련 정보를 찾아냅니다.

LLM은 뛰어난 작업 기억과 처리 능력을 가지고 있지만, 자체적인 장기 기억 저장소는 없습니다. 이는 마치 뛰어난 사고력을 가진 사람이 기억을 저장할 방법이 없는 것과 같습니다. LLM은 당장 눈앞에 있는 텍스트는 정교하게 분석하고 처리할 수 있지만, 이전 대화 내용을 어디에 어떻게 저장해야 할지, 또 필요할 때 어떤 정보를 불러와야 할지 스스로 결정할 능력이 없습니다.

이런 이유로 내부의 대화 메시지를 관리하는 별도의 시스템이 필요합니다. 흥미롭게도 외부 문서 검색에 사용되는 기술(RAG)이 대화 메시지 관리에도 적용될 수 있습니다. 이는 과거 대화 메시지를 마치 외부의 문서처럼 취급하여, 필요할 때 검색하고 활용하는 방식입니다.

기억을 구조화해 저장해보세요

인간의 장기 기억은 단순한 데이터 저장소가 아닙니다. 오히려 복잡한 연결망에 가깝습니다. 우리는 정보를 계층적으로 구조화하고, 서로 다른 기억들을 연결합니다. 예를 들어, "커피"를 떠올리면 자연스럽게 "카페", "아침", "친구"와 같은 연관된 기억들이 함께 활성화됩니다.

대화형 AI 시스템에서도 이러한 구조화된 저장 방식이 필요합니다. 최근 연구에서는 GraphRAG와 같은 기술이 등장하고 있는데, 이는 정보를 그래프(graph) 구조로 저장하고 접근하는 방식입니다. 예를 들어 "프로젝트 계획"에 관한 대화는 "일정", "예산", "팀원"과 같은 하위 주제들과 연결됩니다. 새로운 정보가 추가될 때마다 이 그래프 구조가 업데이트되어 지식의 네트워크가 점점 더 풍부해집니다.

또한 메타데이터(metadata)를 추가하는 작업도 중요합니다. "이 문단은 서론의 두 번째 문단", "이 부분은 마케팅 전략의 핵심 아이디어" 같은 식으로 구조적인 정보를 부여하는 것입니다. 이렇게 하면 사용자가 "서론의 두 번째 문단을 수정해 줘"라고 요청했을 때, 정확히 어떤 부분을 말하는지 빠르게 파악할 수 있습니다.

이게 뭐였더라? 곱씹어 기억하기

인간이 기억을 떠올릴 때는 종종 여러 단계의 연상 과정을 거칩니다. "그 영화 제목이 뭐였지?"라는 질문에 바로 답하지 못하더라도, "언제 봤더라… 아, 지난여름 휴가 때… 해변 근처 영화관에서… 오, 생각났다! '바닷가의 추억'이었어!"처럼 단서를 따라가며 기억을 찾아냅니다.

최신 연구에서는 'CoRAG(Chain-of-Retrieval Augmented Generation)' 같은 고급 기법들이 이런 인간의 다단계 기억 인출 과정을 모방합니다. 단일 검색이 아니라, 여러 단계에 걸친 검색 체인을 통해 정보를 찾아내는 것이죠.

예를 들어 같은 날 대화 중 사용자가 "아까 얘기했던 그 분석 방법에 대해 더 설명해 줘"라고 요청한다면 다음과 같은 과정이 진행됩니다.

[사용자] "아까 얘기했던 그 분석 방법에 대해 더 설명해줘"
     ↓
[시스템] 1단계 검색: '분석 방법' 관련 오늘의 대화 탐색
     ↓
[시스템] 검색 결과: "시계열 데이터 처리에 ARIMA 모델 논의" 발견
     ↓
[시스템] 2단계 검색: "ARIMA 모델은 어떤 상황에 적합한가?" 추가 맥락 탐색
     ↓
[시스템] 검색 결과: 이전 대화에서 "계절성 데이터에 적합" 정보 발견
     ↓
[시스템] 발견한 맥락과 함께 현재 질문을 LLM에 전달
     ↓
[LLM] "ARIMA 모델은 시계열 분석에서 널리 사용되는 방법으로..." 상세 설명 생성

이처럼 CoRAG 접근법은 대화의 맥락을 단계적으로 더 깊이 파고들면서, 마치 퍼즐 조각을 맞추듯 필요한 정보를 모아 최종 응답을 생성합니다.

AGI를 위한 다음 단계는 무엇일까요?

흥미로운 사실은 인간의 기억이 완벽하지 않다는 점입니다. 우리는 종종 기억을 왜곡하거나 재구성합니다. 최신 연구에 따르면, 이런 '불완전함'이 오히려 AI 시스템에도 유익할 수 있다고 합니다. 최신 정보에 맞게 과거 기억이 약간 변형될 경우, 응답의 일관성과 품질이 향상될 수 있다는 것입니다.

이러한 현상은 인간의 기억 왜곡이 단순한 오류가 아닐 수 있음을 시사합니다. 오히려 진화적으로 유리한 메커니즘일 수 있습니다. 모든 정보를 완벽하게 기억하는 것보다, 현재 상황에 맞게 과거 정보를 적절히 재해석하는 능력이 더 중요할 수도 있기 때문입니다.

현재 AI 연구는 주로 LLM의 추론 능력 향상에 초점을 맞추고 있지만, 차세대 AGI(인공 일반 지능, Artificial General Intelligence)의 핵심 요소는 바로 이러한 인간적인 기억 시스템일지도 모릅니다. 단순히 정보를 저장하고 인출하는 것을 넘어, 맥락에 맞게 기억을 재구성하고, 중요한 것은 기억하되 불필요한 것은 잊는 능력이 진정한 인간 수준의 대화 시스템을 구현하는 열쇠가 될 것입니다.

챗봇이 "아까 말했던 게 무엇인지 다시 말해 주세요."라고 답할 때, 그것은 LLM의 한계가 아니라 개발자가 적절한 기억 시스템을 구현하지 않았기 때문입니다. 진정한 대화형 AI 서비스는 사용자가 기억을 요청하지 않아도, 마치 오랜 친구처럼 자연스럽게 과거의 대화를 기억하고 참조합니다.

인간의 두뇌처럼 LLM 활용하기

"왜 클로드에는 긴 문서를 붙여넣기 할 수 있는데, API로는 안 되나요?"

"클로드에 긴 문서를 복사해 붙여넣어도 잘 요약해 주던데, 우리 서비스에서 같은 API를 쓰는데 왜 안 되죠?"
"GPT Pro는 딥 리서치를 하면 엄청나게 긴 글을 작성해 주는데, 같은 o1 API를 쓰는데 우리 서비스는 왜 그렇게 길게 답변하지 못하나요?"
"충분한 정보를 제공했는데도 요약이 제대로 안 되고, 결과물이 일관성이 없어요."

개발자로서 이런 질문들을 들으면 난처합니다. 같은 언어 모델(LLM)을 API로 연결했는데, 왜 상용 AI 서비스만큼 긴 입력을 처리하지 못하는 걸까요? 현재 LLM의 한계라서 더 좋은 모델이 나올 때까지 기다려야 하는 걸까요?

사람도 한계 용량이 있습니다

사실 사람도 A4 용지 10장 분량의 글을 한꺼번에 받으면 이를 한 번에 머릿속에 떠올리지 못합니다. 또한 A4 용지 5장 분량의 글도 머릿속에서 단번에 구성해서 작성하기 어렵습니다. 인간의 작업 기억(working memory)도 LLM의 컨텍스트 윈도우(context window)처럼 매우 제한적입니다.

인지과학에서는 인간의 작업 기억이 평균적으로 5~9개의 항목만 동시에 처리할 수 있다고 설명합니다. 이는 LLM의 컨텍스트 윈도우와 개념적으로 유사합니다. GPT-4o나 클로드 Sonnet 같은 모델은 8K, 32K, 128K 토큰(token) 등의 컨텍스트 크기를 가지고 있지만, 이 역시 제한적입니다.결국 LLM과 인간 모두 '작업 기억의 용량을 벗어나는 정보를 어떻게 관리할지'라는 동일한 과제에 직면합니다. 그렇다면 인간은 이 문제를 어떻게 해결하고 있을까요? 그리고 최신 AI 서비스들은 이를 어떻게 모방하고 있을까요?

인간의 인지 시스템: 작업 기억을 넘어선 정보 처리

그럼에도 불구하고, 인간은 『잃어버린 시간을 찾아서』처럼 방대한 분량의 소설을 쓸 수 있고, 수험 공부처럼 많은 양의 정보를 받아들일 수 있습니다. 인간이 작업 기억의 한계에도 불구하고 복잡한 정보를 처리할 수 있는 비결은 바로 정보를 분할하고 조직화하는 능력에 있습니다. 우리가 책 한 권을 읽을 때, 한 번에 모든 내용을 머릿속에 담지 않습니다. 대신 장(chapter)별로 읽어나가며 중요한 내용은 메모하거나 밑줄을 긋고, 필요할 때 특정 부분을 다시 찾아볼 수 있도록 체계를 만듭니다. 이는 정보를 외부화하여 작업 기억의 부담을 줄이는 전략입니다.

글을 쓸 때도 마찬가지입니다. 작가는 한 번에 전체 소설을 구상하지 않습니다. 먼저 전체 개요를 잡고, 각 장의 주요 사건을 계획한 다음, 한 장씩 차근차근 집중하여 작성합니다. 현재 작성 중인 장에만 집중하면서도, 전체 이야기의 흐름과 일관성을 유지하기 위해 메모와 개요를 참조합니다. 때로는 앞부분을 다시 읽으며 흐름을 확인하고, 필요하다면 내용을 조정합니다.

이처럼 인간은 작업을 관리 가능한 단위로 나누고, 필요에 따라 집중할 부분을 전환하며, 외부 도구를 활용하여 정보를 조직화합니다. 결국 작업 기억의 한계를 극복하는 인간의 전략은 '분할하여 정복하기(divide and conquer)'에 가깝습니다.

챗GPT와 클로드의 비밀: 추측해 보기

챗GPT나 클로드 같은 대화형 AI 서비스는 어떻게 단순한 API 호출 이상의 성능을 발휘할까요? 정확한 내부 구현 방식은 공개되지 않았지만, 인간의 인지 처리 방식을 모방한 몇 가지 접근법을 추측해볼 수 있습니다.

흥미로운 사례로, 윈드서프(Windsurf) 같은 코드 에디터의 동작 방식이 이러한 서비스들의 작동 원리에 대한 힌트를 제공합니다. 윈드서프는 방대한 코드베이스를 다룰 때 그 동작 과정이 비교적 투명하게 드러납니다. 전체 코드베이스를 여러 개의 청크(chunk)로 나누고, 각 청크를 담당하는 LLM들이 서로 대화하며 정보를 교환하고 협업하는 방식으로 작동합니다. 이 접근법을 통해 단일 모델의 컨텍스트 한계를 훨씬 뛰어넘는 양의 코드를 이해하고 처리할 수 있습니다.

챗GPT와 클로드 역시 유사한 방식으로 긴 문서를 의미 있는 청크로 나누어 처리할 가능성이 높습니다. 각 청크는 개별적으로 분석되고, 이에 따라 핵심 내용이 추출된 후, 이 결과물들이 다시 통합되는 과정을 거칠 것입니다.

긴 출력물을 생성할 때에도 비슷한 접근법이 적용될 수 있습니다. 제가 개발한 '라미 리포트'도 GPT-4o의 출력 토큰을 최대한 활용하기 위해 유사한 방식을 사용했습니다. 전체 보고서의 개요를 먼저 생성한 다음, 각 섹션을 개별적으로 작성하고, 마지막에 이들을 통합하여 일관성 있는 최종 결과물을 만드는 방식입니다. 이런 방법을 통해 단일 API 호출의 한계를 훨씬 넘어서는 길이의 문서를 생성할 수 있습니다.

또한 이러한 서비스는 매 요청마다 이 모든 복잡한 과정을 수행하는 것이 아니라, 필요에 따라 선택적으로 적용할 가능성이 높습니다. 간단한 질문은 단일 API 호출로 처리하고, 복잡한 요청이나 긴 입출력이 필요한 경우에만 고급 파이프라인을 가동하는 방식입니다. 이는 자원을 효율적으로 사용하면서도 필요할 때 강력한 성능을 발휘할 수 있게 합니다.

흥미로운 점은 클로드의 아티팩트(artifact) 기능이 단순한 UI 편의성을 넘어, 클로드의 작업 기억을 효율적으로 사용하기 위한 파이프라인의 일부일 수도 있다는 것입니다. 아티팩트를 통해 코드나 문서를 별도로 관리함으로써 주 대화 컨텍스트의 부담을 줄이는 동시에, 필요할 때 참조할 수 있는 구조를 만드는 것이죠.

인간의 두뇌에서 영감을 얻는 LLM 활용법

그렇다면 개발자로서 우리는 이런 인사이트를 어떻게 활용할 수 있을까요? 인간의 인지 과정에서 영감을 얻은 몇 가지 접근법을 고려해볼 수 있습니다.

첫째, 대용량 텍스트를 처리할 때는 의미 있는 단위로 나누어서 처리하는 것이 중요합니다. 문서 전체를 한 번에 LLM에 넣으려고 하지 말고, 섹션별로 나누어 처리한 후 결과를 종합하는 방식을 고려해보세요. 이는 인간이 방대한 책을 장별로 나누어 읽는 방식과 유사합니다.
둘째, 다중 단계 처리 파이프라인을 구축할 수 있습니다. 예를 들어 첫 단계에서는 문서 전체를 요약하고, 다음 단계에서는 사용자 질문과 관련된 부분만 자세히 분석하는 방식입니다. 이는 인간이 도서관에서 책을 찾을 때 목차를 먼저 훑어보고 관심 있는 장만 자세히 읽는 방식과 비슷합니다.
셋째, 멀티 에이전트(multi-agent) 접근법을 시도할 수 있습니다. 여러 LLM 인스턴스(instance)에 각각 서로 다른 역할을 부여하여 협업하도록 하는 것입니다. 예를 들어 '요약 전문가', '비판적 사고가', '창의적 작가' 등의 역할을 구분하여 배정하면 더욱 풍부한 결과물을 얻을 수 있습니다.
넷째, 메타인지적(metacognitive) 접근을 적용해볼 수 있습니다. LLM이 생성한 출력물을 다시 LLM에게 평가하게 하고, 필요하다면 수정하는 과정을 추가하는 것입니다. 이는 인간 작가가 초고를 작성한 후 스스로 검토하고 수정하는 과정과 유사합니다.

LLM 응용의 미래 모습은 어떨까?

지금까지 살펴본 내용을 통 생각해보면, API로 연결했을 때 구현되지 않는 능력들은 단순히 LLM 자체의 성능 문제만은 아닌 것 같습니다. 오히려 LLM을 활용하는 방식의 차이, 즉 '두뇌'를 어떻게 사용하느냐의 문제일 수 있습니다. 상용 대화형 서비스들은 이미 이러한 인사이트를 바탕으로 끊임없이 발전하고 있습니다. 그들은 단순히 더 큰 모델이나 더 넓은 컨텍스트 윈도우를 기다리지 않고, 현재 기술의 한계 내에서 최대한의 성능을 끌어내는 창의적인 방법을 개발하고 있습니다.

우리가 인간의 기억 시스템을 모방하여 LLM에 '기억력'을 부여했다면, 이제는 그 '두뇌'를 가장 효과적으로 사용하는 베스트 프랙티스(best practice)를 발전시키는 단계에 이른 것입니다. 마치 인간이 사고의 기술을 발전시키듯, AI 시스템도 더 효율적인 '사고 방식'을 개발해 나가고 있는 것입니다.

앞으로의 AI 개발은 두 가지 접근법이 병행될 것으로 보입니다. 한편으로는 모델 자체의 성능 향상이 계속될 것이고, 다른 한편으로는 현재 모델의 한계를 창의적으로 극복하는 시스템 아키텍처가 발전할 것입니다. 특히 후자는 더 많은 개발자와 연구자들이 참여할 수 있는 영역이기 때문에 다양한 혁신이 이루어질 가능성이 높습니다.

이런 맥락에서 아이러니하게도, AI가 발전할수록 우리는 인간의 인지 과정에 대해 더 많은 관심을 갖게 됩니다. LLM의 컨텍스트 한계를 극복하기 위해 우리가 시도하는 방법들은, 사실 수천 년 동안 인간이 정보 과부하를 관리해온 방식과 놀랍도록 유사합니다. 책을 장과 절로 나누고, 목차와 색인을 만들고, 메모와 요약을 활용하는 것은 인류가 오랫동안 사용해 온 인지적 도구입니다.

"챗GPT처럼 만들어 주세요."라는 요청은 결국 "인간의 인지 과정을 시뮬레이션(simulation) 해 주세요."라는 요청과 가깝습니다. 이는 단순한 API 호출로는 불가능한, 복잡하고 미묘한 시스템 설계를 요구합니다. LLM 기술은 이제 막 첫 걸음을 뗐습니다. 앞으로의 길은 모델 그 자체보다, 그 모델을 어떻게 설계하느냐에 달려 있다고 생각합니다. 따라서 모델의 한계를 뛰어넘는 창의적인 시스템 설계가 앞으로 AI 발전을 이끌어갈 새로운 원동력이 될 것입니다. 그리고 그 여정에서 우리는 기술을 발전시키는 동시에, 인간의 인지에 대한 더 깊은 통찰을 얻게 될 것입니다.