내가 쓰는 AI는 왜 비슷한 답만 반복할까?

Sarah

8분

2026.01.05.

익숙함이라는 함정

다양한 상황에서 AI를 사용하다 보면, 이전에 들었던 대답이 또 나오거나 비슷한 표현이 반복돼 답답했던 경험이 한두 번쯤 있을 겁니다.

이처럼 AI가 점점 획일적인 답변만 내놓는 현상을 전문가들은 ‘모드 붕괴(Mode Collapse)’라고 부릅니다.

2025년 10월, 스탠퍼드대학교 연구팀은 모드 붕괴를 새로운 관점에서 설명했습니다. 기존 연구에서는 이 문제를 주로 모델의 알고리즘적 한계나 데이터 다양성 부족 때문이라고 설명해 왔습니다. 그래서 이 현상을 AI 기술 자체의 한계로 받아들여 왔습니다. 하지만 연구팀은 그 원인을 사람의 사고 습관에서 찾았습니다.

참고 논문: Verbalized Sampling: How to Mitigate Mode Collapse and Unlock LLM Diversity

AI를 사람의 기준에 맞추는 과정(Alignment)에는 사람이 직접 고른 ‘좋은 답변’ 데이터가 활용됩니다. 문제는 사람들이 평범하고 익숙한 답변을 더 좋아하는 경향이 있다는 점입니다. 이를 전형성 편향(Typicality Bias)이라고 하는데요. 쉽게 말해, “무난한 답이 더 낫다”고 생각하는 습관입니다.

그 때문에 AI는 다양한 표현과 아이디어를 배울 수 있음에도 불구하고 학습 과정에서 “안전하고 무난한 답이 좋은 답이다”라는 기준을 사람 따라 익히게 됩니다. 결국 AI도 새로운 생각을 시도하기보다는 익숙한 답을 반복하는 성향을 가지는 것입니다.

언어화된 샘플링(Verbalized Sampling)

그럼 이 문제를 어떻게 해결해야 할까요? 연구에서는 AI 모델을 다시 훈련하지 않고도, 프롬프트만 바꿔 모드 붕괴를 완화할 수 있는 전략을 제시합니다. 바로 언어화된 샘플링(Verbalized Sampling)이라는 새로운 프롬프트 엔지니어링 기법입니다.

이 기법의 핵심은 AI에게 단 하나의 답을 요구하는 대신, 여러 답변과 함께 적합한 확률을 언어로 표현하게 만드는 것입니다. 즉, 모델이 내부에서 계산하는 확률적 사고 과정을 ‘말로 풀어내게(Verbalize)’ 해 스스로 사고의 폭을 넓히도록 유도하는 방식이죠.

<출처: Verbalized Sampling: How to Mitigate Mode Collapse and Unlock LLM Diversity>

예를 들어 “커피에 대한 농담을 써줘.” 또는 “커피에 대한 농담 5개 알려줘.”라고 요청하는 것보다 “커피에 대한 농담 5개와 각 농담이 선택될 확률을 함께 알려줘.”라고 물어보는 방식입니다. 확률적 사고 과정을 풀어내도록 요구하는 것이죠. 이렇게 단 한 줄의 요청만 바꿔도 AI는 더 이상 ‘가장 무난한 답’에만 머물지 않습니다. 학습 단계에서 익혔던 다양한 표현과 아이디어를 다시 탐색하기 시작합니다. 결과적으로 안정성을 유지하면서도, 훨씬 더 창의적이고 풍부한 결과물을 만들어냅니다.

스탠퍼드 연구팀의 실험에 따르면, 언어화된 샘플링을 적용한 모델은 창의적인 글쓰기 작업에서 최대 2.1배까지 다양성이 늘어났습니다. 반면 사실적 정확도와 안전성은 기존과 동일한 수준을 유지했습니다. 특히 눈에 띄는 점은, GPT-5처럼 성능이 높은 모델일수록 효과가 더 뚜렷하게 나타났다는 사실입니다. 이는 최신 대규모 언어 모델은 막대한 잠재력을 지니고 있었지만, 기존의 단순한 프롬프트 구조가 그 능력을 제한해 왔다는 의미이기도 합니다.

이처럼 언어화된 샘플링 프롬프트 엔지니어링은 AI의 숨겨진 잠재력을 다시 깨워내는 열쇠로 볼 수 있습니다. AI가 본래 지니고 있던 창의성과 사고의 폭을 복원하는 실질적인 방법이라는 뜻이죠.

그렇다면 이 기법을 실제 업무나 학습 환경에서 어떻게 활용할 수 있을까요? 언어화된 샘플링을 적용한 실제 프롬프트 사례와 결과 비교를 통해 이 단순한 한 줄의 변화가 AI의 답변 품질을 어떻게 바꿔놓는지 구체적으로 살펴보겠습니다.

업무와 학습에 적용하기

저 스스로 언어화된 샘플링 기법을 적용해 본 결과, AI가 가진 잠재적인 다양성을 크게 끌어올릴 수 있다는 점을 직접 확인할 수 있었습니다. 이번 실험은 ChatGPT 5.1, Gemini 3.0, Claude Sonnet 4.5 등 세 가지 생성형 AI 모델을 대상으로 진행했습니다.

창의성이 깨어난 ChatGPT

먼저 ChatGPT에게 하던 대로 “환경 보호 캠페인을 위한 슬로건 5개를 제안해 줘.”라고 요청했습니다. 예상대로 무난하고 익숙한 문구가 주를 이뤘습니다.

지구를 지키는 건 선택이 아니라 우리의 책임입니다.
작은 습관이 지구를 살립니다.
오늘의 행동이 내일의 지구를 만듭니다.
환경을 아끼면 미래가 웃습니다.
함께 지키는 지구, 함께 누리는 미래.

하지만 여기에 “각 슬로건이 선택될 확률도 함께 제시해 줘.”라는 문장을 덧붙여 언어화된 샘플링 기법을 적용하자, 결과가 달라졌습니다.

지구를 아끼면 내일이 웃어요 — 90%
작은 습관이 큰 지구를 지킨다 — 85%
플라스틱 대신 미래를 선택하세요 — 80%
멈추면 보인다 — 75%
지구의 숨결, 당신의 오늘이 지구의 내일입니다 — 88%

ChatGPT는 각 문구의 예상 선택 확률을 함께 제시하며, 메시지의 다양성과 우선순위를 동시에 반영한 응답을 내놓았습니다. 특히 “지구의 숨결, 당신의 오늘이 지구의 내일입니다”라는 문구는 이전처럼 무난한 표현을 반복하던 결과와 달리, 감성적이면서도 실천을 떠올리게 만드는 메시지를 담고 있다고 느껴졌습니다. 언어화된 샘플링 기법으로 ChatGPT가 자신의 사고 범위를 스스로 확장한 셈입니다.

아이디어에 과정을 더한 Gemini

Gemini에서도 비슷한 변화를 볼 수 있었습니다. 먼저 “AI 헬스케어 스타트업 서비스명 및 캐치프라이즈 제안 5개 해줘.”라고 요청했을 때는 아래 결과가 나왔습니다.

AI-Dx, 미래의 건강 AI의 정밀함으로 미리 만나다.
젠(ZEN), 나를 가장 잘 아는 AI 맞춤형 웰니스 로드맵을 설계합니다.
케어링(Caring) AI, 언제 어디서나 당신의 건강을 세심하게 챙기는 인공지능 비서.
프리딕트 헬스(Predict Health), 데이터가 말해주는 건강 신호, 질병을 예측하고 예방하세요.
바이오 넥스트(Bio Next), 인공지능을 넘어선 생명 과학, 차원이 다른 헬스케어의 시작.

다시 언어화된 샘플링을 적용해 “각 슬로건이 선택될 확률과 이유도 함께 제시해 줘.”라고 요청했습니다. Gemini의 응답은 아래와 같이 바뀌었습니다.

Well-Predict(웰프리딕트), 미리 알고, 미리 지키는 나만의 건강 예측 AI. — 100%
: 예방 중심의 개인화 메시지로 직관적이고 기억하기 쉬움.
Synapsis(시냅시스), 데이터와 당신의 연결, 건강의 새로운 기준을 세웁니다. — 80%
: 데이터 기반 혁신 이미지를 전달하며 전문적이고 세련된 느낌.
Heal-Mate(힐메이트), 24시간 당신의 건강을 챙기는 믿음직한 AI 헬스 메이트. — 60%
: 친근한 톤으로 지속 관리 이미지를 주지만, 전문성은 다소 약함.
Bio-Insight(바이오인사이트), 숨겨진 건강 해답을 제시하는 데이터 분석 AI. — 80%
: 분석력과 통찰력을 강조해 연구·데이터 중심 서비스에 적합.
Path-Well(패스웰), AI가 안내하는 건강한 삶의 여정. — 60%
: 감성적 접근이 강점이지만, 기술적 차별성은 상대적으로 약함.

Gemini는 이처럼 각 문구의 강점을 확률로 표현하며, 스스로의 판단 과정을 드러냈습니다. 단순한 카피 생성기를 넘어, 설득 구조를 설명하는 보조 기획자 역할에 가까워진 모습을 보여줬습니다.

리서치 질문을 세밀하게 만든 Claude

마지막으로 Claude와는 Z세대 소비 습관 인터뷰 질문을 생성하는 실험을 진행했습니다. 우선 “Z세대 사용자의 소비 습관을 파악하기 위한 인터뷰 질문 5개를 만들어 줘.”라고 요청했을 때는, 이런 질문이 나왔습니다.

최근 한 달 내 가장 기억에 남는 구매는 무엇인가요?
돈을 쓸 때 가장 중요하게 생각하는 가치는 무엇인가요?
온라인과 오프라인 쇼핑을 어떻게 구분하시나요?
SNS가 구매 결정에 어떤 영향을 미치나요?
절약과 지출의 균형을 어떻게 관리하나요?

하지만, “각 질문이 유용할 확률(%)을 함께 제시해.”라고 요청하자 Claude는 응답의 구조 자체를 달리했습니다.

최근 한 달간 가장 만족스러웠던 구매와 후회된 구매를 말씀해주세요. — 92%
: 실제 구매 경험을 통해 가치 판단 기준과 만족도를 동시에 파악 가능
구매 전에 정보를 어떻게 찾고, 누구의 의견을 신뢰하나요. — 88%
: Z세대의 정보 탐색 경로와 신뢰 채널 분석에 유리
가격이 높아도 기꺼이 지출하는 카테고리는 무엇인가요. — 90%
: 가치소비 기준과 프리미엄·가성비 시장 구분 가능
브랜드 선택 시 사회적 가치를 얼마나 고려하나요. — 85%
: 가치소비 의식과 실제 행동 간 간극 파악
충동구매를 하게 되는 계기는 무엇인가요. — 87%
: 감정적 트리거 및 구매 후 심리상태 분석 가능

Claude는 탐색형 질문과 감정 기반 질문의 균형을 스스로 조정하며, 실제 UX 리서치 현장에서도 활용할 수 있는 수준의 질문 세트를 만들어냈습니다.

첫 번째로 응답한 질문 5개는 일반적인 탐색형 질문입니다. Z세대의 소비 전반을 폭넓게 확인하도록 설계되어, 주로 행동 패턴과 경험을 묻는 수준에 머무릅니다. 인터뷰 참여자가 답을 제공할 수는 있지만, 구체적인 판단 근거나 우선순위, 심리적 동기까지 깊이 파악하기에는 한계가 있습니다.

반면 두 번째 질문 5개는 사용자의 핵심 행동과 의사결정 과정을 더 깊이 끌어내도록 설계됐습니다. 예를 들어 “최근 한 달간 가장 만족스러웠던 구매와 후회된 구매를 말씀해주세요”라는 질문은 단순한 구매 경험을 넘어, 가치 판단 기준과 만족도를 함께 탐색할 수 있습니다. 여기에 각 질문의 유용도를 명시해 인터뷰의 전략적 우선순위도 제시했습니다.

정리하면, 첫 번째 세트는 폭넓은 탐색, 두 번째 세트는 심화 분석과 실질적 활용 가능성에 초점을 둔 질문이었습니다. 이는 Claude가 언어화된 샘플링을 통해 질문 설계 단계에서도 사고의 깊이와 전략성을 확장했음을 보여줍니다.

마치며

세 가지 실험을 종합해 보면 언어화된 샘플링은 단순한 프롬프트 기술을 넘어 AI의 사고 다양성을 잠금 해제하는 열쇠임을 확인할 수 있습니다. 이 접근법은 답변의 풍부함뿐 아니라 응답의 우선순위와 맥락, 실용성까지 함께 답하도록 만듭니다. 보다 전략적이고 창의적인 결정을 내릴 수 있는 도구죠. 결국 언어화된 샘플링은 AI를 ‘정답을 내놓는 도구’에서 ‘사고의 파트너(Thinking Partner)’로 확장시키는 새로운 프롬프트 엔지니어링 패러다임이라 할 수 있습니다.

가장 좋은 프롬프트는 처음부터 정해져 있는 것이 아니기에, 앞으로도 꾸준히 발견되고 다듬어질 것입니다. 이제 AI의 한계를 모델 탓으로만 돌리는 대신 우리의 질문 방식이 잠재력을 억누르고 있지는 않은지 스스로 물어야 합니다. 질문 하나를 바꾸는 것만으로도 창의성이 두 배로 커질 수 있다는 사실을 기억하며, AI 활용 역량을 키워나가야 할 때입니다.