스탠퍼드 연구진이 알려주는 프롬프트 엔지니어링 활용법
ChatGPT나 Gemini와 같은 생성형 AI는 이제 우리의 일상과 업무에 깊숙이 자리 잡았습니다. 놀라운 속도로 정보를 처리하고 텍스트를 만들어내지만, 쓰다 보면 한 가지 고질적인 불만이 생깁니다. 같은 질문을 반복할 때마다 AI가 매번 비슷한 답변을 내놓는 경향이 있다는 점입니다.
우리는 그동안 이 현상을 모델의 알고리즘적 한계나 창의력 부족 탓으로 돌리곤 했습니다. 하지만 스탠퍼드 대학의 최근 연구는 이 문제의 근본적인 원인을 짚는 동시에, 놀랄 만큼 간단한 프롬프트 수정으로 이를 해결할 방법을 제시합니다. AI의 잠재력을 깨우는 새로운 통찰이죠.
이번 글에서는 AI가 왜 늘 비슷한 답변을 반복하는지, 스탠퍼드 연구팀이 밝혀낸 진짜 이유를 살펴봅니다. 나아가 단 몇 줄의 프롬프트 수정만으로 AI의 사고 폭을 넓히는 방법을 직접 테스트한 실제 사례와 함께 소개해 보겠습니다. 우리가 매일 사용하는 AI가 가진 ‘익숙함의 함정’을 벗어나, 창의적인 답변을 끌어내는 방법을 알아볼 시간입니다.
다양한 상황에서 AI를 사용하다 보면, 이전에 들었던 대답이 또 나오거나 비슷한 표현이 반복돼 답답했던 경험이 한두 번쯤 있을 겁니다.

이처럼 AI가 점점 획일적인 답변만 내놓는 현상을 전문가들은 ‘모드 붕괴(Mode Collapse)’라고 부릅니다.
2025년 10월, 스탠퍼드대학교 연구팀은 모드 붕괴를 새로운 관점에서 설명했습니다. 기존 연구에서는 이 문제를 주로 모델의 알고리즘적 한계나 데이터 다양성 부족 때문이라고 설명해 왔습니다. 그래서 이 현상을 AI 기술 자체의 한계로 받아들여 왔습니다. 하지만 연구팀은 그 원인을 사람의 사고 습관에서 찾았습니다.
AI를 사람의 기준에 맞추는 과정(Alignment)에는 사람이 직접 고른 ‘좋은 답변’ 데이터가 활용됩니다. 문제는 사람들이 평범하고 익숙한 답변을 더 좋아하는 경향이 있다는 점입니다. 이를 전형성 편향(Typicality Bias)이라고 하는데요. 쉽게 말해, “무난한 답이 더 낫다”고 생각하는 습관입니다.
그 때문에 AI는 다양한 표현과 아이디어를 배울 수 있음에도 불구하고 학습 과정에서 “안전하고 무난한 답이 좋은 답이다”라는 기준을 사람 따라 익히게 됩니다. 결국 AI도 새로운 생각을 시도하기보다는 익숙한 답을 반복하는 성향을 가지는 것입니다.
그럼 이 문제를 어떻게 해결해야 할까요? 연구에서는 AI 모델을 다시 훈련하지 않고도, 프롬프트만 바꿔 모드 붕괴를 완화할 수 있는 전략을 제시합니다. 바로 언어화된 샘플링(Verbalized Sampling)이라는 새로운 프롬프트 엔지니어링 기법입니다.
이 기법의 핵심은 AI에게 단 하나의 답을 요구하는 대신, 여러 답변과 함께 적합한 확률을 언어로 표현하게 만드는 것입니다. 즉, 모델이 내부에서 계산하는 확률적 사고 과정을 ‘말로 풀어내게(Verbalize)’ 해 스스로 사고의 폭을 넓히도록 유도하는 방식이죠.

예를 들어 “커피에 대한 농담을 써줘.” 또는 “커피에 대한 농담 5개 알려줘.”라고 요청하는 것보다 “커피에 대한 농담 5개와 각 농담이 선택될 확률을 함께 알려줘.”라고 물어보는 방식입니다. 확률적 사고 과정을 풀어내도록 요구하는 것이죠. 이렇게 단 한 줄의 요청만 바꿔도 AI는 더 이상 ‘가장 무난한 답’에만 머물지 않습니다. 학습 단계에서 익혔던 다양한 표현과 아이디어를 다시 탐색하기 시작합니다. 결과적으로 안정성을 유지하면서도, 훨씬 더 창의적이고 풍부한 결과물을 만들어냅니다.
스탠퍼드 연구팀의 실험에 따르면, 언어화된 샘플링을 적용한 모델은 창의적인 글쓰기 작업에서 최대 2.1배까지 다양성이 늘어났습니다. 반면 사실적 정확도와 안전성은 기존과 동일한 수준을 유지했습니다. 특히 눈에 띄는 점은, GPT-5처럼 성능이 높은 모델일수록 효과가 더 뚜렷하게 나타났다는 사실입니다. 이는 최신 대규모 언어 모델은 막대한 잠재력을 지니고 있었지만, 기존의 단순한 프롬프트 구조가 그 능력을 제한해 왔다는 의미이기도 합니다.
이처럼 언어화된 샘플링 프롬프트 엔지니어링은 AI의 숨겨진 잠재력을 다시 깨워내는 열쇠로 볼 수 있습니다. AI가 본래 지니고 있던 창의성과 사고의 폭을 복원하는 실질적인 방법이라는 뜻이죠.
그렇다면 이 기법을 실제 업무나 학습 환경에서 어떻게 활용할 수 있을까요? 언어화된 샘플링을 적용한 실제 프롬프트 사례와 결과 비교를 통해 이 단순한 한 줄의 변화가 AI의 답변 품질을 어떻게 바꿔놓는지 구체적으로 살펴보겠습니다.
저 스스로 언어화된 샘플링 기법을 적용해 본 결과, AI가 가진 잠재적인 다양성을 크게 끌어올릴 수 있다는 점을 직접 확인할 수 있었습니다. 이번 실험은 ChatGPT 5.1, Gemini 3.0, Claude Sonnet 4.5 등 세 가지 생성형 AI 모델을 대상으로 진행했습니다.
먼저 ChatGPT에게 하던 대로 “환경 보호 캠페인을 위한 슬로건 5개를 제안해 줘.”라고 요청했습니다. 예상대로 무난하고 익숙한 문구가 주를 이뤘습니다.
하지만 여기에 “각 슬로건이 선택될 확률도 함께 제시해 줘.”라는 문장을 덧붙여 언어화된 샘플링 기법을 적용하자, 결과가 달라졌습니다.
ChatGPT는 각 문구의 예상 선택 확률을 함께 제시하며, 메시지의 다양성과 우선순위를 동시에 반영한 응답을 내놓았습니다. 특히 “지구의 숨결, 당신의 오늘이 지구의 내일입니다”라는 문구는 이전처럼 무난한 표현을 반복하던 결과와 달리, 감성적이면서도 실천을 떠올리게 만드는 메시지를 담고 있다고 느껴졌습니다. 언어화된 샘플링 기법으로 ChatGPT가 자신의 사고 범위를 스스로 확장한 셈입니다.

Gemini에서도 비슷한 변화를 볼 수 있었습니다. 먼저 “AI 헬스케어 스타트업 서비스명 및 캐치프라이즈 제안 5개 해줘.”라고 요청했을 때는 아래 결과가 나왔습니다.
다시 언어화된 샘플링을 적용해 “각 슬로건이 선택될 확률과 이유도 함께 제시해 줘.”라고 요청했습니다. Gemini의 응답은 아래와 같이 바뀌었습니다.
Gemini는 이처럼 각 문구의 강점을 확률로 표현하며, 스스로의 판단 과정을 드러냈습니다. 단순한 카피 생성기를 넘어, 설득 구조를 설명하는 보조 기획자 역할에 가까워진 모습을 보여줬습니다.

마지막으로 Claude와는 Z세대 소비 습관 인터뷰 질문을 생성하는 실험을 진행했습니다. 우선 “Z세대 사용자의 소비 습관을 파악하기 위한 인터뷰 질문 5개를 만들어 줘.”라고 요청했을 때는, 이런 질문이 나왔습니다.
하지만, “각 질문이 유용할 확률(%)을 함께 제시해.”라고 요청하자 Claude는 응답의 구조 자체를 달리했습니다.
Claude는 탐색형 질문과 감정 기반 질문의 균형을 스스로 조정하며, 실제 UX 리서치 현장에서도 활용할 수 있는 수준의 질문 세트를 만들어냈습니다.
첫 번째로 응답한 질문 5개는 일반적인 탐색형 질문입니다. Z세대의 소비 전반을 폭넓게 확인하도록 설계되어, 주로 행동 패턴과 경험을 묻는 수준에 머무릅니다. 인터뷰 참여자가 답을 제공할 수는 있지만, 구체적인 판단 근거나 우선순위, 심리적 동기까지 깊이 파악하기에는 한계가 있습니다.
반면 두 번째 질문 5개는 사용자의 핵심 행동과 의사결정 과정을 더 깊이 끌어내도록 설계됐습니다. 예를 들어 “최근 한 달간 가장 만족스러웠던 구매와 후회된 구매를 말씀해주세요”라는 질문은 단순한 구매 경험을 넘어, 가치 판단 기준과 만족도를 함께 탐색할 수 있습니다. 여기에 각 질문의 유용도를 명시해 인터뷰의 전략적 우선순위도 제시했습니다.
정리하면, 첫 번째 세트는 폭넓은 탐색, 두 번째 세트는 심화 분석과 실질적 활용 가능성에 초점을 둔 질문이었습니다. 이는 Claude가 언어화된 샘플링을 통해 질문 설계 단계에서도 사고의 깊이와 전략성을 확장했음을 보여줍니다.

세 가지 실험을 종합해 보면 언어화된 샘플링은 단순한 프롬프트 기술을 넘어 AI의 사고 다양성을 잠금 해제하는 열쇠임을 확인할 수 있습니다. 이 접근법은 답변의 풍부함뿐 아니라 응답의 우선순위와 맥락, 실용성까지 함께 답하도록 만듭니다. 보다 전략적이고 창의적인 결정을 내릴 수 있는 도구죠. 결국 언어화된 샘플링은 AI를 ‘정답을 내놓는 도구’에서 ‘사고의 파트너(Thinking Partner)’로 확장시키는 새로운 프롬프트 엔지니어링 패러다임이라 할 수 있습니다.
가장 좋은 프롬프트는 처음부터 정해져 있는 것이 아니기에, 앞으로도 꾸준히 발견되고 다듬어질 것입니다. 이제 AI의 한계를 모델 탓으로만 돌리는 대신 우리의 질문 방식이 잠재력을 억누르고 있지는 않은지 스스로 물어야 합니다. 질문 하나를 바꾸는 것만으로도 창의성이 두 배로 커질 수 있다는 사실을 기억하며, AI 활용 역량을 키워나가야 할 때입니다.
©️요즘IT의 모든 콘텐츠는 저작권법의 보호를 받는 바, 무단 전재와 복사, 배포 등을 금합니다.