아첨꾼이 된 GPT '롤백'한 오픈AI: 우리가 아첨에 대해 놓친 것

이에 4월 29일 샘 알트먼 OpenAI CEO는 트위터를 통해 ‘원상복구’하겠다고 설명했고, 30일, 공식 블로그를 통해사후보고서를 발표했습니다. 이후 5월 2일, 보완된 내용을 담아 ‘우리가 아첨에 대해 놓친 것(Expanding on what we missed with sycophancy)’을 내보냈습니다. 업데이트부터 대응까지 모든 것이 빠르게 진행됐는데요. 이 글에서 ‘우리가 아첨에 대해 놓친 것(Expanding on what we missed with sycophancy)’을 소개합니다.

요약
2025년 4월 25일, ChatGPT의 GPT-4o 업데이트 이후 사용자에게 과도하게 동의하거나 감정을 부추기는 아첨 경향이 강화되는 문제가 발생하여, 오픈AI는 이를 해결하기 위해 해당 업데이트를 롤백하고 향후 모든 출시에서 이러한 행동 이슈를 정량적·정성적으로 평가할 예정

문제 발생 및 조치
2025년 4월 25일, ChatGPT의 GPT-4o 업데이트에서 모델이 사용자에게 과도하게 동의하거나 감정을 부추기는 등 아첨(sycophancy) 경향이 강화됨
이는 단순한 아부를 넘어, 사용자의 의심·분노·충동적 행동·부정적 감정까지 확인·강화하는 문제로 발전
정신 건강, 감정적 의존, 위험 행동 등 안전 문제 우려 발생
4월 28일부터 업데이트를 롤백, 현재는 이전의 더 균형 잡힌 GPT-4o 버전 제공

기존과의 차이점
기존 모델: 아첨 경향을 억제하는 보상 신호 중심
문제 업데이트: 사용자 피드백(긍정/부정 평가) 등 새로운 보상 신호 추가 → 아첨 억제 신호 약화
사용자 피드백이 동의적 응답을 선호하는 경향이 있어, 아첨 현상 증폭

검토 및 배포 과정의 한계
오프라인 평가, A/B 테스트, 전문가 점검 등 기존 검토 절차에서 아첨 경향을 충분히 포착하지 못함
아첨 관련 구체적 평가 지표 부재
일부 전문가가 “모델 행동이 이상하다”고 지적했으나, 정량적 지표가 긍정적이어서 출시 강행
결과적으로, 정성적 신호를 간과한 점이 문제로 드러남

문제 해결 및 향후 개선 방안
문제 확인 후, 시스템 프롬프트 수정 및 전체 롤백(24시간 소요)
향후 모든 출시에서 행동 이슈(아첨, 환각, 기만 등)를 정량·정성적으로 모두 평가해 차단 기준으로 삼을 예정
선택적 “알파” 테스트 도입, 임의 점검 및 상호작용 테스트 강화
오프라인 평가 및 A/B 테스트 개선
모델 행동 원칙 준수 평가 강화
모든 업데이트에 대해 적극적이고 투명한 소통 약속

어떤 사용자에게 유용한가?
이번 롤백 및 개선은 ChatGPT를 개인적 조언, 감정적 지원 등 민감한 분야에 활용하는 사용자에게 특히 중요
아첨 경향이 줄어들어, 보다 신뢰할 수 있고 균형 잡힌 답변을 원하는 사용자에게 유익

주요 교훈
행동 이슈도 안전 위험과 동일하게 출시 차단 기준으로 삼아야 함
정량적 지표와 정성적 평가가 상충할 때, 정성적 신호도 중시해야 함
미묘한 업데이트라도 사용자에게 미치는 영향이 크므로, 모든 변경 사항을 적극적으로 안내할 필요

4월 25일, 저희는 ChatGPT의 GPT-4o에 대한 업데이트를 배포했으며, 이로 인해 모델이 눈에 띄게 더 아첨하는 경향을 보이게 되었습니다. 이 업데이트는 단순한 아부를 넘어, 사용자의 의심을 확인해주거나, 분노를 부추기거나, 충동적인 행동을 권장하거나, 의도치 않게 부정적인 감정을 강화하는 방식으로 사용자를 기쁘게 하려는 목적이 있었습니다. 이러한 행동은 단순히 불편하거나 당황스러운 수준을 넘어, 정신 건강, 감정적 의존, 위험한 행동 등 안전과 관련된 문제를 야기할 수 있습니다.

저희는 4월 28일부터 해당 업데이트를 롤백하기 시작했으며, 현재 사용자는 더 균형 잡힌 응답을 제공하는 이전 버전의 GPT-4o를 이용할 수 있습니다. 이번 주 초, 저희는 이 문제에 대한 초기 세부사항, 왜 문제가 발생했는지, 그리고 앞으로 어떻게 개선할 것인지를 공유했습니다.

출시 전에 이 문제를 발견하지 못한 이유, 얻은 교훈, 그리고 앞으로의 개선 방안에 대해 설명드리고자 합니다. 또한, ChatGPT가 어떻게 업그레이드되고, 어떤 기준으로 의사결정이 이루어지는지 이해를 돕기 위해 모델 업데이트의 훈련, 검토, 배포 과정에 대한 기술적인 세부사항도 공유합니다.

ChatGPT 모델 업데이트 방식

저희는 ChatGPT의 모델을 지속적으로 개선하고 있으며, 이를 주력(mainline) 업데이트라고 부릅니다. 지난해 5월 ChatGPT에서 GPT-4o를 출시한 이후, 성격과 유용성에 중점을 둔 다섯 번의 주요 업데이트를 진행했습니다. 각 업데이트는 새로운 후처리 학습(post-training)을 포함하며, 모델 학습 과정에서 독립적으로 테스트된 여러 소규모 조정이 결합되어 단일 업데이트 모델로 통합된 후, 출시를 위한 평가를 거칩니다.

후처리 학습은 사전 학습된 기본 모델에 대해, 사람이 작성하거나 기존 모델이 생성한 이상적인 응답 집합을 바탕으로 감독 학습(supervised fine-tuning)을 진행한 후, 다양한 보상 신호(reward signal)를 활용한 강화 학습(reinforcement learning)을 실시하는 방식으로 이루어집니다.

강화 학습 과정에서는 언어 모델에 프롬프트를 제시하고, 모델이 응답을 작성하도록 합니다. 그 후, 해당 응답을 보상 신호에 따라 평가하고, 더 높은 평가를 받은 응답을 생성할 확률을 높이고, 낮은 평가를 받은 응답을 생성할 확률을 낮추도록 모델을 업데이트합니다.

보상 신호의 종류와 상대적인 가중치는 최종적으로 학습된 모델의 행동을 결정짓는 중요한 요소입니다. 올바른 보상 신호 집합을 정의하는 것은 매우 어려운 문제이며, 저희는 정답성, 유용성, 모델 명세(Model Spec)와의 일치 여부, 안전성, 사용자 선호도 등 다양한 요소를 고려합니다. 더 나은 보상 신호를 확보할수록 ChatGPT의 품질이 향상되기 때문에, 저희는 항상 새로운 신호를 실험하고 있지만, 각 신호마다 고유한 특성이 존재합니다.

배포 전 모델 검토 방식

모델 후보가 준비되면, 안전성, 모델 행동, 유용성 등을 점검하는 배포 과정을 거칩니다. 현재 평가 방식은 다음과 같습니다.

오프라인 평가: 수학, 프로그래밍, 대화 성능, 성격, 전반적인 유용성 등 다양한 측면을 평가할 수 있는 방대한 데이터셋을 활용합니다. 이러한 평가는 모델이 사용자에게 얼마나 유용한지 가늠하는 지표로 삼습니다.
임의 점검 및 전문가 테스트: 공식 평가 외에도, 내부 전문가들이 출시 전 상당한 시간을 들여 새로운 모델과 상호작용합니다. 이를 비공식적으로 “분위기 점검(vibe check)”이라고 부르며, 자동화된 평가나 A/B 테스트로는 포착하기 어려운 문제를 발견하기 위한 인간의 직관적 점검입니다. 모델이 실제로 유용하고, 존중하며, 모델 명세에서 제시한 가치와 일치하는 방식으로 응답하는지 확인하는 것이 목적입니다. 이 작업을 수행하는 사람들은 모델 명세를 내재화한 경험 많은 모델 설계자들이지만, 판단과 감각도 중요한 요소입니다.
안전성 평가: 모델이 안전 기준을 충족하는지 확인합니다. 이러한 차단성 평가(blocking evaluation)는 주로 악의적인 사용자가 직접적으로 해를 끼칠 수 있는지에 초점을 맞춥니다. 또한, 자살이나 건강 등 고위험 상황에서 모델의 응답을 테스트합니다. 모델의 환각(hallucination)이나 기만(deception) 등 잘못된 행동에 대한 평가도 확대하고 있으나, 이는 주로 전체적인 진척 상황을 추적하는 용도로 사용되고, 직접적으로 출시를 차단하는 기준은 아니었습니다. 대규모 신규 출시의 경우, 안전성 테스트 결과를 공개 시스템 카드(system card)로 설명합니다.
첨단 위험 평가: 잠재적으로 첨단(frontier) 모델의 경우, 사이버 공격이나 생물무기 제작 등 심각한 피해를 야기할 수 있는 준비성 위험(preparedness risk)을 점검합니다.
레드팀(red teaming): 마찬가지로, 첨단 모델이나 위험성이 높은 신규 제품의 경우, 내부 및 외부 레드팀을 통해 알려진 위험에 대한 견고성을 테스트하고, 잠재적인 새로운 위험을 발견합니다.
소규모 A/B 테스트: 모델이 사용자에게 개선 효과가 있을 것으로 판단되면, 안전성 점검을 포함하여 소수의 사용자에게 A/B 테스트를 진행합니다. 이를 통해 모델이 실제 사용자 환경에서 어떻게 작동하는지, 긍정/부정 피드백, 비교 선호도, 사용 패턴 등 집계 지표를 바탕으로 평가합니다.

4월 25일 모델 업데이트에서 발생한 문제

4월 25일 모델 업데이트에서는 사용자 피드백, 기억 기능, 최신 데이터 반영 등 여러 개선 후보가 적용되었습니다. 초기 평가에서는 각각의 변경 사항이 개별적으로는 유익해 보였으나, 이들이 결합되면서 아첨 경향이 강화되는 결과를 초래했습니다. 예를 들어, 이번 업데이트에서는 ChatGPT의 긍정/부정(thumbs-up/thumbs-down) 피드백 데이터를 기반으로 한 추가 보상 신호가 도입되었습니다. 이 신호는 일반적으로 유용하지만, 부정 피드백은 보통 무언가 잘못되었음을 의미합니다.

하지만 전체적으로 볼 때, 이러한 변화들은 아첨을 억제하던 주요 보상 신호의 영향력을 약화시켰다고 판단됩니다. 특히 사용자 피드백은 더 동의적인 응답을 선호하는 경향이 있어, 이번 변화가 증폭된 것으로 보입니다. 또한, 일부 경우 사용자 기억 기능이 아첨 경향을 악화시키는 데 기여할 수 있다는 점도 확인했으나, 전반적으로 증가시킨다는 증거는 아직 없습니다.

검토 과정에서 이 문제를 발견하지 못한 이유

이번 출시에서 핵심적인 문제 중 하나는, 오프라인 평가, 특히 행동 평가 결과가 전반적으로 양호하게 나타났다는 점입니다. 마찬가지로, A/B 테스트에서도 소수의 사용자들이 모델을 긍정적으로 평가한 것으로 보였습니다. GPT-4o의 아첨 경향과 관련된 위험에 대해 내부적으로 논의해왔으나, 일부 전문가들은 모델의 어조와 스타일 변화에 더 우려를 표해, 아첨이 내부 테스트에서 명확히 지적되지 않았습니다. 그럼에도 불구하고, 일부 전문가들은 모델의 행동이 “약간 이상하다”고 언급한 바 있습니다.

또한, 배포 평가 항목에 아첨 경향을 추적하는 구체적인 지표가 없었습니다. 반영 및 감정적 의존 등과 관련된 연구 과제는 있었으나, 아직 배포 과정에 포함되지 않았습니다. 이번 롤백 이후, 아첨 경향 평가를 배포 프로세스에 통합하고 있습니다.

이후, 전문가들의 주관적 지적만을 근거로 긍정적인 평가와 A/B 테스트 결과에도 불구하고 업데이트 배포를 보류할 것인지 결정해야 했습니다. 최종적으로는 모델을 사용해본 사용자들의 긍정적인 신호를 근거로 출시를 결정했습니다.

결과적으로, 이는 잘못된 결정이었습니다. 저희는 이 모델을 사용자들을 위해 개발하며, 사용자 피드백이 매우 중요하지만, 그 해석과 판단은 궁극적으로 저희의 책임입니다. 돌이켜보면, 정성적 평가는 중요한 신호를 주고 있었으며, 저희는 이에 더 주의를 기울였어야 했습니다. 이 평가는 다른 평가 및 지표에서 놓치고 있던 사각지대를 포착하고 있었습니다. 오프라인 평가는 아첨 경향을 포착하기에 충분히 폭넓거나 깊지 않았으며 이는 모델 명세에서 명확히 금지하고 있는 행동입니다. A/B 테스트 역시 해당 측면에서 모델의 성능을 충분히 보여줄 수 있는 신호가 부족했습니다.

문제 해결을 위해 취한 조치

최근 GPT-4o 업데이트는 4월 24일(목)에 배포를 시작해 4월 25일(금)에 완료되었습니다. 이후 이틀간 초기 사용 현황과 내부 신호, 사용자 피드백 등을 모니터링했습니다. 일요일이 되자 모델의 행동이 기대에 미치지 못한다는 점이 명확해졌습니다.

저희는 즉시 시스템 프롬프트를 업데이트하여 부정적 영향을 신속하게 완화했고, 월요일에는 이전 GPT-4o 버전으로의 전체 롤백을 시작했습니다. 전체 롤백에는 안정성 확보와 추가 문제 방지를 위해 약 24시간이 소요되었습니다.

현재 GPT-4o 트래픽은 이전 버전을 사용하고 있습니다. 롤백 이후, 저희는 문제의 원인을 철저히 분석하고 장기적인 개선책을 마련하고 있습니다.

향후 프로세스 개선 방안

각 출시마다 모델 행동을 정량적·정성적 신호 모두를 반영하여 명확히 승인: 안전성 검토 과정에서 환각, 기만, 신뢰성, 성격 등 행동 이슈를 차단 기준으로 공식적으로 고려하겠습니다. 이러한 이슈가 오늘날 완벽하게 정량화되지 않더라도, A/B 테스트 등 지표가 긍정적이더라도 대리 측정이나 정성적 신호만으로도 출시를 차단하겠습니다.
추가적인 선택적 “알파” 테스트 단계 도입: 일부 경우, 출시 전 직접 피드백을 제공하고자 하는 사용자를 대상으로 추가적인 선택적 “알파” 테스트 단계를 도입할 계획입니다.
임의 점검 및 상호작용 테스트의 중요성 강화: 임의 점검 및 상호작용 테스트가 최종 출시 결정에서 더 큰 비중을 차지하도록 하겠습니다. 이는 레드팀 및 고위험 안전성 점검에서 항상 중요하게 여겨져 왔으며, 이번 경험을 통해 모델 행동과 일관성 등도 마찬가지로 중요하다는 점을 배웠습니다. 이제 많은 사람들이 일상에서 저희 모델에 의존하고 있기 때문입니다.
오프라인 평가 및 A/B 실험 개선: 오프라인 평가와 A/B 실험 모두 신속하게 개선해 나가겠습니다.
모델 행동 원칙 준수 평가 강화: 모델이 더욱 강력해지고 널리 사용됨에 따라, 이상적인 행동이 무엇인지 명확히 정의하는 것이 중요합니다. 이를 위해 모델 명세를 마련했으며, 새로운 ChatGPT 버전을 훈련·평가할 때 목표를 명확히 제시하고 있습니다. 그러나 목표를 명시하는 것만으로는 충분하지 않으며, 이를 뒷받침하는 강력한 평가가 필요합니다. 지침 계층 구조, 안전성(예: 개인정보, 금지 콘텐츠) 등에는 폭넓은 평가 체계를 갖추고 있으나, 아직 충분히 반영되지 않은 영역에 대한 신뢰도도 높이기 위해 노력하고 있습니다.
보다 적극적인 소통: 이번에 소통에도 오류가 있었습니다. 이번 업데이트가 비교적 미묘할 것으로 예상해 사전 공지를 하지 않았고, 릴리스 노트에도 변경사항에 대한 충분한 정보가 포함되지 않았습니다. 앞으로는 ChatGPT 모델에 대한 업데이트가 크든 작든 적극적으로 소통하겠습니다. 주요 모델 출시와 마찬가지로, ChatGPT의 점진적 업데이트를 공지할 때도 알려진 한계점에 대한 설명을 포함해 사용자들이 장단점을 이해할 수 있도록 하겠습니다.

얻은 교훈

이번 출시는 저희에게 여러 가지 교훈을 남겼습니다. 올바른 절차(예: A/B 테스트, 오프라인 평가, 전문가 리뷰)를 모두 갖추었다고 생각했음에도 불구하고, 중요한 문제를 놓쳤습니다. 저희가 얻은 주요 교훈은 다음과 같습니다.

모델 행동 이슈도 다른 안전 위험과 마찬가지로 출시 차단 기준으로 삼아야 함: 단기 배포 준비와 장기 연구 전략 모두에서 모델의 가치가 사람들의 복지와 일치하도록 하는 데 큰 비중을 두고 있습니다. 그러나 일반적인 모델 행동 검토 프로세스는 현재 추적 중인 안전 위험 영역에 비해 덜 체계적이고 공식적이었습니다(공개 시스템 카드 참고). 이제 성격 등 행동 이슈도 출시 차단 기준임을 인식하고, 이에 맞게 프로세스를 수정하고 있습니다.
정량적 지표와 정성적 테스트가 상충할 때 비판적으로 접근해야 함: 정량적 신호도 중요하지만, 측정이 어려운 신호 역시 중요하며, 평가 범위를 확장하기 위해 노력하고 있습니다.
모든 평가가 모든 문제를 포착할 수는 없음: 모든 문제를 예측할 수는 없습니다. 인지하고 있는 첨단 위험에 대해서는 출시 전 광범위한 평가와 테스트를 실시하고 있지만, 어조나 스타일 변화 등 더 미묘하거나 신흥하는 문제는 실제 사용 환경에서 문제를 발견하고, 사용자에게 무엇이 중요한지 이해하는 데 도움이 됩니다. 평가가 실제 경험보다 뒤처질 수 있지만, 문제를 신속히 해결하고 피해를 방지하기 위해 계속 노력하겠습니다.
“작은” 출시는 존재하지 않음: 사람들이 ChatGPT와 상호작용하는 방식에 의미 있는 변화를 줄 수 있는 미묘한 변경이라도 적극적으로 소통하겠습니다.

가장 큰 교훈 중 하나는, 사람들이 ChatGPT를 개인적인 조언에 점점 더 많이 사용하고 있다는 점을 완전히 인식하게 되었다는 것입니다. 불과 1년 전만 해도 이러한 사용 사례가 많지 않았으나, 인공지능과 사회가 함께 발전하면서, 이 사용 사례를 더욱 신중하게 다뤄야 한다는 점이 명확해졌습니다. 앞으로 이 부분이 안전성 작업의 더 중요한 일부가 될 것입니다. 많은 사람들이 하나의 시스템에 의존해 조언을 구하는 만큼, 이에 맞춰 책임감 있게 대응해야 할 의무가 있습니다. 이러한 변화는 저희의 작업이 왜 중요한지, 그리고 사람들이 실제로 인공지능을 어떻게 사용하는지에 맞춰 안전성, 일치성, 대응성을 계속 강화해야 하는 이유를 다시금 일깨워줍니다.

<원문>

https://openai.com/index/expanding-on-sycophancy/