※ 본문은 오픈AI의 <Why language models hallucinate>를 신속하게 전달하기 위해 AI 번역 및 요약을 사용했습니다. 일부 문장에 오역이나 부자연스러운 표현이 있을 수 있으니 참고하시기 바랍니다.
한줄요약
오픈AI (OpenAI) 최근 연구에 따르면, 언어모델의 ‘환각’은 단순 오류가 아니라 정확도 위주의 평가가 추측을 장려해 생기는 현상이며, 이를 줄이려면 불확실성 표현을 더 긍정적으로 평가하는 방식이 필요하다.
출처: Open AI “Why Language Models Hallucinate” 캡처
환각(hallucination) 정의
- 언어 모델이 그럴듯하지만 사실과 다른 답변을 자신 있게 생성하는 현상
- 예: 특정 인물의 논문 제목이나 생일을 물었을 때 잘못된 정보를 자신 있게 답변
문제 원인
- 현재 모델 학습·평가 방식은 정답률(accuracy) 중심
- “모르겠다“라고 답하면 무조건 0점 → 추측이라도 하면 맞출 가능성 있음 → 모델이 추측을 선호
- 결과적으로 정확도는 높아 보여도 오답률(환각률)이 증가
구체적 사례 (SimpleQA 평가)
GPT-5 thinking-mini
- 기권(abstention) 52%
- 정답률 22%
- 오답률 26%
OpenAI o4-mini
⇒ 정답률은 비슷하지만, o4-mini는 추측 때문에 환각률이 매우 높음
해결 방향
- 평가 지표를 “정답 vs 오답” 이분법에서 탈피해야 함
- 오답(환각)에는 강한 패널티, 불확실성 표현에는 부분 점수 부여
- 일부 시험처럼 “틀리면 감점, 모르면 무응답 권장” 방식 적용 필요
- 환각은 데이터 특성(패턴 없는 희귀 정보 예측 불가) 때문에 발생 → 불확실성 인정이 합리적
핵심 발견
- 정확도 100% 달성은 불가능: 실제 세상에는 답이 없는 질문 존재
- 환각은 필연적이지 않음: 모델이 불확실성 표현을 선택할 수 있음
- 소형 모델이 더 잘 기권할 수도 있음: 아예 모르는 영역은 “모르겠다“라고 답변 가능
- 환각은 버그가 아님: 통계적 메커니즘과 현행 평가체계가 추측을 보상하기 때문에 발생
결론
- 환각 문제 해결은 단순히 모델 성능 개선이 아니라, 평가 체계 개편이 핵심
- 정확도 중심 리더보드가 바뀌어야 환각 감소 기법들이 널리 적용될 수 있음
- OpenAI는 GPT-5에서 환각률을 낮췄으며, 향후에도 자신감 있는 오류(confident errors) 최소화를 중점적으로 연구