요즘IT
위시켓
콘텐츠프로덕트 밸리
요즘 작가들컬렉션물어봐
놀이터
콘텐츠
프로덕트 밸리
요즘 작가들
컬렉션
물어봐
놀이터
새로 나온
인기
개발
AI
IT서비스
기획
디자인
비즈니스
프로덕트
커리어
트렌드
스타트업
서비스 전체보기
위시켓요즘IT
고객 문의
02-6925-4867
10:00-18:00주말·공휴일 제외
yozm_help@wishket.com
요즘IT
요즘IT 소개작가 지원
기타 문의
콘텐츠 제안하기광고 상품 보기
요즘IT 슬랙봇크롬 확장 프로그램
이용약관
개인정보 처리방침
청소년보호정책
㈜위시켓
대표이사 : 박우범
서울특별시 강남구 테헤란로 211 3층 ㈜위시켓
사업자등록번호 : 209-81-57303
통신판매업신고 : 제2018-서울강남-02337 호
직업정보제공사업 신고번호 : J1200020180019
제호 : 요즘IT
발행인 : 박우범
편집인 : 노희선
청소년보호책임자 : 박우범
인터넷신문등록번호 : 서울,아54129
등록일 : 2022년 01월 23일
발행일 : 2021년 01월 10일
© 2013 Wishket Corp.
로그인
요즘IT 소개
콘텐츠 제안하기
광고 상품 보기
AI

[릴리즈노트] AI에 '환각' 생기는 이유? - OpenAI 최신 연구

AI입니다만
1분
2025.09.09.
2.3K
에디터가 직접 고른 실무 인사이트 매주 목요일에 만나요.
newsletter_profile0명 뉴스레터 구독 중

※ 본문은 오픈AI의  <Why language models hallucinate>를 신속하게 전달하기 위해 AI 번역 및 요약을 사용했습니다. 일부 문장에 오역이나 부자연스러운 표현이 있을 수 있으니 참고하시기 바랍니다.
 

한줄요약

오픈AI (OpenAI) 최근 연구에 따르면, 언어모델의 ‘환각’은 단순 오류가 아니라 정확도 위주의 평가가 추측을 장려해 생기는 현상이며, 이를 줄이려면 불확실성 표현을 더 긍정적으로 평가하는 방식이 필요하다.

 

출처: Open AI “Why Language Models Hallucinate” 캡처

 

환각(hallucination) 정의

  • 언어 모델이 그럴듯하지만 사실과 다른 답변을 자신 있게 생성하는 현상
  • 예: 특정 인물의 논문 제목이나 생일을 물었을 때 잘못된 정보를 자신 있게 답변

 

문제 원인

  • 현재 모델 학습·평가 방식은 정답률(accuracy) 중심
  • “모르겠다“라고 답하면 무조건 0점 → 추측이라도 하면 맞출 가능성 있음 → 모델이 추측을 선호
  • 결과적으로 정확도는 높아 보여도 오답률(환각률)이 증가

 

구체적 사례 (SimpleQA 평가)

GPT-5 thinking-mini

  • 기권(abstention) 52%
  • 정답률 22%
  • 오답률 26%

 

OpenAI o4-mini

  • 기권 1%
  • 정답률 24%
  • 오답률 75%

⇒ 정답률은 비슷하지만, o4-mini는 추측 때문에 환각률이 매우 높음

 

해결 방향

  • 평가 지표를 “정답 vs 오답” 이분법에서 탈피해야 함
  • 오답(환각)에는 강한 패널티, 불확실성 표현에는 부분 점수 부여
  • 일부 시험처럼 “틀리면 감점, 모르면 무응답 권장” 방식 적용 필요
  • 환각은 데이터 특성(패턴 없는 희귀 정보 예측 불가) 때문에 발생 → 불확실성 인정이 합리적

 

핵심 발견

  • 정확도 100% 달성은 불가능: 실제 세상에는 답이 없는 질문 존재
  • 환각은 필연적이지 않음: 모델이 불확실성 표현을 선택할 수 있음
  • 소형 모델이 더 잘 기권할 수도 있음: 아예 모르는 영역은 “모르겠다“라고 답변 가능
  • 환각은 버그가 아님: 통계적 메커니즘과 현행 평가체계가 추측을 보상하기 때문에 발생

 

결론

  • 환각 문제 해결은 단순히 모델 성능 개선이 아니라, 평가 체계 개편이 핵심
  • 정확도 중심 리더보드가 바뀌어야 환각 감소 기법들이 널리 적용될 수 있음
  • OpenAI는 GPT-5에서 환각률을 낮췄으며, 향후에도 자신감 있는 오류(confident errors) 최소화를 중점적으로 연구