요즘IT
위시켓
새로 나온
인기요즘 작가들컬렉션
물어봐
새로 나온
인기
요즘 작가들
컬렉션
물어봐
개발
AI
IT서비스
기획
디자인
비즈니스
프로덕트
커리어
트렌드
스타트업
서비스 전체보기
위시켓요즘IT
고객 문의
02-6925-4867
10:00-18:00주말·공휴일 제외
yozm_help@wishket.com
요즘IT
요즘IT 소개작가 지원
기타 문의
콘텐츠 제안하기광고 상품 보기
요즘IT 슬랙봇크롬 확장 프로그램
이용약관
개인정보 처리방침
청소년보호정책
㈜위시켓
대표이사 : 박우범
서울특별시 강남구 테헤란로 211 3층 ㈜위시켓
사업자등록번호 : 209-81-57303
통신판매업신고 : 제2018-서울강남-02337 호
직업정보제공사업 신고번호 : J1200020180019
제호 : 요즘IT
발행인 : 박우범
편집인 : 노희선
청소년보호책임자 : 박우범
인터넷신문등록번호 : 서울,아54129
등록일 : 2022년 01월 23일
발행일 : 2021년 01월 10일
© 2013 Wishket Corp.
로그인
요즘IT 소개
콘텐츠 제안하기
광고 상품 보기
AI

[릴리즈노트] AI에 '환각' 생기는 이유? - OpenAI 최신 연구

AI입니다만
3분
10시간 전
197
에디터가 직접 고른 실무 인사이트 매주 목요일에 만나요.
newsletter_profile0명 뉴스레터 구독 중

※ 본문은 오픈AI의  <Why language models hallucinate>를 신속하게 전달하기 위해 AI 번역 및 요약을 사용했습니다. 일부 문장에 오역이나 부자연스러운 표현이 있을 수 있으니 참고하시기 바랍니다.
 

한줄요약

오픈AI (OpenAI) 최근 연구에 따르면, 언어모델의 ‘환각’은 단순 오류가 아니라 정확도 위주의 평가가 추측을 장려해 생기는 현상이며, 이를 줄이려면 불확실성 표현을 더 긍정적으로 평가하는 방식이 필요하다.

 

출처: Open AI “Why Language Models Hallucinate” 캡처

 

환각(hallucination) 정의

  • 언어 모델이 그럴듯하지만 사실과 다른 답변을 자신 있게 생성하는 현상
  • 예: 특정 인물의 논문 제목이나 생일을 물었을 때 잘못된 정보를 자신 있게 답변

 

문제 원인

  • 현재 모델 학습·평가 방식은 정답률(accuracy) 중심
  • “모르겠다“라고 답하면 무조건 0점 → 추측이라도 하면 맞출 가능성 있음 → 모델이 추측을 선호
  • 결과적으로 정확도는 높아 보여도 오답률(환각률)이 증가

 

구체적 사례 (SimpleQA 평가)

GPT-5 thinking-mini

  • 기권(abstention) 52%
  • 정답률 22%
  • 오답률 26%

 

OpenAI o4-mini

  • 기권 1%
  • 정답률 24%
  • 오답률 75%

⇒ 정답률은 비슷하지만, o4-mini는 추측 때문에 환각률이 매우 높음

 

해결 방향

  • 평가 지표를 “정답 vs 오답” 이분법에서 탈피해야 함
  • 오답(환각)에는 강한 패널티, 불확실성 표현에는 부분 점수 부여
  • 일부 시험처럼 “틀리면 감점, 모르면 무응답 권장” 방식 적용 필요
  • 환각은 데이터 특성(패턴 없는 희귀 정보 예측 불가) 때문에 발생 → 불확실성 인정이 합리적

 

핵심 발견

  • 정확도 100% 달성은 불가능: 실제 세상에는 답이 없는 질문 존재
  • 환각은 필연적이지 않음: 모델이 불확실성 표현을 선택할 수 있음
  • 소형 모델이 더 잘 기권할 수도 있음: 아예 모르는 영역은 “모르겠다“라고 답변 가능
  • 환각은 버그가 아님: 통계적 메커니즘과 현행 평가체계가 추측을 보상하기 때문에 발생

 

결론

  • 환각 문제 해결은 단순히 모델 성능 개선이 아니라, 평가 체계 개편이 핵심
  • 정확도 중심 리더보드가 바뀌어야 환각 감소 기법들이 널리 적용될 수 있음
  • OpenAI는 GPT-5에서 환각률을 낮췄으며, 향후에도 자신감 있는 오류(confident errors) 최소화를 중점적으로 연구