Overthinking Causes Hallucination: Tracing Confounder Propagation in Vision Language Models

이 논문은 비전-언어 모델의 환각 현상이 최종 출력보다는 중간 계층에서 잘못된 가설이 고정되고 전파되는 '과도한 사고 (overthinking)' 과정에서 비롯된다는 점을 규명하고, 이를 측정하는 '과도한 사고 점수'를 도입하여 환각 탐지 성능을 크게 향상시켰음을 제시합니다.

Abin Shoby, Ta Duc Huy, Tuan Dung Nguyen, Minh Khoi Ho, Qi Chen, Anton van den Hengel, Phi Le Nguyen, Johan W. Verjans, Vu Minh Hieu Phan

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 핵심 비유: "인공지능의 '과도한 고민' (Overthinking)"

이 논문의 제목은 **"Overthinking Causes Hallucination (과도한 고민이 환각을 부른다)"**입니다.

1. 기존 방법의 한계: "결론만 믿는 경찰"

기존의 환각 탐지 방법들은 AI 가 내린 **최종 답변 (결론)**만 보고 "이게 사실일까?"를 판단했습니다.

  • 비유: 마치 범죄 수사관이 피의자의 최종 진술서만 보고 "이 사람은 거짓말을 했나?"를 판단하는 것과 같습니다.
  • 문제점: 피의자가 거짓말을 할 때, 진지하게, 확신에 차서 거짓말을 할 수도 있습니다. AI 도 마찬가지입니다. 없는 물건을 말할 때, AI 는 매우 자신감 있게 (높은 확률로) 말합니다. 그래서 "최종 답변의 확신"이나 "주의 집중도"만으로는 거짓말을 구별하기 어렵습니다.

2. 이 논문의 발견: "생각의 과정 (Thought Process) 을 훔쳐보기"

이 연구팀은 AI 가 **최종 답을 내기까지 머릿속에서 어떤 생각을 했는지 (레이어별 변화)**를 추적했습니다.

  • 비유: 피의자가 진술서를 쓰기 전, 수사관과 대화하는 과정을 녹음해서 들어본 것입니다.
    • 정상적인 AI (정직한 사람): "저기 고양이가 있네. 아, 맞다. 고양이가 있구나." → 일관된 생각.
    • 환각을 일으키는 AI (과도한 고민하는 사람): "저기... 뭐가 있나? sink(싱크대) 같기도 하고... 아, soap(비누) 가 있네. 그럼 dish(접시) 가 있겠지? 아니, 잠깐, dish 가 아니라... 어? dish 가 맞나?" → 생각이 자꾸 뒤죽박죽으로 변함.

이 연구팀은 AI 가 실제 없는 물건을 말하기 전, 중간 단계에서 'sink(싱크대)', 'soap(비누)' 같은 관련 개념들을 계속 오가며 고민하다가, 결국 'dish(접시)'라는 없는 물건을 확신 있게 말하게 된다는 것을 발견했습니다.

3. 'Confounder Propagation (혼란의 전파)'이란?

이 현상을 연구팀은 **'혼란의 전파'**라고 부릅니다.

  • 상황: 주방 사진이 있는데, 실제에는 '접시'가 없습니다.
  • 과정: AI 는 중간 단계에서 '싱크대'와 '비누'를 보고, "아, 주방이니까 접시도 있겠지?"라고 **잘못된 추측 (혼란)**을 합니다.
  • 전파: 이 잘못된 추측이 AI 의 뇌 (레이어) 를 통과하며 점점 더 강해져서, 마지막에는 "여기 접시가 있어요!"라고 확신 있게 거짓말을 하게 됩니다.

4. 새로운 해결책: 'Overthinking Score (과도한 고민 점수)'

이제 우리는 AI 가 얼마나 '과도하게 고민'했는지 측정하는 새로운 도구인 **'Overthinking Score'**를 만들었습니다.

  • 측정 방법:
    1. AI 가 답을 내기 전, 중간 단계에서 몇 가지 다른 물건을 고민했는가? (예: 싱크대, 비누, 접시, 컵... 등등)
    2. 그 고민이 얼마나 불안정하게 변했는가?
  • 결과: 만약 AI 가 중간에 물건을 계속 바꾸며 불안하게 고민한다면, 그건 거짓말을 할 확률이 매우 높다는 신호입니다.

📊 왜 이 방법이 더 좋은가요?

  • 기존 방법: "AI 가 이 단어에 집중했으니 진짜겠지?"라고 생각하다가, AI 가 거짓말을 할 때도 집중을 잘해서 **미스 (Miss)**를 냅니다.
  • 이 방법: "AI 가 이 단어에 집중하기 전에, 머릿속에서 '접시'가 아닌 다른 것들 (싱크대, 비누 등) 로 자꾸 흔들렸구나!"라고 과정을 파악해서 정확하게 잡아냅니다.

🏁 결론: "결과는 믿지 말고, 과정을 보라"

이 논문은 우리에게 중요한 교훈을 줍니다.

"AI 가 최종적으로 확신에 차서 말하는 것을 믿지 마세요. 대신, 그 답을 내기 위해 AI 가 얼마나 헷갈려하며 고민했는지 그 '생각의 과정'을 지켜보세요. 그게 바로 거짓말 (환각) 을 찾아내는 열쇠입니다."

이 새로운 방법 (Overthinking Score) 은 기존 방식보다 훨씬 정확하게 AI 의 환각을 찾아내어, 우리가 AI 를 더 신뢰할 수 있게 만들어줍니다. 마치 거짓말 탐지기보다 진술 과정의 모순을 찾는 것이 더 효과적이라는 것과 같은 원리입니다.