Overthinking Causes Hallucination: Tracing Confounder Propagation in Vision Language Models

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 핵심 비유: "인공지능의 '과도한 고민' (Overthinking)"

이 논문의 제목은 **"Overthinking Causes Hallucination (과도한 고민이 환각을 부른다)"**입니다.

1. 기존 방법의 한계: "결론만 믿는 경찰"

기존의 환각 탐지 방법들은 AI 가 내린 **최종 답변 (결론)**만 보고 "이게 사실일까?"를 판단했습니다.

비유: 마치 범죄 수사관이 피의자의 최종 진술서만 보고 "이 사람은 거짓말을 했나?"를 판단하는 것과 같습니다.
문제점: 피의자가 거짓말을 할 때, 진지하게, 확신에 차서 거짓말을 할 수도 있습니다. AI 도 마찬가지입니다. 없는 물건을 말할 때, AI 는 매우 자신감 있게 (높은 확률로) 말합니다. 그래서 "최종 답변의 확신"이나 "주의 집중도"만으로는 거짓말을 구별하기 어렵습니다.

2. 이 논문의 발견: "생각의 과정 (Thought Process) 을 훔쳐보기"

이 연구팀은 AI 가 **최종 답을 내기까지 머릿속에서 어떤 생각을 했는지 (레이어별 변화)**를 추적했습니다.

비유: 피의자가 진술서를 쓰기 전, 수사관과 대화하는 과정을 녹음해서 들어본 것입니다.
- 정상적인 AI (정직한 사람): "저기 고양이가 있네. 아, 맞다. 고양이가 있구나." → 일관된 생각.
- 환각을 일으키는 AI (과도한 고민하는 사람): "저기... 뭐가 있나? sink(싱크대) 같기도 하고... 아, soap(비누) 가 있네. 그럼 dish(접시) 가 있겠지? 아니, 잠깐, dish 가 아니라... 어? dish 가 맞나?" → 생각이 자꾸 뒤죽박죽으로 변함.

이 연구팀은 AI 가 실제 없는 물건을 말하기 전, 중간 단계에서 'sink(싱크대)', 'soap(비누)' 같은 관련 개념들을 계속 오가며 고민하다가, 결국 'dish(접시)'라는 없는 물건을 확신 있게 말하게 된다는 것을 발견했습니다.

3. 'Confounder Propagation (혼란의 전파)'이란?

이 현상을 연구팀은 **'혼란의 전파'**라고 부릅니다.

상황: 주방 사진이 있는데, 실제에는 '접시'가 없습니다.
과정: AI 는 중간 단계에서 '싱크대'와 '비누'를 보고, "아, 주방이니까 접시도 있겠지?"라고 **잘못된 추측 (혼란)**을 합니다.
전파: 이 잘못된 추측이 AI 의 뇌 (레이어) 를 통과하며 점점 더 강해져서, 마지막에는 "여기 접시가 있어요!"라고 확신 있게 거짓말을 하게 됩니다.

4. 새로운 해결책: 'Overthinking Score (과도한 고민 점수)'

이제 우리는 AI 가 얼마나 '과도하게 고민'했는지 측정하는 새로운 도구인 **'Overthinking Score'**를 만들었습니다.

측정 방법:
1. AI 가 답을 내기 전, 중간 단계에서 몇 가지 다른 물건을 고민했는가? (예: 싱크대, 비누, 접시, 컵... 등등)
2. 그 고민이 얼마나 불안정하게 변했는가?
결과: 만약 AI 가 중간에 물건을 계속 바꾸며 불안하게 고민한다면, 그건 거짓말을 할 확률이 매우 높다는 신호입니다.

📊 왜 이 방법이 더 좋은가요?

기존 방법: "AI 가 이 단어에 집중했으니 진짜겠지?"라고 생각하다가, AI 가 거짓말을 할 때도 집중을 잘해서 **미스 (Miss)**를 냅니다.
이 방법: "AI 가 이 단어에 집중하기 전에, 머릿속에서 '접시'가 아닌 다른 것들 (싱크대, 비누 등) 로 자꾸 흔들렸구나!"라고 과정을 파악해서 정확하게 잡아냅니다.

🏁 결론: "결과는 믿지 말고, 과정을 보라"

이 논문은 우리에게 중요한 교훈을 줍니다.

"AI 가 최종적으로 확신에 차서 말하는 것을 믿지 마세요. 대신, 그 답을 내기 위해 AI 가 얼마나 헷갈려하며 고민했는지 그 '생각의 과정'을 지켜보세요. 그게 바로 거짓말 (환각) 을 찾아내는 열쇠입니다."

이 새로운 방법 (Overthinking Score) 은 기존 방식보다 훨씬 정확하게 AI 의 환각을 찾아내어, 우리가 AI 를 더 신뢰할 수 있게 만들어줍니다. 마치 거짓말 탐지기보다 진술 과정의 모순을 찾는 것이 더 효과적이라는 것과 같은 원리입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

비전 - 언어 모델 (VLM) 은 입력 이미지에 존재하지 않는 객체를 생성하는 '환각 (Hallucination)' 현상이 빈번하게 발생합니다. 기존 환각 탐지 방법들은 주로 다음과 같은 한계를 가집니다:

최종 출력 의존성: 대부분의 탐지기 (Entropy 기반, Attention 기반) 가 모델의 최종 출력 레이어나 최종 토큰의 불확실성만 분석합니다.
주의 (Attention) 의 오해: 실제 객체는 높은 시각적 주의를, 환각된 객체는 낮은 주의를 받는다는 가정이 성립하지 않습니다. 강한 문맥적 사전 지식 (Contextual Priors, 예: 부엌 - 싱크대) 이 있는 경우, 환각된 객체도 실제 객체와 유사하게 높은 주의를 받습니다.
불확실성의 부재: 모델이 잘못된 가설에 빠졌을 때, 중간 레이어에서 이미 수렴하여 최종 출력에서는 높은 확신 (낮은 엔트로피) 을 보이는 경우가 많아, 엔트로피 기반 탐지가 실패합니다.

이 논문은 환각이 최종 단계가 아닌, 모델의 사고 과정 (Reasoning Process) 중 발생하는 '혼란 요소의 전파 (Confounder Propagation)' 에 기인한다고 주장합니다.

2. 핵심 방법론 (Methodology)

2.1. 혼란 요소 전파 (Confounder Propagation) 분석

저자들은 VLM 의 디코더 레이어를 단계별로 분석하여 다음과 같은 현상을 발견했습니다.

과도한 사고 (Overthinking): 모델이 최종 답을 결정하기 전에 여러 레이어를 거치며 다양한 객체 가설 (예: 싱크대, 비누, 접시) 을 번갈아 고려합니다.
혼란 요소 (Confounder) 의 등장: 중간 레이어에서 문맥적으로 연관되지만 이미지에 존재하지 않는 객체 (예: 싱크대와 비누가 있으면 접시가 있을 것이라 추측) 가 등장합니다.
전파: 이러한 혼란 요소가 후속 레이어로 전파되어, 모델이 최종적으로 존재하지 않는 객체 (예: 접시) 를 확신 있게 생성하게 됩니다.

2.2. Overthinking Score (S-OT) 제안

이러한 '과도한 사고'와 '혼란 요소 전파'를 정량화하기 위해 Overthinking Score (S-OT) 를 도입했습니다. 이는 다음 두 가지 요소를 결합합니다:

고유 토큰 수 (Unique Token Count): 모든 디코더 레이어에서 Top-1 로 예측된 고유한 토큰의 수. (모델이 얼마나 많은 대안 가설을 고려했는지)
레이어별 엔트로피 (Layer-wise Entropy): 각 레이어의 토큰 분포 불확실성.

수식적으로 다음과 같이 정의됩니다:
$S_{OT} = \frac{|\{x_\ell | \ell \in [1, L]\}|}{L} \cdot \frac{\sum_{\ell=1}^{L} H_\ell}{L}$
여기서 $x_\ell$ 은 레이어 $\ell$ 의 Top-1 토큰, $H_\ell$ 은 해당 레이어의 엔트로피입니다. S-OT 가 높을수록 모델이 많은 대안을 고민하며 불확실성이 누적되어 환각을 일으킬 확률이 높음을 의미합니다.

2.3. 탐지 파이프라인

Prefix Prompting: 이미지와 부분 문장을 입력받아 다음 토큰을 예측하도록 유도합니다.
LogitLens 활용: 각 디코더 레이어의 은닉 상태 (Hidden State) 를 최종 선형 헤드를 통해 어휘 공간으로 디코딩하여 중간 단계의 '생각 (Thoughts)'을 추출합니다.
특징 추출: S-OT, 레이어별 엔트로피, 이미지/텍스트 주의 (Attention) 값을 특징 벡터로 구성합니다.
분류기 학습: 경량 분류기 (Logistic Regression, Gradient Boosting, MLP) 를 사용하여 환각 여부를 탐지합니다.

3. 주요 기여 (Key Contributions)

새로운 현상 발견: VLM 의 환각 원인을 '최종 레이어의 오류'가 아닌, 중간 레이어에서 시작되어 전파되는 '혼란 요소 전파 (Confounder Propagation)' 로 규명했습니다.
Overthinking Score 개발: 모델이 레이어를 거치며 얼마나 많은 가설을 번갈아 고려하는지 (다양성) 와 불확실성 (엔트로피) 을 통합한 새로운 지표를 제안했습니다.
기존 방법론의 한계 극복: Attention 강도나 최종 엔트로피만으로는 탐지하기 어려운 강한 문맥적 편향 (Strong Contextual Priors) 상황에서도 높은 성능을 보임을 입증했습니다.

4. 실험 결과 (Results)

데이터셋: MSCOCO (검증용), AMBER (OOD 테스트용).
모델: LLaVA-1.5, Gemma-3, Qwen3-VL 등 다양한 VLM 에서 평가.
성능:
- MSCOCO: 평균 F1 점수 78.9% (기존 최상위 방법인 MetaToken 의 72.51% 대비 향상).
- AMBER (OOD): 평균 F1 점수 71.58% 로, 분포 외 (Out-of-Distribution) 데이터에서도 기존 방법 (SVAR, HalLoc 등) 을 압도하는 일반화 성능을 보였습니다.
비교 분석:
- 기존 방법 (SVAR, MetaToken) 은 환각과 실제 객체의 분포가 겹치는 경우가 많았으나, Overthinking Score 는 두 분포를 명확히 분리했습니다.
- 특히 SVAR 이 실패한 사례 (높은 주의를 받지만 환각인 경우) 에서 본 방법은 내부 사고 과정 (Thought Process) 을 추적하여 성공적으로 탐지했습니다.
특징 중요도: SHAP 분석 결과, Overthinking Score 가 단일 특징으로서 엔트로피나 주의 점수보다 환각 예측에 가장 큰 기여를 했습니다.

5. 의의 및 결론 (Significance & Conclusion)

이 논문은 VLM 의 환각 문제를 단순히 '출력 검증'의 문제가 아니라, 모델 내부의 사고 과정 (Reasoning Process) 의 불안정성으로 접근했습니다.

이론적 통찰: 모델이 "과도하게 생각한다 (Overthinking)"는 것은 단순히 많은 가설을 고려하는 것이 아니라, 문맥적 편향에 의해 잘못된 가설 (혼란 요소) 이 레이어를 거치며 전파되어 최종 오류로 이어지는 메커니즘임을 밝혔습니다.
실용적 가치: 외부 감시 모델 (Judge Model) 이나 계산 비용이 큰 방법을 사용하지 않고, 모델 내부의 레이어별 동역학을 분석하여 경량화된 탐지가 가능합니다.
향후 방향: 이 연구는 VLM 의 신뢰성을 높이기 위해 '최종 결과'가 아닌 '생성 과정의 흐름'을 모니터링해야 함을 시사하며, 향후 환각 완화 (Mitigation) 전략 개발을 위한 기초를 제공합니다.

요약하자면, 이 논문은 "모델이 최종 답을 내기 전에 여러 번 고민하며 (Overthinking) 문맥적 오해 (Confounder) 에 빠질 때 환각이 발생한다" 는 가설을 증명하고, 이를 측정하는 Overthinking Score를 통해 기존보다 훨씬 정확한 환각 탐지를 가능하게 했습니다.