Text-Guided Layer Fusion Mitigates Hallucination in Multimodal LLMs

Each language version is independently generated for its own context, not a direct translation.

🎨 비유: "사진을 보는 AI 의 눈과 귀"

생각해 보세요. AI 는 **사진 (시각)**을 보고 **질문 (텍스트)**을 받으면 대답을 합니다. 기존 AI 는 사진을 볼 때, 마치 노인 안경을 쓴 사람처럼 사진의 '전체적인 분위기'나 '큰 의미'만 보았습니다. (예: "저기 사람이 있네"라고만 알지, "저 사람이 들고 있는 컵이 깨져 있네"는 못 봅니다.)

하지만 문제는, AI 가 **의미 (언어)**만 너무 많이 믿고, **눈 (사진)**을 제대로 보지 않을 때 발생합니다.

상황: 사진에 '컵'이 없습니다.
기존 AI 의 생각: "사람들이 컵을 들고 있는 사진을 많이 봤으니, 여기에도 컵이 있겠지?"라고 추측하다가 **"네, 컵이 있습니다!"**라고 거짓말을 합니다. (이게 바로 할루시네이션입니다.)

🔍 이 논문이 발견한 비밀: "사진의 깊이에 따라 답이 달라진다"

연구진은 AI 가 사진을 볼 때, 어느 단계의 정보를 보는지가 중요하다는 것을 발견했습니다.

얕은 층 (Shallow Layer): 사진의 세부 묘사 (모서리, 선, 작은 글자) 를 잘 봅니다. 하지만 "이게 뭐지?"라는 큰 의미는 못 알아봅니다.
깊은 층 (Deep Layer): 사진의 큰 의미 (사람, 동물, 분위기) 를 잘 이해합니다. 하지만 세부적인 건 놓치기 쉽습니다.

기존의 문제점:
기존 AI 는 무조건 **가장 깊은 층 (큰 의미)**만 보게 했습니다. 그래서 "컵이 있을 것 같아"라는 언어적 추측에 휩쓸려, 실제로는 없는 컵을 보고도 "있다"라고 거짓말을 하는 것입니다.

💡 해결책: "TGIF (텍스트가 지시하는 레이어 융합)"

이 논문이 제안한 TGIF는 마치 현명한 통역사와 같습니다.

기존 방식: 질문을 받으면 무조건 "의미 해석 전문가 (깊은 층)"만 불러서 대답하게 했습니다.
TGIF 방식: 질문을 받으면 질문의 내용을 먼저 분석합니다.
- "이 사진에 컵이 있나요?" (세부 확인 필요) → **"세부 묘사 전문가 (얕은 층)"**을 불러서 정밀하게 확인하게 합니다.
- "이 사진의 분위기는 어때요?" (전체 이해 필요) → **"의미 해석 전문가 (깊은 층)"**를 불러서 대답하게 합니다.

즉, 질문 (텍스트) 에 따라 AI 가 사진을 보는 '초점'을 자동으로 조절하는 것입니다.

🚀 왜 이것이 중요한가요?

거짓말을 줄여줍니다: "컵이 있나요?"라고 물었을 때, AI 가 "있을 것 같아"라고 추측하지 않고, 실제로 컵이 있는지 세부적으로 확인하게 하므로 거짓말을 하지 않습니다.
세부 정보도 잘 봅니다: 사진 속의 작은 글자 (OCR) 나 복잡한 디테일을 읽는 능력도 크게 향상됩니다.
무겁지 않습니다: AI 의 두뇌 (모델) 를 완전히 새로 만드는 게 아니라, 질문을 분석하는 작은 스위치만 추가해서 작동하므로 속도가 느려지거나 비용이 많이 들지 않습니다.

📝 한 줄 요약

"AI 가 사진을 볼 때, 질문의 종류에 따라 '세부 묘사'를 보는 눈과 '큰 의미'를 보는 눈 사이를 자동으로 오가게 만들어, AI 가 상상해서 거짓말을 하는 것을 막은 기술입니다."

이 기술은 AI 가 더 신뢰할 수 있고, 정확한 눈으로 세상을 볼 수 있게 해주는 중요한 한 걸음입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

할루시네이션의 원인: MLLM 은 종종 이미지의 실제 내용과 일치하지 않지만 언어적 선입견 (Language Priors) 에 기반하여 확신에 찬 답변을 생성합니다.
기존 방법의 한계:
- 기존 MLLM 은 비전 인코더 (Vision Transformer, ViT) 의 단일 고정된 레이어 (보통 마지막 단계의 추상화된 특징) 만 LLM 에 전달합니다.
- 그러나 ViT 의 각 레이어는 서로 다른 수준의 시각적 정보 (초기 레이어는 질감과 공간적 세부사항, 깊은 레이어는 전역적 의미) 를 담고 있습니다.
- 고정된 단일 레이어를 사용하면 세부 사항이 필요한 작업에서는 정보가 부족하고, 언어적 편향이 강한 상황에서는 잘못된 추론을 할 수 있습니다.
- 기존 완화 방법들은 주로 디코딩 단계 (Decoding time) 에서 개입하거나 추가 학습을 요구하며, 시각적 표현 자체의 선택 방식을 동적으로 조절하지는 못합니다.

2. 방법론 (Methodology: TGIF)

저자들은 TGIF (Text-Guided Inter-layer Fusion) 라는 경량화된 아키텍처 모듈을 제안합니다. 이는 비전 인코더를 수정하거나 토큰 수를 늘리지 않고, 입력 텍스트에 따라 ViT 의 여러 레이어에서 시각적 특징을 동적으로 재가중치 (Reweighting) 하여 융합합니다.

핵심 아이디어: 비전 인코더의 모든 레이어를 "전문가 (Experts)" 풀로 간주하고, 입력된 텍스트 질문 (Prompt) 에 따라 가장 적합한 레이어 조합을 동적으로 선택합니다.
주요 구성 요소:
1. 레이어 라우터 (Layer Router):
  - 텍스트 기반 라우터: 질문의 의미 임베딩 (ftext) 만을 사용하여 각 ViT 레이어의 중요도 점수 (가중치) 를 예측합니다.
  - 멀티모달 라우터: 질문과 이미지 전역 특징 (fimage, [CLS] 토큰) 을 모두 입력받아 라우팅을 수행합니다.
  - MLP 와 Softmax 를 통해 각 레이어의 가중치 분포 (w) 를 생성합니다.
2. 동적 융합 (Dynamic Fusion): 생성된 가중치를 사용하여 모든 레이어의 시각적 특징 (Fl) 을 가중 합산하여 최종 융합된 시각 표현 (Ffused) 을 만듭니다.
  - 공식: $F_{fused} = \sum_{l=1}^{L} w_l \cdot F_l$
3. 로드 밸런싱 손실 (Load Balancing Loss):
  - 라우터가 특정 레이어만 계속 선택하는 "전문가 기아 (Expert Starvation)" 현상을 방지하기 위해 엔트로피 기반의 보조 손실 함수를 도입합니다.
  - 사전 학습 (Pretraining) 단계에서는 다양한 레이어 탐색을 장려하기 위해 가중치 ( $\lambda$ ) 를 높게, 파인튜닝 (Fine-tuning) 단계에서는 질문 의존적 선택을 위해 낮게 설정합니다.

3. 주요 기여 (Key Contributions)

한계 규명: 현재 MLLM 이 단일 후기 (Late) 레이어 시각 토큰에 의존하는 것이 세부 사항 기반의 정밀한 그라운딩 (Grounding) 에 부적합하며, 할루시네이션을 악화시킨다는 점을 규명했습니다.
TGIF 제안: 파라미터와 토큰 효율성을 유지하면서, 질의 (Query) 에 따라 CLIP 레이어를 동적으로 재가중치하는 경량 모듈을 제안했습니다.
성능 입증: 할루시네이션, OCR, 일반 VQA 벤치마크에서 TGIF 가 기존 방법들보다 우수한 성능을 보이며, 시각적 그라운딩을 강화하면서도 추론 능력을 유지함을 입증했습니다.

4. 실험 결과 (Results)

LLaVA-1.5 를 기반으로 TGIF 를 적용하여 다양한 벤치마크에서 평가했습니다.

할루시네이션 완화:
- POPE: 정확도 (87.91%) 와 F1 점수 (86.23%) 에서 기존 LLaVA-1.5 와 디코딩 기반 완화 방법 (VCD, OPERA 등) 을 모두 상회했습니다.
- HallusionBench: 전체 정확도 (All Accuracy) 가 49.94% 로, 13B 파라미터 모델인 LLaVA-1.5(46.94%) 보다 3% 이상 향상되었습니다.
세부 인식 (Fine-grained Perception):
- OCRBench & TextVQA: 텍스트 인식 및 세부 사항 추론 능력이 크게 개선되었습니다. 특히 문서 VQA 와 장면 텍스트 인식에서 점수가 상승했습니다. 이는 TGIF 가 텍스트와 경계선 같은 저/중간 레벨 레이어 특징을 효과적으로 활용하기 때문입니다.
일반 추론 능력 유지:
- ScienceQA, GQA, MMBench 등 일반 추론 벤치마크에서도 경쟁력 있는 성능을 유지하며, 시각적 그라운딩 강화가 전체 추론 능력을 저하시키지 않음을 보였습니다.
동적 라우팅 분석:
- 일반 질문: 전역적 이해를 위해 중간~깊은 레이어를 주로 선택.
- 할루시네이션 감지 질문: 공간적/경계 정보를 위해 초기 레이어를 강조.
- OCR/세부 질문: 텍스트 획과 구조적 세부사항을 포함하는 중간~후기 레이어에 집중.
- 이는 TGIF 가 고정된 융합이 아닌, 질문의 의도에 맞는 시각적 전문가를 선택함을 보여줍니다.
오버헤드: 파라미터 증가량은 0.03% 미만이었고, 추론 지연 시간과 GPU 메모리 사용량은 거의 변하지 않았습니다.

5. 의의 및 결론 (Significance)

패러다임 전환: 할루시네이션 문제를 해결하기 위해 단순히 텍스트 생성 과정을 제어하거나 추가 학습을 하는 것이 아니라, 시각적 표현의 깊이 (Depth) 를 동적으로 조절하는 새로운 접근법을 제시했습니다.
효율성: 비전 인코더를 재학습하거나 토큰 수를 늘리지 않고, 기존 모델 위에 경량 모듈을 추가하여 높은 효과를 얻었습니다.
신뢰성 있는 MLLM: 시각적 사실성과 언어적 추론 사이의 균형을 맞추어, 더 신뢰할 수 있고 신뢰성 있는 멀티모달 모델을 구축하는 데 중요한 방향성을 제시합니다.

요약하자면, TGIF 는 **"질문에 따라 어떤 시각적 정보의 수준 (세부적 vs 추상적) 을 LLM 에 보여줄지 동적으로 결정한다"**는 아이디어를 통해 MLLM 의 할루시네이션을 효과적으로 줄이고 세부 인식 능력을 향상시킨 획기적인 방법론입니다.

Text-Guided Layer Fusion Mitigates Hallucination in Multimodal LLMs

🎨 비유: "사진을 보는 AI 의 눈과 귀"

🔍 이 논문이 발견한 비밀: "사진의 깊이에 따라 답이 달라진다"

💡 해결책: "TGIF (텍스트가 지시하는 레이어 융합)"

🚀 왜 이것이 중요한가요?

📝 한 줄 요약

1. 문제 정의 (Problem)

2. 방법론 (Methodology: TGIF)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks