AdaIAT: Adaptively Increasing Attention to Generated Text to Alleviate Hallucinations in LVLM

Each language version is independently generated for its own context, not a direct translation.

이 논문은 최근 화두가 되고 있는 고급 AI(시각-언어 모델) 가 겪는 '환각(Hallucination)' 문제를 해결하는 새로운 방법을 소개합니다.

AI 가 그림을 보고 설명할 때, 실제로 없는 물건을 만들어내거나 엉뚱한 이야기를 하는 현상을 **'AI 환각'**이라고 합니다. 이 논문은 이 문제를 해결하면서도 AI 가 말을 반복하거나 멍청해지는 것을 막아주는 **'AdaIAT'**라는 기술을 제안합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

🎨 비유: "눈을 크게 뜨는 것만으로는 부족해요"

지금까지 AI 가 그림을 잘못 설명하는 문제를 해결하려는 연구들은 다음과 같은 방법을 썼습니다.

기존 방법 (PAI 등): "눈을 더 크게 뜨게 하라!"
AI 가 그림을 볼 때, **그림의 픽셀 (이미지 정보)**에 주의를 더 기울이게 강제로 만들었습니다. 마치 "그림을 더 자세히 봐! 상상하지 말고 진짜로 봐!"라고 외치는 것과 같습니다.

문제점: 이렇게 하면 AI 는 그림을 잘 보게 되지만, 이전 문장을 잊어버립니다. 마치 그림을 너무 집중해서 보느라, "아까 뭐라고 했지? 아, 이 시계탑이네. 이 시계탑이네. 이 시계탑이네..."라고 같은 말을 계속 반복하게 되는 것입니다.

💡 이 논문의 핵심 발견: "이미 말한 내용을 믿어라"

연구진은 AI 가 어떻게 작동하는지 자세히 분석하다가 놀라운 사실을 발견했습니다.

진짜 물건을 설명할 때 vs. 헛소리를 할 때

진짜 물건을 설명할 때: AI 는 **이전까지 말했던 문장 (생성된 텍스트)**을 매우 잘 기억하고 참조합니다.

헛소리를 할 때: AI 는 이전 문장을 무시하고, 그림만 보다가 엉뚱한 상상을 합니다.

즉, AI 가 이미 만들어낸 문장 (텍스트) 안에는 그림에 대한 중요한 단서와 맥락이 숨어있었다는 것입니다. 그림만 보는 게 아니라, "내가 방금 뭐라고 썼지?"를 잘 기억하게 하면 오히려 더 정확한 설명을 할 수 있다는 뜻이죠.

🚀 새로운 해결책: AdaIAT (적응형 주시 강화)

이 발견을 바탕으로 연구진은 두 가지 단계로 된 기술을 개발했습니다.

1 단계: IAT (생성된 텍스트에 더 집중하기)

기존에 그림에 집중하라고 했던 방식을 뒤집어서, AI 가 이미 만들어낸 문장 (텍스트) 에 더 집중하게 합니다.

비유: 그림을 보면서도 "내가 방금 '시계탑'이라고 했잖아. 그 시계탑 주변에 뭐가 있을까?"라고 이전 대화 흐름을 기억하게 만드는 것입니다.
효과: 그림을 잘 보면서도, 같은 말을 반복하지 않고 자연스럽게 문장을 이어갈 수 있게 됩니다.

2 단계: AdaIAT (지능형 조절)

하지만 무조건 텍스트에 집중하게 하면, AI 가 원래 가진 추론 능력을 망칠 수도 있습니다. 그래서 '적응형 (Adaptive)' 기능을 추가했습니다.

층별 문턱값 (Layer-wise Threshold): AI 는 여러 개의 뇌 층 (Layer) 으로 이루어져 있습니다. AdaIAT 는 "지금 AI 가 헛소리를 하려고 하나?"를 실시간으로 감시합니다.
- 정상일 때: 간섭하지 않고 AI 가 자연스럽게 말하게 둡니다.
- 헛소리할 때: "잠깐! 지금 텍스트를 너무 무시하고 있네!"라고 깨우쳐서 텍스트에 집중하게 합니다.
부드러운 조절: 모든 뇌 세포 (Attention Head) 에 똑같이 강하게 간섭하는 게 아니라, 어떤 부분은 강하게, 어떤 부분은 약하게 조절합니다. 마치 악기를 조율하듯 AI 의 균형을 맞춰주는 것입니다.

🏆 결과는 어떨까요?

실험 결과, AdaIAT 는 다음과 같은 '완벽한 균형'을 이루었습니다.

환각 감소: AI 가 없는 물건을 만들어내는 경우가 기존 방법보다 약 35~37% 줄었습니다. (예: 시계탑 옆에 없는 '자동차'를 보지 않게 됨)
반복 제거: "시계탑, 시계탑, 시계탑" 같은 지루한 반복이 사라졌습니다.
자연스러운 언어: AI 가 원래 가지고 있던 말솜씨와 창의성은 그대로 유지되었습니다.

📝 한 줄 요약

"AI 가 그림을 볼 때, 그림만 맹신하지 말고 '내가 이미 한 말'을 잘 기억하게 도와주면, 거짓말도 줄고 반복도 사라진다!"

이 기술은 AI 가 그림을 설명할 때 **정확성 (환각 감소)**과 **자연스러움 (반복 방지)**이라는 두 마리 토끼를 모두 잡을 수 있게 해주는 획기적인 방법입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

대형 비전 - 언어 모델 (LVLMs) 은 이미지 캡셔닝, 시각적 질문 응답 등 다양한 분야에서 뛰어난 성능을 보이지만, 할루시네이션 (Hallucination, 환각) 이라는 심각한 과제를 안고 있습니다. 할루시네이션은 입력 이미지에 존재하지 않는 객체를 생성하거나 사실과 다른 내용을 서술하는 현상입니다.

기존 방법의 한계: 최근 연구들 (PAI, HGAI 등) 은 할루시네이션을 줄이기 위해 이미지 토큰 (Visual tokens) 에 대한 어텐션 가중치를 직접 증폭시키는 방법을 제안했습니다. 이는 시각 정보의 중요성을 강조하여 할루시네이션을 감소시키는 데 효과적이었습니다.
새로운 문제: 그러나 이미지 어텐션만 과도하게 증폭하면, 모델이 생성된 텍스트 (Generated Text) 에 대한 어텐션이 상대적으로 억제됩니다. 이로 인해 모델이 이전에 생성한 문맥을 잊어버리게 되어, 반복적인 설명 (Repetitive descriptions) 이 발생하고 언어적 다양성 (Linguistic diversity) 이 떨어지는 부작용이 나타납니다.

2. 핵심 통찰 및 방법론 (Methodology)

저자들은 할루시네이션의 원인을 분석하기 위해 '실제 객체'와 '할루시네이션된 객체'가 생성될 때의 어텐션 패턴을 비교 분석했습니다.

2.1. 관찰 및 통찰 (Observation)

텍스트 토큰의 중요성: 실제 객체를 생성할 때 모델은 할루시네이션된 객체를 생성할 때보다 생성된 텍스트 토큰 ( $T_p$ ) 에 대해 더 높은 어텐션을 보였습니다.
이유: 생성된 텍스트 ( $T_p$ ) 는 명령어 (Instruction) 와 관련된 시각적 정보를 포함하고 있으며, 텍스트 도메인에 속하므로 모델의 예측을 지원하는 컨텍스트 지식 역할을 합니다. 반면, 이미지 토큰 ( $V$ ) 은 명령어와 무관한 시각 정보가 포함되어 있어 도메인 격차 (Domain gap) 가 존재할 수 있습니다.
가설: 이미지 토큰이 아닌 생성된 텍스트 토큰에 대한 어텐션을 증폭하면 할루시네이션을 줄이면서도 언어적 일관성과 다양성을 유지할 수 있다.

2.2. 제안된 방법: IAT 및 AdaIAT

이러한 통찰을 바탕으로 두 가지 방법을 제안했습니다.

IAT (Increase Attention to Generated Text):
- LLM 의 중간 레이어 (Layer 5-18) 에서 생성된 텍스트 토큰 ( $T_p$ ) 에 대한 어텐션 가중치를 단순하게 증폭합니다.
- 기존 방법 (이미지 토큰 증폭) 과 달리 텍스트 토큰을 강조하여 문맥적 일관성을 유지하면서 할루시네이션을 억제합니다.
AdaIAT (Adaptive IAT):
- IAT 의 단순 증폭이 모델의 고유한 예측 능력을 방해할 수 있다는 점을 보완하기 위해 적응형 (Adaptive) 전략을 도입했습니다.
- 레이어별 임계값 (Layer-wise Threshold): 할루시네이션이 발생할 가능성이 높은 경우 (텍스트 토큰에 대한 어텐션이 임계값 $T$ 보다 낮을 때) 에만 개입을 수행합니다. 정상적인 예측 시에는 간섭을 최소화합니다.
- 적응형 증폭 크기 (Adaptive Amplification Magnitude): 모든 어텐션 헤드에 동일한 증폭 계수를 적용하는 대신, 실제 객체 생성 시와 할루시네이션 생성 시의 어텐션 비율 ( $M^{(l,h)}$ ) 을 분석하여 각 헤드의 특성에 맞는 미세한 증폭 크기를 부여합니다.

3. 주요 기여 (Key Contributions)

IAT 제안: 생성된 텍스트 토큰에 대한 어텐션을 증가시켜, 모델이 압축된 시각적 표현과 컨텍스트 지식을 활용하도록 하여 할루시네이션을 줄이고 반복적 설명을 방지합니다.
AdaIAT 제안: 개입 시점 (레이어별 임계값) 과 증폭 강도 (헤드별 적응형) 를 동적으로 조절하여, 기존 LLM 의 예측 패턴을 방해하지 않으면서 할루시네이션을 효과적으로 완화합니다.
성능 입증: 다양한 LVLM(LLaVA-1.5, Janus-Pro, Qwen2.5-VL) 에서 할루시네이션율 (CHAIR) 을 크게 낮추면서도 언어적 다양성 (Distinct-1) 과 예측 정확도 (F1) 를 유지하는 최적의 균형을 달성했습니다.

4. 실험 결과 (Results)

실험은 LLaVA-1.5-7B, 13B, Janus-Pro-7B, Qwen2.5-VL-7B 등 여러 모델에서 수행되었습니다.

할루시네이션 감소: LLaVA-1.5-7B 에서 AdaIAT 는 CHAIRS(CS) 를 35.8%, CHAIRI(CI) 를 37.1% 감소시켰습니다.
언어적 다양성 유지: 기존 방법 (PAI, HGAI) 은 할루시네이션을 줄이는 대신 텍스트 다양성 (Distinct-1, D1) 이 약 15% 감소하는 반면, AdaIAT 는 Greedy 디코딩과 유사한 D1 점수 (약 0.60) 를 유지했습니다.
예측 능력 향상: AdaIAT 는 IAT 보다 F1 점수가 2.6 포인트 더 높았으며, 다른 방법들보다 객체 인식의 정확도와 풍부함이 뛰어났습니다.
다양한 벤치마크: OpenCHAIR, HalluBench, IIW-400 등 다양한 평가 지표에서 할루시네이션 감소와 텍스트 품질 (BertScore, Self-BLEU) 유지 측면에서 SOTA 성능을 보였습니다.

5. 의의 및 결론 (Significance)

이 논문은 LVLM 의 할루시네이션 문제를 해결하기 위해 시각 정보 (이미지) 에만 집중하는 기존 패러다임을 전환했습니다. 대신 생성된 텍스트 자체에 내재된 시각적 정보와 컨텍스트를 활용하여 할루시네이션을 교정하는 새로운 접근법을 제시했습니다.

기술적 의의: 단순한 어텐션 증폭을 넘어, 적응형 (Adaptive) 메커니즘을 통해 모델의 자연스러운 추론 과정을 해치지 않으면서 정밀하게 개입하는 방법을 제시했습니다.
실용적 가치: 할루시네이션을 줄이면서도 생성된 텍스트의 자연스러움과 다양성을 보존하여, LVLM 의 실제 응용 (예: 의료, 자율주행, 콘텐츠 생성) 에 대한 신뢰성을 크게 향상시킬 수 있습니다.

결론적으로, AdaIAT 는 할루시네이션 감소와 언어적 성능 유지 사이의 매력적인 트레이드오프 (Trade-off) 를 달성한 효과적인 솔루션입니다.