Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"여러 장의 사진을 동시에 볼 때, AI 가 헛소리를 하는 문제 (할루시네이션) 를 해결하는 방법"**에 대해 다룹니다.

기존의 거대 AI 모델들은 사진을 하나씩 볼 때는 잘하지만, 두 장 이상의 사진을 비교하거나 연결해서 생각할 때 "아, 이 사진의 개가 저 사진의 고양이랑 친구구나!"라고 엉뚱한 이야기를 지어내는 경우가 많았습니다. 이 논문은 그 원인을 **"사진들 사이의 소통이 제대로 안 되기 때문"**이라고 분석하고, 이를 해결하기 위한 CAPL이라는 새로운 기술을 제안합니다.

이 기술을 쉽게 이해할 수 있도록 세 가지 핵심 비유로 설명해 드리겠습니다.

1. 문제의 원인: "일방통행 도로"와 "편향된 기억"

기존 AI 모델이 여러 장의 사진을 볼 때의 방식은 마치 일방통행 도로를 달리는 것과 같습니다.

상황: AI 가 사진 A, B, C 를 순서대로 봅니다.
문제: 사진 B 는 사진 A 를 볼 수 있지만, 사진 A 는 나중에 온 사진 B 를 볼 수 없습니다. 마치 "앞사람은 뒷사람을 볼 수 있지만, 뒷사람은 앞사람을 못 보는" 상황입니다.
결과: AI 는 사진들 사이의 진짜 관계를 찾기보다, **"글자 (텍스트) 의 흐름"**이나 **"기존에 알고 있는 상식"**에만 의존해서 답을 지어냅니다.
- 예시: "사진 1 에는 개가 있고, 사진 2 에는 공이 있다"고 했을 때, AI 는 두 사진을 서로 비교해서 "개와 공이 놀고 있네!"라고 추론하기보다, "개는 공을 좋아하니까"라는 텍스트 상식만 믿고 엉뚱한 결론을 내립니다.

2. 해결책 1: "양방향 소통 도로" (Cross-Image Attention)

저자들은 이 문제를 해결하기 위해 **모든 사진이 서로 자유롭게 대화할 수 있는 '양방향 도로'**를 만들었습니다.

비유: 이전에는 사진들이 줄지어 서서 앞사람만 바라봤다면, 이제는 모두가 서로 눈을 마주치고 대화할 수 있게 만든 것입니다.
작동 원리: 하지만 모든 정보가 다 섞이면 소음이 생길 수 있으니, AI 는 **"가장 중요한 핵심 인물 (키 토큰)"**만 골라서 서로 대화하게 합니다.
- 예시: 사진 1 의 '개'와 사진 2 의 '공'이 서로를 직접 보고 "너 나랑 놀자!"라고 대화하게 하면, AI 는 텍스트 상식이 아니라 진짜 시각적 증거를 바탕으로 정확한 관계를 파악하게 됩니다.

3. 해결책 2: "의도적인 실수 훈련" (Attentive Preference Learning)

단순히 소통을 잘하게 하는 것만으로는 부족합니다. AI 가 실수하는 습관을 고쳐야 하니까요. 저자들은 AI 를 훈련시킬 때 의도적으로 실수를 하게 만드는 '악마의 변호인' 역할을 시켰습니다.

비유:
1. 선생님 (옳은 답): AI 에게 "사진 A 와 B 를 서로 잘 연결해서 봐"라고 가르쳐서 정답을 내게 합니다.
2. 악마 (틀린 답): AI 에게 "이제 사진 A 와 B 사이의 연결고리를 모두 끊어버려. 오직 사진 하나만 보고, 네가 아는 상식만으로 답을 내봐"라고 시킵니다.
  - 연결고리가 끊어지면 AI 는 두 사진을 비교할 수 없게 되어, 엉뚱한 상식 (할루시네이션) 을 바탕으로 틀린 답을 내게 됩니다.
훈련 과정: AI 는 "정답 (선생님)"과 "틀린 답 (악마)"을 비교하며 **"아, 내가 연결고리를 끊고 상식만 믿었을 때 엉뚱한 소리를 했구나! 진짜 사진을 비교해서 답해야겠다"**라고 스스로 학습하게 됩니다. 이를 통해 AI 는 헛소리를 하는 습관을 버리고, 진짜 시각적 증거에 기반한 답을 내놓는 법을 배웁니다.

요약: 이 기술이 가져온 변화

이 CAPL 기술을 적용한 결과, AI 는 다음과 같은 변화를 겪었습니다:

여러 장의 사진 비교: 두 장 이상의 사진을 비교할 때, "이건 저건과 다르다"거나 "이건 저건과 연결된다"는 것을 훨씬 정확하게 파악하게 되었습니다.
할루시네이션 감소: "없는 물건을 있는 것처럼" 말하거나 "틀린 관계를 맺는" 실수가 크게 줄었습니다.
기존 능력 유지: 여러 장의 사진을 잘 보게 되었지만, 단 한 장의 사진을 볼 때의 능력은 오히려 더 좋아지거나 유지되었습니다. (새로운 기술을 배웠다고 해서 기존 실력이 사라지지 않음)

결론

이 논문은 AI 가 여러 장의 사진을 볼 때 **"서로 대화하게 하고 (Attention)", "실수를 의도적으로 만들어서 고치게 함 (Preference Learning)"**으로써, AI 가 더 똑똑하고 신뢰할 수 있는 눈 (Vision) 을 갖게 만들었습니다. 마치 학생들이 시험을 볼 때, 단순히 암기만 하는 게 아니라 서로의 답안을 비교하고, 틀린 답을 분석하며 진짜 원리를 깨우치는 것과 같습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

대형 비전 - 언어 모델 (LVLM) 은 단일 이미지 작업에서 뛰어난 성능을 보이지만, 다중 이미지 (Multi-Image) 작업에서는 심각한 할루시네이션 (Hallucination) 문제가 발생합니다. 이는 모델이 여러 이미지 간의 관계를 잘못 이해하거나, 실제 시각적 증거 없이 텍스트 사전 지식 (Language Priors) 에 의존하여 사실과 다른 답변을 생성하는 현상입니다.

기존 연구들은 주로 단일 이미지 할루시네이션 해결에 집중하거나, 디코딩 전략 수정에 그쳤습니다. 다중 이미지 문제를 다루는 기존 방법들은 다음과 같은 한계가 있습니다:

비대칭적 정보 흐름: 기존 Transformer 기반의 LVLM 은 인과적 주의 (Causal Attention) 메커니즘을 사용합니다. 이는 후속 이미지가 이전 이미지를 참조할 수는 있지만, 이전 이미지가 후속 이미지를 참조할 수 없게 만들어 **위치 편향 (Position Bias)**을 유발합니다.
불충분한 상호작용: 이미지 간의 대칭적이고 안정적인 관계 모델링이 부족하여, 모델이 이미지 간의 진정한 시각적 연관성보다는 텍스트 토큰 간의 표면적인 상관관계에 의존하게 됩니다.
훈련 데이터의 한계: 기존 선호도 학습 (Preference Learning) 방법들은 모델의 내재된 할루시네이션 패턴을 효과적으로 억제하거나, 의도적으로 할루시네이션을 유발하는 부정적 (Negative) 샘플을 생성하는 데 어려움을 겪었습니다.

2. 제안 방법 (Methodology: CAPL)

저자들은 **CAPL (Cross-Image Attention calibration and Attentive Preference Learning)**이라는 새로운 프레임워크를 제안합니다. 이는 구조적 주의 메커니즘 수정과 선호도 학습을 결합한 접근법입니다.

A. 선택적 교차 이미지 토큰 상호작용 (Selective Cross-Image Token Interaction)

목표: 인과적 주의의 비대칭성을 해소하고 이미지 간 양방향 정보 흐름을 확립합니다.
메커니즘:
1. 교차 이미지 마스크 (Cross-Image Mask): 서로 다른 이미지에 속한 토큰 간의 인과적 제약을 제거하여 양방향 주의 (Bidirectional Attention) 를 허용합니다. 각 이미지 내부에서는 기존 인과적 구조를 유지합니다.
2. 핵심 토큰 선택 (Key-Token Selection): 모든 토큰 간의 상호작용은 노이즈를 유발할 수 있으므로, 임베딩 에너지 (Embedding Energy, $\|\mathbf{h}\|_2$ ) 를 기반으로 상위 $\rho$ 비율의 '핵심 토큰'만 선택하여 교차 이미지 상호작용을 수행합니다.
3. 혼합 주의 (Fused Attention): 추론 시에는 선택적 교차 이미지 주의와 원본 인과적 주의의 가중 평균을 사용하여, 다중 이미지 관계 모델링과 단일 이미지/시간적 의존성 유지 사이의 균형을 맞춥니다.
4. 레이어 교차 전략: 디코더 레이어의 홀수 층에는 교차 이미지 마스크를, 짝수 층에는 인과적 마스크를 적용하여 계층적 안정성을 확보합니다.

B. 주의 기반 선호도 학습 (Attentive Preference Learning via DPO)

목표: 모델이 교차 이미지 정보를 기반으로 한 정확한 추론을 선호하도록 학습시킵니다.
긍정적 샘플 (Positive Samples): 제안된 '선택적 교차 이미지 주의' 메커니즘을 사용하여 생성된 답변을 기반으로, 고급 모델 (Qwen3) 의 피드백을 통해 정답을 보정합니다.
부정적 샘플 (Negative Samples) 의 혁신적 생성:
- 기존 방법의 한계를 극복하기 위해, **교차 이미지 주의 연결을 완전히 차단 (Truncation)**하는 방식을 사용합니다.
- 이 경우 모델은 이미지 간 정보를 전혀 공유할 수 없게 되어, 오직 개별 이미지와 텍스트 사전 지식에만 의존하게 됩니다. 이는 모델이 할루시네이션을 일으키기 쉬운 조건을 인위적으로 조성하여, 모델이 가진 내재적 오류 추론 패턴을 노출시킵니다.
학습 목표 (DPO + NLL):
- DPO (Direct Preference Optimization): 교차 이미지 주의가 적용된 긍정적 샘플과 차단된 부정적 샘플 간의 선호도를 최적화하여, 모델이 시각적 증거에 기반한 추론을 선호하도록 유도합니다.
- NLL Loss: 긍정적 샘플의 토큰 생성 궤적을 모방하도록 추가 손실 함수를 적용하여, 선호도 학습만으로는 부족할 수 있는 구조적 추론 과정을 내재화합니다.

3. 주요 기여 (Key Contributions)

할루시네이션의 구조적 원인 규명: 다중 이미지 추론에서 시각적 정보 흐름의 불균형과 교차 이미지 의미 연관성의 부족이 할루시네이션의 핵심 원인임을 분석했습니다.
CAPL 프레임워크 제안: 선택적 교차 이미지 주의 메커니즘과 대비적 선호도 학습을 통합하여, 모델이 이미지 간 상호작용을 더 잘 인식하고 활용하도록 설계했습니다.
효율적인 부정적 샘플 생성 전략: 주의 연결을 차단하여 할루시네이션을 유발하는 '차단된 주의 (Truncated Attention)' 기반 부정적 샘플을 생성함으로써, DPO 학습의 효율성을 극대화했습니다.
광범위한 실험 검증: 다양한 최신 LVLM 아키텍처 (Qwen, InternVL, GLM 등) 에서 다중 이미지 할루시네이션 감소와 일반적 추론 능력 향상을 입증했습니다.

4. 실험 결과 (Results)

다중 이미지 할루시네이션 벤치마크 (BLINK, MUIRBench):
- CAPL 을 적용한 모델들은 모든 베이스 모델 (Qwen2.5-VL, InternVL2.5, GLM4.1VBase) 에서 일관된 성능 향상을 보였습니다.
- 특히 복잡한 교차 이미지 관계 추론이 필요한 MUIRBench 에서 최대 3.5 점 이상의 큰 향상을 기록했습니다.
일반 다중 이미지 작업 (NLVR2, QBench2 등):
- 할루시네이션 감소를 목표로 했지만, 시각적 증거에 대한 의존도가 높아짐에 따라 일반 추론 능력도 안정적이거나 소폭 향상되었습니다.
단일 이미지 작업 (POPE, CHAIR 등):
- 다중 이미지 데이터로만 훈련되었음에도 불구하고, 단일 이미지 작업에서도 성능이 유지되거나 오히려 향상되었습니다 (예: Qwen2.5-VL 의 POPE 점수 상승). 이는 모델의 일반화 능력과 할루시네이션 억제 효과가 단일 이미지에도 전이됨을 의미합니다.
Ablation Study:
- 교차 이미지 주의만 추가하는 것 (+Attn) 은 일정한 개선을 보였으나, 선호도 학습 (DPO) 과 결합했을 때 성능이 크게 향상되었습니다.
- '차단된 주의'로 생성된 부정적 샘플이 기존 모델이 생성한 부정적 샘플보다 더 낮은 정확도 (더 어려운 오류) 를 보였으며, 이는 DPO 학습에 더 강력한 신호를 제공했습니다.

5. 의의 및 결론 (Significance)

이 논문은 다중 이미지 LVLM 의 할루시네이션 문제를 해결하기 위해 구조적 주의 메커니즘의 재설계와 데이터 중심의 선호도 학습을 효과적으로 결합한 사례입니다. 특히, 모델의 약점 (할루시네이션) 을 의도적으로 유발하는 부정적 샘플을 생성하여 학습시키는 전략은 향후 다중 모달 모델의 신뢰성 향상을 위한 중요한 방향성을 제시합니다. CAPL 은 복잡한 다중 이미지 시나리오에서 모델이 시각적 사실에 기반한 정확한 추론을 수행할 수 있도록 하며, 단일 이미지 작업의 성능을 저해하지 않는 강력한 일반화 능력을 입증했습니다.

Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation

1. 문제의 원인: "일방통행 도로"와 "편향된 기억"

2. 해결책 1: "양방향 소통 도로" (Cross-Image Attention)

3. 해결책 2: "의도적인 실수 훈련" (Attentive Preference Learning)

요약: 이 기술이 가져온 변화

결론

1. 문제 정의 (Problem Definition)

2. 제안 방법 (Methodology: CAPL)

A. 선택적 교차 이미지 토큰 상호작용 (Selective Cross-Image Token Interaction)

B. 주의 기반 선호도 학습 (Attentive Preference Learning via DPO)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers