Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation

이 논문은 교차 이미지 어텐션 보정과 선호도 학습 (CAPL) 을 도입하여 다중 이미지 작업에서 발생하는 환각 현상을 완화하고, 모델이 실제 시각적 증거에 기반한 정확한 추론을 하도록 돕는 새로운 프레임워크를 제안합니다.

Xiaochen Yang, Hao Fang, Jiawei Kong, Yaoxin Mao, Bin Chen, Shu-Tao Xia

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"여러 장의 사진을 동시에 볼 때, AI 가 헛소리를 하는 문제 (할루시네이션) 를 해결하는 방법"**에 대해 다룹니다.

기존의 거대 AI 모델들은 사진을 하나씩 볼 때는 잘하지만, 두 장 이상의 사진을 비교하거나 연결해서 생각할 때 "아, 이 사진의 개가 저 사진의 고양이랑 친구구나!"라고 엉뚱한 이야기를 지어내는 경우가 많았습니다. 이 논문은 그 원인을 **"사진들 사이의 소통이 제대로 안 되기 때문"**이라고 분석하고, 이를 해결하기 위한 CAPL이라는 새로운 기술을 제안합니다.

이 기술을 쉽게 이해할 수 있도록 세 가지 핵심 비유로 설명해 드리겠습니다.


1. 문제의 원인: "일방통행 도로"와 "편향된 기억"

기존 AI 모델이 여러 장의 사진을 볼 때의 방식은 마치 일방통행 도로를 달리는 것과 같습니다.

  • 상황: AI 가 사진 A, B, C 를 순서대로 봅니다.
  • 문제: 사진 B 는 사진 A 를 볼 수 있지만, 사진 A 는 나중에 온 사진 B 를 볼 수 없습니다. 마치 "앞사람은 뒷사람을 볼 수 있지만, 뒷사람은 앞사람을 못 보는" 상황입니다.
  • 결과: AI 는 사진들 사이의 진짜 관계를 찾기보다, **"글자 (텍스트) 의 흐름"**이나 **"기존에 알고 있는 상식"**에만 의존해서 답을 지어냅니다.
    • 예시: "사진 1 에는 개가 있고, 사진 2 에는 공이 있다"고 했을 때, AI 는 두 사진을 서로 비교해서 "개와 공이 놀고 있네!"라고 추론하기보다, "개는 공을 좋아하니까"라는 텍스트 상식만 믿고 엉뚱한 결론을 내립니다.

2. 해결책 1: "양방향 소통 도로" (Cross-Image Attention)

저자들은 이 문제를 해결하기 위해 **모든 사진이 서로 자유롭게 대화할 수 있는 '양방향 도로'**를 만들었습니다.

  • 비유: 이전에는 사진들이 줄지어 서서 앞사람만 바라봤다면, 이제는 모두가 서로 눈을 마주치고 대화할 수 있게 만든 것입니다.
  • 작동 원리: 하지만 모든 정보가 다 섞이면 소음이 생길 수 있으니, AI 는 **"가장 중요한 핵심 인물 (키 토큰)"**만 골라서 서로 대화하게 합니다.
    • 예시: 사진 1 의 '개'와 사진 2 의 '공'이 서로를 직접 보고 "너 나랑 놀자!"라고 대화하게 하면, AI 는 텍스트 상식이 아니라 진짜 시각적 증거를 바탕으로 정확한 관계를 파악하게 됩니다.

3. 해결책 2: "의도적인 실수 훈련" (Attentive Preference Learning)

단순히 소통을 잘하게 하는 것만으로는 부족합니다. AI 가 실수하는 습관을 고쳐야 하니까요. 저자들은 AI 를 훈련시킬 때 의도적으로 실수를 하게 만드는 '악마의 변호인' 역할을 시켰습니다.

  • 비유:
    1. 선생님 (옳은 답): AI 에게 "사진 A 와 B 를 서로 잘 연결해서 봐"라고 가르쳐서 정답을 내게 합니다.
    2. 악마 (틀린 답): AI 에게 "이제 사진 A 와 B 사이의 연결고리를 모두 끊어버려. 오직 사진 하나만 보고, 네가 아는 상식만으로 답을 내봐"라고 시킵니다.
      • 연결고리가 끊어지면 AI 는 두 사진을 비교할 수 없게 되어, 엉뚱한 상식 (할루시네이션) 을 바탕으로 틀린 답을 내게 됩니다.
  • 훈련 과정: AI 는 "정답 (선생님)"과 "틀린 답 (악마)"을 비교하며 **"아, 내가 연결고리를 끊고 상식만 믿었을 때 엉뚱한 소리를 했구나! 진짜 사진을 비교해서 답해야겠다"**라고 스스로 학습하게 됩니다. 이를 통해 AI 는 헛소리를 하는 습관을 버리고, 진짜 시각적 증거에 기반한 답을 내놓는 법을 배웁니다.

요약: 이 기술이 가져온 변화

CAPL 기술을 적용한 결과, AI 는 다음과 같은 변화를 겪었습니다:

  1. 여러 장의 사진 비교: 두 장 이상의 사진을 비교할 때, "이건 저건과 다르다"거나 "이건 저건과 연결된다"는 것을 훨씬 정확하게 파악하게 되었습니다.
  2. 할루시네이션 감소: "없는 물건을 있는 것처럼" 말하거나 "틀린 관계를 맺는" 실수가 크게 줄었습니다.
  3. 기존 능력 유지: 여러 장의 사진을 잘 보게 되었지만, 단 한 장의 사진을 볼 때의 능력은 오히려 더 좋아지거나 유지되었습니다. (새로운 기술을 배웠다고 해서 기존 실력이 사라지지 않음)

결론

이 논문은 AI 가 여러 장의 사진을 볼 때 **"서로 대화하게 하고 (Attention)", "실수를 의도적으로 만들어서 고치게 함 (Preference Learning)"**으로써, AI 가 더 똑똑하고 신뢰할 수 있는 눈 (Vision) 을 갖게 만들었습니다. 마치 학생들이 시험을 볼 때, 단순히 암기만 하는 게 아니라 서로의 답안을 비교하고, 틀린 답을 분석하며 진짜 원리를 깨우치는 것과 같습니다.