MAP: Mitigating Hallucinations in Large Vision-Language Models with Map-Level Attention Processing

이 논문은 LVLM 의 숨겨진 상태를 2D 의미 지도로 해석하여 층 간 및 층 내 차원의 토큰을 집계하는 '크리스 크로스 어텐션'과 '글로벌 - 로컬 로그릿 퓨전'을 도입한 훈련 없는 MAP 기법을 제안함으로써, 기존 방법보다 광범위하게 분포된 사실 정보를 활용하여 시각 - 언어 모델의 환각 현상을 효과적으로 완화합니다.

Chenxi Li, Yichen Guo, Benfang Qian, Jinhao You, Kai Tang, Yaosong Du, Zonghao Zhang, Xiande Huang

게시일 2026-03-09
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 그림을 보고 말하기: AI 가 꾸며낸 이야기를 막는 새로운 방법 (MAP)

최근 AI 는 그림을 보고 그 내용을 설명하거나 질문에 답하는 능력이 매우 뛰어나졌습니다. 하지만 이 AI 들은 가끔 눈을 감고 상상하는 것처럼, 실제로 그림에 없는 물건을 말하거나 잘못된 정보를 지어내는 '환각 (Hallucination)' 현상을 보입니다.

이 논문은 이 문제를 해결하기 위해 MAP이라는 새로운 방법을 제안합니다. 마치 AI 의 머릿속을 지도로 펼쳐서, 숨겨진 진실의 조각들을 찾아내는 방식이죠.


1. 기존 방식의 문제: "단일한 길만 보던 AI"

기존의 연구자들은 AI 가 그림을 볼 때 머릿속에서 일어나는 일을 1 차원적인 줄로만 보았습니다.

  • 층 (Layer) 만 보는 경우: "이 층의 정보가 중요해!"라고만 생각했습니다.
  • 위치 (Position) 만 보는 경우: "이 단어가 중요해!"라고만 생각했습니다.

이는 마치 어두운 방에서 손전등 하나로만 벽의 한 점만 비추며 방 전체를 탐색하는 것과 같습니다. 중요한 정보가 손전등 불빛 바깥에 숨어있다면, AI 는 그걸 놓치고 엉뚱한 이야기를 지어내게 됩니다.

2. MAP 의 핵심 아이디어: "2 차원 지도로 넓게 보기"

이 논문은 AI 의 머릿속 정보를 1 차원의 줄이 아니라, **2 차원의 거대한 지도 (Semantic Map)**로 바라봅니다.

  • 가로축: 단어의 위치 (시간 순서)
  • 세로축: AI 의 깊이 있는 사고 단계 (층)

연구자들은 이 지도를 자세히 살펴보니, 진실된 정보 (예: '침대'라는 단어) 가 한곳에 모여 있는 게 아니라, 지도 전체에 흩어져 퍼져있다는 것을 발견했습니다. 마치 보물 지도에 보물이 한곳에 박혀있는 게 아니라, 지도 전체에 작은 보석들이 박혀있는 것과 비슷합니다.

3. MAP 가 작동하는 원리: "크로스-크로스 (Criss-Cross) 탐험"

이 새로운 방법인 MAP은 두 가지 주요 전략을 사용합니다.

🕸️ 전략 1: 크로스-크로스 주의 (Layer-Wise Criss-Cross Attention)

AI 가 그림을 설명할 때, 현재 보고 있는 단어뿐만 아니라 지도의 가로와 세로 방향을 모두 훑어보게 합니다.

  • 비유: AI 가 "이건 침대야"라고 말하려고 할 때, 단순히 앞뒤 단어만 보는 게 아니라, **이전 단계의 생각 (세로)**과 **다른 위치의 정보 (가로)**를 모두 모아서 "아, 정말 침대가 있구나!"라고 확신하게 만드는 것입니다.
  • 효과: AI 는 흩어져 있던 진실의 조각들을 모아, 거짓말을 하려는 충동을 억제합니다.

🧩 전략 2: 글로벌 & 로컬 융합 (Global-Local Logit Fusion)

최종 답변을 내기 전에, **세밀한 정보 (로컬)**와 **큰 그림 (글로벌)**을 섞어서 결정합니다.

  • 비유: 요리사가 요리를 할 때, **재료 하나하나의 맛 (로컬)**을 확인하면서도 **전체 요리의 균형 (글로벌)**을 고려하는 것과 같습니다.
  • 효과: "침대가 3 개 있다"는 세밀한 숫자 정보와 "방 전체가 어둡다"는 큰 맥락 정보를 합쳐서, 더 정확하고 신뢰할 수 있는 답변을 만들어냅니다.

4. 왜 이것이 중요한가요?

  • 학습 없이 가능: AI 를 다시 가르치거나 (Fine-tuning) 많은 데이터를 모을 필요가 없습니다. 이미 만들어진 AI 에다가 이 '지도 읽기' 방법만 적용하면 됩니다.
  • 빠르고 효율적: 기존 방법들보다 계산이 덜 들어가고 속도가 빠릅니다.
  • 다양한 모델에 적용: 작은 AI 모델부터 거대하고 똑똑한 모델까지 모두에서 효과를 발휘했습니다.

📝 한 줄 요약

"AI 가 그림을 볼 때, 좁은 시야로 한 점만 보지 말고, 머릿속 전체를 펼쳐진 '지도'처럼 넓게 보게 하여 숨겨진 진실을 찾아내게 만들자!"

이 방법은 AI 가 환각을 일으켜 엉뚱한 이야기를 지어내는 것을 막아주어, 의료, 자율주행, 산업 현장 등 정확한 정보가 생명인 분야에서 AI 를 더 안전하게 사용할 수 있게 해줍니다.