Revealing and Enhancing Core Visual Regions: Harnessing Internal Attention Dynamics for Hallucination Mitigation in LVLMs

이 논문은 주석 현상의 왜곡 속에서도 의미 있는 핵심 시각 영역을 자연스럽게 드러내는 내부 '양성 주의 역동성 (PAD)'을 활용하여, 학습 없이도 환각을 줄이고 시각적 근거를 강화하는 PADE 라는 새로운 어텐션 개입 기법을 제안합니다.

Guangtao Lyu, Qi Liu, Chenghao Xu, Jiexi Yan, Muli Yang, Xueting Li, Fen Fang, Cheng Deng

게시일 2026-02-18
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'거대 시각 언어 모델 (LVLM)'**이라는 AI 가 그림을 볼 때 자주 겪는 '환각 (Hallucination)' 문제를 해결하는 새로운 방법을 소개합니다.

쉽게 말해, AI 가 그림을 보고 설명할 때 **"사과가 빨간색이야"**라고 해야 하는데, 실제로는 **"검은색"**이거나 심지어 **"사과가 없는데 사과가 있다"**라고 거짓말을 하는 현상을 막는 기술입니다.

이 논문이 제안하는 PADE라는 방법을 일상적인 비유로 설명해 드릴게요.


🍎 문제: AI 가 왜 거짓말을 할까? (주의력 소용돌이)

AI 는 그림을 볼 때 수만 개의 작은 조각 (토큰) 들에 주의를 기울입니다. 그런데 문제는 AI 가 가장 중요한 부분 (예: 사과) 에 집중하기보다, 의미 없는 부분 (예: 배경의 잡동사니나 시스템 명령어) 에 과도하게 집중하는 경향이 있다는 것입니다.

이를 **'주의력 소용돌이 (Attention Sink)'**라고 부릅니다.

  • 비유: 식당에서 요리사가 가장 맛있는 메인 요리 (사과) 를 보려고 노력하지만, 옆 테이블의 시끄러운 소음 (잡동사니) 이나 주방의 불빛 (시스템 신호) 에 시선이 자꾸 가버려서 메인 요리를 제대로 못 보는 상황입니다.
  • 기존 방법들은 이 소음에 집중하는 AI 를 강제로 고치려고 여러 번 그림을 다시 보게 하거나 (비효율적), 외부 감시인 (다른 AI) 을 데려오거나 (비용 발생) 하는 식이었습니다.

💡 해결책: PADE (주의력 역동성 강화)

이 논문은 **"AI 가 그림을 볼 때, 시간이 지남에 따라 시선이 어떻게 움직이는지 (역동성) 를 보면 진짜 중요한 부분을 찾을 수 있다"**는 사실을 발견했습니다.

1. 핵심 발견: "시선이 움직이는 방향을 보라"

  • 기존 방식 (정적): "지금 시선이 가장 많이 가는 곳이 중요해!"라고 생각하면, 소음 (소용돌이) 에 시선이 쏠려서 틀립니다.
  • 새로운 방식 (PADE): "어떤 부분이 층을 거치며 시선이 계속 강화되고 있나?"를 봅니다.
    • 비유: 소음이 시끄러워도, 시간이 지나도 사과에 대한 관심이 꾸준히 '오르막'을 타고 올라가는지를 확인하는 것입니다. 소음은 시선이 왔다 갔다 하거나 일정하게 유지되지만, 진짜 중요한 사물은 AI 가 이해할수록 시선이 더 강하게 모입니다. 이 '오르막' 신호를 찾아냅니다.

2. PADE 의 3 단계 작동 원리

이 기술은 PADE라는 이름으로, 다음과 같이 작동합니다.

① 진짜 보석 찾기 (PAD 매핑)

  • AI 가 그림을 분석하는 여러 단계 (레이어) 를 거치며, 시선이 '강하게 증가'하는 부분만 모아서 지도를 그립니다.
  • 잡동사니나 시스템 신호는 시선이 오르락내리락하거나 일정하므로 제외되고, 진짜 사과 같은 핵심 영역만 '빛나는 지도'로 남습니다.

② 적절한 힘 조절 (MAD 스케일링)

  • 찾아낸 '빛나는 지도'를 AI 에게 주입할 때, 너무 세게 주면 AI 가 망가집니다.
  • 비유: 약을 줄 때 환자의 체중과 상태에 따라 정확한 용량을 조절하듯, AI 의 각 부분마다 **중간값 (Median)**을 기준으로 적절한 강도로 주입합니다. 이렇게 하면 극단적인 잡음에 흔들리지 않습니다.

③ 명령어 지키기 (시스템 토큰 보상)

  • 그림만 강조하다 보면 AI 가 사용자의 질문 ("이 사과 색깔이 뭐야?") 을 잊어버릴 수 있습니다.
  • 비유: "사과를 더 잘 보게 해주는 대신, 가상 공간의 '시스템 알림' 부분을 살짝 줄여서 그 만큼의 에너지를 사과에 쏟게 한다"는 식입니다. 이렇게 하면 사용자의 질문을 잊지 않으면서도 그림을 정확히 볼 수 있습니다.

🚀 결과: 왜 이 방법이 좋은가요?

  1. 한 번에 끝남 (Single-Pass): 그림을 여러 번 다시 보지 않아도 되므로 속도가 매우 빠릅니다.
  2. 추가 장비 불필요: 다른 AI 모델을 불러오지 않아도 되므로 비용이 들지 않습니다.
  3. 정확도 향상: 실험 결과, AI 가 "사과가 있다"라고 거짓말을 하거나 "빨간색을 검은색으로" 잘못 보는 경우가 크게 줄어들었습니다.

📝 한 줄 요약

"AI 가 그림을 볼 때, 소음에 시선을 빼앗기지 않고 '시간이 지남에 따라 시선이 꾸준히 모이는 곳'을 찾아내어, 그 부분만 살짝 더 강조해 주는 똑똑한 기술입니다."

이 기술은 AI 가 환각에 빠지지 않고, 사용자의 질문에 정확하게 그림을 설명할 수 있도록 도와주는 **'AI 의 시선 교정 안경'**과 같습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →