AdaIAT: Adaptively Increasing Attention to Generated Text to Alleviate Hallucinations in LVLM

이 논문은 생성된 텍스트에 대한 어텐션을 적응적으로 증가시키는 AdaIAT 기법을 제안하여, 대형 시각 - 언어 모델 (LVLM) 의 환각 현상을 줄이면서도 언어적 일관성과 예측 능력을 유지하는 균형을 달성함을 보여줍니다.

Li'an Zhong, Ziqiang He, Jibin Zheng, Jin Li, Z. Jane Wang, Xiangui Kang

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 최근 화두가 되고 있는 고급 AI(시각-언어 모델) 가 겪는 '환각(Hallucination)' 문제를 해결하는 새로운 방법을 소개합니다.

AI 가 그림을 보고 설명할 때, 실제로 없는 물건을 만들어내거나 엉뚱한 이야기를 하는 현상을 **'AI 환각'**이라고 합니다. 이 논문은 이 문제를 해결하면서도 AI 가 말을 반복하거나 멍청해지는 것을 막아주는 **'AdaIAT'**라는 기술을 제안합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


🎨 비유: "눈을 크게 뜨는 것만으로는 부족해요"

지금까지 AI 가 그림을 잘못 설명하는 문제를 해결하려는 연구들은 다음과 같은 방법을 썼습니다.

기존 방법 (PAI 등): "눈을 더 크게 뜨게 하라!"
AI 가 그림을 볼 때, **그림의 픽셀 (이미지 정보)**에 주의를 더 기울이게 강제로 만들었습니다. 마치 "그림을 더 자세히 봐! 상상하지 말고 진짜로 봐!"라고 외치는 것과 같습니다.

문제점: 이렇게 하면 AI 는 그림을 잘 보게 되지만, 이전 문장을 잊어버립니다. 마치 그림을 너무 집중해서 보느라, "아까 뭐라고 했지? 아, 이 시계탑이네. 이 시계탑이네. 이 시계탑이네..."라고 같은 말을 계속 반복하게 되는 것입니다.

💡 이 논문의 핵심 발견: "이미 말한 내용을 믿어라"

연구진은 AI 가 어떻게 작동하는지 자세히 분석하다가 놀라운 사실을 발견했습니다.

진짜 물건을 설명할 때 vs. 헛소리를 할 때

  • 진짜 물건을 설명할 때: AI 는 **이전까지 말했던 문장 (생성된 텍스트)**을 매우 잘 기억하고 참조합니다.
  • 헛소리를 할 때: AI 는 이전 문장을 무시하고, 그림만 보다가 엉뚱한 상상을 합니다.

즉, AI 가 이미 만들어낸 문장 (텍스트) 안에는 그림에 대한 중요한 단서와 맥락이 숨어있었다는 것입니다. 그림만 보는 게 아니라, "내가 방금 뭐라고 썼지?"를 잘 기억하게 하면 오히려 더 정확한 설명을 할 수 있다는 뜻이죠.

🚀 새로운 해결책: AdaIAT (적응형 주시 강화)

이 발견을 바탕으로 연구진은 두 가지 단계로 된 기술을 개발했습니다.

1 단계: IAT (생성된 텍스트에 더 집중하기)

기존에 그림에 집중하라고 했던 방식을 뒤집어서, AI 가 이미 만들어낸 문장 (텍스트) 에 더 집중하게 합니다.

  • 비유: 그림을 보면서도 "내가 방금 '시계탑'이라고 했잖아. 그 시계탑 주변에 뭐가 있을까?"라고 이전 대화 흐름을 기억하게 만드는 것입니다.
  • 효과: 그림을 잘 보면서도, 같은 말을 반복하지 않고 자연스럽게 문장을 이어갈 수 있게 됩니다.

2 단계: AdaIAT (지능형 조절)

하지만 무조건 텍스트에 집중하게 하면, AI 가 원래 가진 추론 능력을 망칠 수도 있습니다. 그래서 '적응형 (Adaptive)' 기능을 추가했습니다.

  • 층별 문턱값 (Layer-wise Threshold): AI 는 여러 개의 뇌 층 (Layer) 으로 이루어져 있습니다. AdaIAT 는 "지금 AI 가 헛소리를 하려고 하나?"를 실시간으로 감시합니다.
    • 정상일 때: 간섭하지 않고 AI 가 자연스럽게 말하게 둡니다.
    • 헛소리할 때: "잠깐! 지금 텍스트를 너무 무시하고 있네!"라고 깨우쳐서 텍스트에 집중하게 합니다.
  • 부드러운 조절: 모든 뇌 세포 (Attention Head) 에 똑같이 강하게 간섭하는 게 아니라, 어떤 부분은 강하게, 어떤 부분은 약하게 조절합니다. 마치 악기를 조율하듯 AI 의 균형을 맞춰주는 것입니다.

🏆 결과는 어떨까요?

실험 결과, AdaIAT 는 다음과 같은 '완벽한 균형'을 이루었습니다.

  1. 환각 감소: AI 가 없는 물건을 만들어내는 경우가 기존 방법보다 약 35~37% 줄었습니다. (예: 시계탑 옆에 없는 '자동차'를 보지 않게 됨)
  2. 반복 제거: "시계탑, 시계탑, 시계탑" 같은 지루한 반복이 사라졌습니다.
  3. 자연스러운 언어: AI 가 원래 가지고 있던 말솜씨와 창의성은 그대로 유지되었습니다.

📝 한 줄 요약

"AI 가 그림을 볼 때, 그림만 맹신하지 말고 '내가 이미 한 말'을 잘 기억하게 도와주면, 거짓말도 줄고 반복도 사라진다!"

이 기술은 AI 가 그림을 설명할 때 **정확성 (환각 감소)**과 **자연스러움 (반복 방지)**이라는 두 마리 토끼를 모두 잡을 수 있게 해주는 획기적인 방법입니다.