One Token, Two Fates: A Unified Framework via Vision Token Manipulation Against MLLMs Hallucination

이 논문은 시각 토큰을 증강된 의미 강화와 가지치기를 통한 부정적 샘플 생성이라는 두 가지 방식으로 조작하여 MLLM 의 환각을 해결하는 통합 프레임워크를 제안함으로써, 언어 편향을 보정하고 객체 환각을 효과적으로 줄입니다.

Zhan Fa, Yue Duan, Jian Zhang, Lei Qi, Yinghuan Shi

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

한 개의 토큰, 두 가지 운명: AI 의 환각을 막는 새로운 방법

이 논문은 **멀티모달 대형 언어 모델 (MLLM)**이 가진 치명적인 약점인 '환각 (Hallucination)' 문제를 해결하는 새로운 방법을 제안합니다.

쉽게 말해, AI 가 그림을 보고 설명할 때 **"사실은 없는 물건을 마치 있는 것처럼 말하거나, 실제와 다른 내용을 지어내는 현상"**을 막는 기술입니다.

기존 방법들은 "눈 (시각) 을 더 크게 뜨게 하거나" 혹은 "입 (언어) 을 더 조심스럽게 하거나" 중 하나만 선택했는데, 이 논문은 **"눈과 입을 동시에, 똑똑하게 조절하자"**는 아이디어를 제시합니다.


🎭 왜 AI 는 환각을 일으킬까요? (비유: 무능한 통역사)

AI 를 **사진을 보고 설명해주는 '통역사'**라고 상상해 보세요.

  • 시각 신호 (눈): 사진 속 내용을 전달합니다.
  • 언어 신호 (입): AI 가 평소 배운 말투나 상식 (언어적 편견) 을 바탕으로 말을 잇습니다.

문제는 시간이 지날수록 통역사의 '눈'이 점점 흐려지고, '입'이 평소 습관대로 말을 지어낸다는 것입니다.

  • 처음에는 사진을 잘 보지만, 설명이 길어질수록 "아마도 저건 개일 거야"라고 말하며 실제 사진 속 개가 아닌, AI 가 상상한 개를 말해버립니다.
  • 기존 연구들은 "눈을 더 크게 뜨게 해라 (시각 강화)"거나 "입을 막아라 (언어 억제)"는 식으로 따로 해결하려 했지만, 둘 다 한계가 있었습니다.

💡 이 논문의 핵심 아이디어: "눈 (Vision Token) 을 두 가지 방식으로 쓰자"

이 논문은 AI 가 사진을 이해하는 핵심 요소인 **'비전 토큰 (Vision Token)'**을 두 가지 다른 역할로 동시에 활용하는 통합 프레임워크를 제안합니다. 마치 한 명의 배우가 주인공악역을 동시에 연기하며 극을 완성하는 것과 같습니다.

1. 역할 1: 시야를 넓혀주는 '보조 카메라' (SVC - 시너지 시각 보정)

  • 문제: 통역사가 사진을 보다가 지쳐서 중요한 부분을 놓칩니다.
  • 해결: 원본 사진뿐만 아니라, 화살표로 뒤집거나 흐리게 만든 '변형된 사진'도 함께 보여줍니다.
  • 비유: 마치 3D 안경을 끼거나, 여러 각도에서 찍은 사진을 동시에 보여주는 것과 같습니다. 원본에서는 놓친 '강아지'의 귀가 변형된 사진에서는 또렷하게 보입니다. AI 는 이 두 가지 정보를 합쳐서 "아, 저건 확실히 강아지구나!"라고 더 정확하게 파악하게 됩니다.

2. 역할 2: AI 의 나쁜 버릇을 잡아주는 '거울' (CRC - 인과 표현 보정)

  • 문제: 통역사가 "저건 개일 거야"라고 말하려는 나쁜 습관 (편견) 이 있습니다.
  • 해결: 사진에서 핵심 정보를 일부러 지운 (가려진) 상태로 AI 에게 물어봅니다.
  • 비유: 사진에서 강아지 얼굴만 가리고 AI 에게 "이게 뭐야?"라고 물으면, AI 는 "아, 내가 아는 상식대로 개라고 말해야지"라고 실수 (환각) 를 저지릅니다.
    • 이때 AI 가 실제 사진을 볼 때의 생각과, 가려진 사진을 볼 때의 실수한 생각을 비교합니다.
    • **"실제 사진 - 가려진 사진 = AI 의 나쁜 버릇 (편견)"**을 계산해냅니다.
    • 그리고 이 '나쁜 버릇'을 AI 의 머릿속에서 빼버립니다. 마치 거울을 통해 자신의 나쁜 버릇을 보고 고치는 것과 같습니다.

🚀 왜 이 방법이 특별한가요?

  1. 한 번에 두 마리 토끼를 잡습니다: 시각을 강화하면서도 언어적 편견을 제거하는 두 가지 작업을 하나의 시스템으로 통합했습니다.
  2. 학습이 필요 없습니다 (Training-Free): AI 를 다시 가르칠 필요가 없습니다. 이미 만들어진 AI 에게 이 '보조 카메라'와 '거울'만 연결하면 바로 작동합니다.
  3. 빠르고 정확합니다: 기존 방법들보다 계산 비용이 거의 들지 않으면서 (약 1.06 배의 지연만 발생), 정확도는 크게 향상되었습니다.

📊 실제 성과

이 방법을 적용한 결과, AI 가 물체를 잘못 인식하는 경우 (환각) 가 크게 줄어들었습니다. 특히 LLaVA-1.5 같은 유명한 모델에서 정확도가 평균 2% 이상 향상되었으며, AI 가 더 이상 "없는 물건을 있는 것처럼" 말하지 않게 되었습니다.

📝 한 줄 요약

"AI 가 사진을 볼 때, 원본과 변형된 사진을 함께 보여줘 시력을 돕고 (SVC), 일부러 정보를 지운 사진을 보여줘 AI 의 나쁜 버릇을 찾아내서 제거하는 (CRC) 방식으로, AI 의 환각을 완벽하게 잡았다!"

이 기술은 AI 가 현실 세계를 더 정확하게 이해하고, 우리가 믿고 사용할 수 있는 신뢰할 수 있는 도구가 되는 데 큰 기여를 할 것으로 기대됩니다.