Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection

이 논문은 기존 모델을 미세 조정하거나 보조 모델 없이도 텍스트-시각 편향과 공발생 편향을 완화하여 멀티모달 대규모 언어 모델의 환각 현상을 줄이고 시각적 근거를 강화하기 위해, 1 차 테일러 그래디언트를 활용한 그라디언트 기반 영향 인식 제약 디코딩 (GACD) 방법을 제안합니다.

Shan Wang, Maying Shen, Nadine Chang, Chuong Nguyen, Hongdong Li, Jose M. Alvarez

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'멀티모달 거대 언어 모델 (MLLM)'**이라는 똑똑한 AI 가 그림을 볼 때 자주 겪는 '환각 (Hallucination)' 현상을 해결하는 새로운 방법을 소개합니다.

AI 가 그림을 보고 설명할 때, 실제로는 없는 물건을 만들어내거나 (예: 책상 위에 컵이 없는데 "커피 잔"이라고 말함) 그림의 내용과 상관없이 자주 나오는 단어를 무작정 덧붙이는 문제가 있습니다. 이 논문은 이를 해결하기 위해 **'그라디언트 기반 자기 성찰 (Gradient-based Self-Reflection)'**이라는 기술을 제안합니다.

이 복잡한 기술을 일반인이 이해하기 쉽게 세 가지 핵심 비유로 설명해 드리겠습니다.


1. 문제 상황: "눈을 감고 이야기하는 AI"와 "상상력 과잉"

AI 는 그림을 보고 설명할 때 두 가지 큰 실수를 저지릅니다.

  • 눈을 감고 이야기하기 (Text-Visual Bias): AI 가 그림을 제대로 보지 않고, 입력받은 질문이나 이전에 말했던 말만 믿고 계속 이야기를 이어갑니다. 마치 눈을 감고 친구의 이야기를 듣고 "아, 그럼 그 친구는 파란 모자를 썼겠지?"라고 추측하는 상황과 같습니다.
  • 상상력 과잉 (Co-occurrence Bias): AI 는 훈련 데이터에서 자주 함께 등장하는 것들을 기억합니다. 예를 들어, '의자'가 있으면 '식탁'이 있을 확률이 높다는 통계적 패턴을 너무 맹신합니다. 그래서 실제 그림에 의자만 있는데도, "식탁도 있겠지?"라고 엉뚱한 식탁을 만들어냅니다. 마치 비행기 표를 끊으러 갔는데, 비행기 표를 끊으면 항상 호텔 예약도 같이 해주니까 "호텔도 예약했네?"라고 착각하는 것과 비슷합니다.

2. 해결책: "AI 의 두뇌를 스캔하는 X-ray" (GACD)

이 논문에서 제안한 GACD는 AI 를 재학습시키거나 추가적인 모델을 붙이는 것이 아니라, AI 가 말을 할 때의 '두뇌 활동 (그라디언트)'을 실시간으로 분석하여 바로잡는 방법입니다.

이를 **한 마디로 표현하면 "AI 가 말을 할 때, '이 단어가 그림에서 정말로 근거가 있는가?'를 실시간으로 점검하는 경호원"**이라고 할 수 있습니다.

핵심 메커니즘 1: "누가 말을 주도하고 있나?" (영향력 분석)

AI 가 다음 단어를 고를 때, **그림의 픽셀 (시각 정보)**이 얼마나 영향을 미쳤는지, **이전 텍스트 (말)**가 얼마나 영향을 미쳤는지 수학적 계산으로 정확히 측정합니다.

  • 비유: 식당에서 요리사가 요리를 할 때, **신선한 재료 (그림)**를 얼마나 많이 썼는지, **레시피 책 (텍스트)**만 보고 대충 만들어낸 건지 저울로 재는 것과 같습니다. 만약 레시피 책만 보고 대충 만든 걸로 판명되면, "잠깐, 이 재료는 그림에 없잖아?"라고 지적합니다.

핵심 메커니즘 2: "가짜 친구를 쫓아내고, 진짜 친구를 부른다" (제거와 강화)

이 분석 결과를 바탕으로 두 가지 작업을 합니다.

  1. 가짜 친구 쫓아내기 (공존 편향 제거):
    • 만약 AI 가 "의자"를 보고 "식탁"을 말하려 한다면, "식탁"이라는 단어를 만들어내는 데 '의자' 이미지가 너무 크게 기여했는지 확인합니다.
    • 비유: 의자만 있는 방에서 "식탁"이 있다고 우기는 AI 에게 "그 식탁은 어디 있어? 그림에 없잖아!"라고 차갑게 말려서 그 단어를 삭제합니다.
  2. 진짜 친구 부르기 (시각 - 텍스트 균형 맞추기):
    • AI 가 그림을 무시하고 말만 늘어놓으려 하면, 그림의 중요성을 인위적으로 높여줍니다.
    • 비유: 눈을 감고 이야기하려는 AI 의 귀를 잡고, "이봐, 눈을 떠! 저기 저 개가 누워있잖아!"라고 그림을 다시 보게 만들어 그림의 목소리를 더 크게 들려줍니다.

3. 결과: "더 이상 착각하지 않는 AI"

이 방법을 적용한 결과, AI 는 다음과 같은 변화를 겪었습니다.

  • 없는 물건을 덜 말함: 그림에 없는 '맥주'나 '식탁' 같은 것을 만들어내는 실수가 크게 줄었습니다.
  • 있는 것을 더 잘 말함: 그림에 있는 모든 세부 사항 (예: 접시, 포크, 병 등) 을 빠뜨리지 않고 정확하게 묘사합니다.
  • 학습 없이 즉시 적용: AI 를 다시 가르칠 필요 없이, **말을 하는 순간 (추론 단계)**에 이 '경호원'을 붙이기만 하면 바로 효과가 나타납니다.

요약

이 논문은 AI 가 그림을 볼 때 "상상력"이 아니라 "사실"에 기반하게 만드는 기술입니다.

마치 AI 가 그림을 설명할 때, "내 기억 (텍스트)"과 "내 눈 (그림)" 중 어느 쪽이 더 중요한지 끊임없이 스스로에게 질문하고, 그림이 더 중요할 때는 무조건 그림을 따르도록 훈련시키는 것과 같습니다. 덕분에 AI 는 더 이상 환각에 시달리지 않고, 우리가 실제로 보는 그대로를 정확하게 설명해 줄 수 있게 되었습니다.