DEX-AR: A Dynamic Explainability Method for Autoregressive Vision-Language Models

이 논문은 자동회귀 비전 - 언어 모델의 복잡한 토큰 생성 과정과 시각 - 언어 상호작용을 해석하기 위해, 레이어별 그래디언트와 동적 헤드 필터링을 통해 토큰 및 시퀀스 수준의 2D 히트맵을 생성하는 새로운 설명 가능성 방법인 DEX-AR 을 제안하고 다양한 벤치마크에서 그 유효성을 입증합니다.

Walid Bousselham, Angie Boggust, Hendrik Strobelt, Hilde Kuehne

게시일 2026-03-09
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 DEX-AR: AI 의 '눈'이 어디를 보고 있는지 알려주는 새로운 안경

이 논문은 **시각 - 언어 모델 (VLM)**이라는 최신 AI 기술이 어떻게 작동하는지, 특히 특정 답변을 내놓는지 설명하는 새로운 방법인 DEX-AR을 소개합니다.

쉽게 말해, "AI 가 그림을 보고 '개'라고 대답했을 때, 정말로 개를 보고 대답한 건가, 아니면 그냥 배경을 보고 추측한 걸까?"를 확인해 주는 도구입니다.


1. 문제점: AI 는 말은 잘하지만, 왜 그런지 모릅니다 🤔

최근 AI(예: GPT-4o, LLaVA 등) 는 그림을 보고 설명을 쓰거나 질문에 답하는 능력이 매우 뛰어납니다. 하지만 이 AI 들은 한 글자씩 순서대로 ( autoregressive) 글을 만들어냅니다.

  • 기존의 문제: 예전에는 AI 가 "이 사진에 고양이가 있니?"라고 물었을 때, AI 가 어떤 부분을 보고 '있음'이라고 답했는지 알려주는 방법 (설명 가능성) 이 있었습니다.
  • 새로운 어려움: 하지만 글을 한 글자씩 써가는 과정에서, AI 는 첫 번째 글자 ('The') 를 쓸 때는 배경을 보고, 두 번째 글자 ('cat') 를 쓸 때는 고양이를 볼 수 있습니다. 기존 방법들은 이 순서와 글자별 차이를 잘 파악하지 못해, AI 가 실제로 중요한 부분을 놓치고 있거나, 쓸데없는 부분 (예: "The", "is" 같은 문법 단어) 에 집중하는 것을 제대로 보여주지 못했습니다.

비유: 마치 연극 배우가 대본을 읽는다고 상상해 보세요.

  • 기존 방법은 배우가 "무대 전체"를 보고 있다고만 알려줍니다.
  • 하지만 실제로는 "첫 번째 줄에서는 관객석을 보고, 두 번째 줄에서는 무대 중앙의 소품을 보고, 세 번째 줄에서는 동료 배우를 보고" 있습니다.
  • DEX-AR 은 대본의 한 줄 한 줄마다 배우가 정확히 누구를 보고 있는지를 보여줍니다.

2. DEX-AR 의 핵심 아이디어: 두 가지 필터링 🧐

DEX-AR 은 AI 가 글을 쓸 때, **어떤 부분 (Attention Head)**과 **어떤 글자 (Token)**가 진짜 중요한지 찾아내는 두 가지 필터를 사용합니다.

① '눈' 필터링 (Head Filtering): "누가 그림을 보고 있니?" 👀

AI 는 글을 만들 때 여러 개의 '눈 (Attention Head)'을 동시에 사용합니다. 그런데 어떤 눈은 그림을 보고, 어떤 눈은 문법 규칙만 보고 있습니다.

  • DEX-AR 의 방법: 그림과 관련된 정보를 가장 잘 받아들이는 '눈'만 골라내고, 문법만 보는 '눈'은 무시합니다.
  • 비유: 팀 프로젝트에서 실제 데이터를 분석하는 사람의 의견만 듣고, 단순히 문장만 다듬는 사람의 의견은 제외하는 것과 같습니다.

② '글자' 필터링 (Token Filtering): "이 글자는 그림과 관련이 있니?" 📝

AI 가 만든 문장에는 그림을 설명하는 단어 (예: '개', '파란색') 와 문법만 채우는 단어 (예: '는', '이', '있다') 가 섞여 있습니다.

  • DEX-AR 의 방법: 그림과 직접 관련된 단어에는 **무게 (점수)**를 높게 주고, 문법만 채우는 단어는 무게를 낮게 줍니다.
  • 비유: 사진 앨범을 정리할 때, 사과가 찍힌 사진에는 '★5'를 붙이고, '사과'라는 단어를 설명하기 위해 붙인 '은/는' 같은 조사에는 별점을 주지 않는 것과 같습니다.

3. 어떻게 작동하나요? (간단한 과정) 🛠️

  1. 순서대로 분석: AI 가 그림을 보고 "고양이가 앉아 있다"라고 말할 때, '고양이'를 쓸 때와 '앉아'를 쓸 때를 각각 분석합니다.
  2. 중요도 계산: 각 글자를 쓸 때, AI 의 내부 '눈'들이 그림의 어떤 부분을 가장 강하게 보고 있는지 계산합니다.
  3. 잡음 제거: 그림과 상관없는 문법적 단어나, 그림을 보지 않는 '눈'들의 신호는 걸러냅니다.
  4. 결과 출력: 최종적으로 **그림 위에 뜨는 열지도 (Heatmap)**를 보여줍니다. 이 지도는 AI 가 그 문장을 만들 때 정말 중요하게 생각한 부분을 붉은색으로 강조합니다.

4. 왜 이것이 중요한가요? 🌟

  • 신뢰성 확보: AI 가 "이건 개입니다"라고 했을 때, 정말로 개를 보고 말한 건지, 아니면 배경의 풀을 보고 착각한 건지 알 수 있습니다.
  • 실수 찾기: AI 가 실수할 때 (예: 배를 보는데 '배'가 아니라 '물'만 보고 대답할 때), 왜 그런 실수를 했는지 원인을 찾아낼 수 있습니다.
  • 더 나은 AI: AI 가 왜 그렇게 생각했는지 이해하면, 개발자들은 AI 를 더 똑똑하고 안전하게 만들 수 있습니다.

5. 결론: AI 의 두뇌를 투명하게 보여주는 거울 🪞

DEX-AR 은 복잡한 AI 의 생각 과정을 한 글자, 한 글자, 한 순간씩 분해해서 보여줍니다. 마치 AI 가 그림을 볼 때 어떤 부분에 초점을 맞추고, 어떤 단어를 선택하는지를 실시간으로 보여주는 투명한 안경과 같습니다.

이 기술을 통해 우리는 AI 가 단순히 "맞는 말"을 하는 것을 넘어, 왜 그 말을 했는지를 이해하고, 더 신뢰할 수 있는 AI 시스템을 만들 수 있게 됩니다.