Each language version is independently generated for its own context, not a direct translation.

🎨 DEX-AR: AI 의 '눈'이 어디를 보고 있는지 알려주는 새로운 안경

이 논문은 **시각 - 언어 모델 (VLM)**이라는 최신 AI 기술이 어떻게 작동하는지, 특히 왜 특정 답변을 내놓는지 설명하는 새로운 방법인 DEX-AR을 소개합니다.

쉽게 말해, "AI 가 그림을 보고 '개'라고 대답했을 때, 정말로 개를 보고 대답한 건가, 아니면 그냥 배경을 보고 추측한 걸까?"를 확인해 주는 도구입니다.

1. 문제점: AI 는 말은 잘하지만, 왜 그런지 모릅니다 🤔

최근 AI(예: GPT-4o, LLaVA 등) 는 그림을 보고 설명을 쓰거나 질문에 답하는 능력이 매우 뛰어납니다. 하지만 이 AI 들은 한 글자씩 순서대로 ( autoregressive) 글을 만들어냅니다.

기존의 문제: 예전에는 AI 가 "이 사진에 고양이가 있니?"라고 물었을 때, AI 가 어떤 부분을 보고 '있음'이라고 답했는지 알려주는 방법 (설명 가능성) 이 있었습니다.
새로운 어려움: 하지만 글을 한 글자씩 써가는 과정에서, AI 는 첫 번째 글자 ('The') 를 쓸 때는 배경을 보고, 두 번째 글자 ('cat') 를 쓸 때는 고양이를 볼 수 있습니다. 기존 방법들은 이 순서와 글자별 차이를 잘 파악하지 못해, AI 가 실제로 중요한 부분을 놓치고 있거나, 쓸데없는 부분 (예: "The", "is" 같은 문법 단어) 에 집중하는 것을 제대로 보여주지 못했습니다.

비유: 마치 연극 배우가 대본을 읽는다고 상상해 보세요.

기존 방법은 배우가 "무대 전체"를 보고 있다고만 알려줍니다.

하지만 실제로는 "첫 번째 줄에서는 관객석을 보고, 두 번째 줄에서는 무대 중앙의 소품을 보고, 세 번째 줄에서는 동료 배우를 보고" 있습니다.

DEX-AR 은 대본의 한 줄 한 줄마다 배우가 정확히 누구를 보고 있는지를 보여줍니다.

2. DEX-AR 의 핵심 아이디어: 두 가지 필터링 🧐

DEX-AR 은 AI 가 글을 쓸 때, **어떤 부분 (Attention Head)**과 **어떤 글자 (Token)**가 진짜 중요한지 찾아내는 두 가지 필터를 사용합니다.

① '눈' 필터링 (Head Filtering): "누가 그림을 보고 있니?" 👀

AI 는 글을 만들 때 여러 개의 '눈 (Attention Head)'을 동시에 사용합니다. 그런데 어떤 눈은 그림을 보고, 어떤 눈은 문법 규칙만 보고 있습니다.

DEX-AR 의 방법: 그림과 관련된 정보를 가장 잘 받아들이는 '눈'만 골라내고, 문법만 보는 '눈'은 무시합니다.
비유: 팀 프로젝트에서 실제 데이터를 분석하는 사람의 의견만 듣고, 단순히 문장만 다듬는 사람의 의견은 제외하는 것과 같습니다.

② '글자' 필터링 (Token Filtering): "이 글자는 그림과 관련이 있니?" 📝

AI 가 만든 문장에는 그림을 설명하는 단어 (예: '개', '파란색') 와 문법만 채우는 단어 (예: '는', '이', '있다') 가 섞여 있습니다.

DEX-AR 의 방법: 그림과 직접 관련된 단어에는 **무게 (점수)**를 높게 주고, 문법만 채우는 단어는 무게를 낮게 줍니다.
비유: 사진 앨범을 정리할 때, 사과가 찍힌 사진에는 '★5'를 붙이고, '사과'라는 단어를 설명하기 위해 붙인 '은/는' 같은 조사에는 별점을 주지 않는 것과 같습니다.

3. 어떻게 작동하나요? (간단한 과정) 🛠️

순서대로 분석: AI 가 그림을 보고 "고양이가 앉아 있다"라고 말할 때, '고양이'를 쓸 때와 '앉아'를 쓸 때를 각각 분석합니다.
중요도 계산: 각 글자를 쓸 때, AI 의 내부 '눈'들이 그림의 어떤 부분을 가장 강하게 보고 있는지 계산합니다.
잡음 제거: 그림과 상관없는 문법적 단어나, 그림을 보지 않는 '눈'들의 신호는 걸러냅니다.
결과 출력: 최종적으로 **그림 위에 뜨는 열지도 (Heatmap)**를 보여줍니다. 이 지도는 AI 가 그 문장을 만들 때 정말 중요하게 생각한 부분을 붉은색으로 강조합니다.

4. 왜 이것이 중요한가요? 🌟

신뢰성 확보: AI 가 "이건 개입니다"라고 했을 때, 정말로 개를 보고 말한 건지, 아니면 배경의 풀을 보고 착각한 건지 알 수 있습니다.
실수 찾기: AI 가 실수할 때 (예: 배를 보는데 '배'가 아니라 '물'만 보고 대답할 때), 왜 그런 실수를 했는지 원인을 찾아낼 수 있습니다.
더 나은 AI: AI 가 왜 그렇게 생각했는지 이해하면, 개발자들은 AI 를 더 똑똑하고 안전하게 만들 수 있습니다.

5. 결론: AI 의 두뇌를 투명하게 보여주는 거울 🪞

DEX-AR 은 복잡한 AI 의 생각 과정을 한 글자, 한 글자, 한 순간씩 분해해서 보여줍니다. 마치 AI 가 그림을 볼 때 어떤 부분에 초점을 맞추고, 어떤 단어를 선택하는지를 실시간으로 보여주는 투명한 안경과 같습니다.

이 기술을 통해 우리는 AI 가 단순히 "맞는 말"을 하는 것을 넘어, 왜 그 말을 했는지를 이해하고, 더 신뢰할 수 있는 AI 시스템을 만들 수 있게 됩니다.

Each language version is independently generated for its own context, not a direct translation.

DEX-AR: 자동회귀 비전 - 언어 모델 (VLM) 을 위한 동적 설명 가능성 방법

이 논문은 최신 **자동회귀 비전 - 언어 모델 **(Autoregressive Vision-Language Models, VLMs)의 의사결정 과정을 해석하기 위한 새로운 설명 가능성 (Explainability) 방법인 DEX-AR(Dynamic Explainability for AutoRegressive models)을 제안합니다.

1. 문제 정의 (Problem)

비전 - 언어 모델 (VLM) 은 이미지 이해와 자연어 생성을 결합하여 혁신적인 성과를 거두고 있지만, 그 내부의 의사결정 과정을 이해하는 것은 매우 어렵습니다. 기존 설명 가능성 방법들은 다음과 같은 한계로 인해 현대적인 자동회귀 VLM 에 적용하기 어렵습니다.

고정된 출력 vs 동적 생성: 기존 방법 (Grad-CAM 등) 은 분류 작업과 같은 고정된 출력을 가정합니다. 반면, VLM 은 토큰 단위로 텍스트를 순차적으로 생성하며, 각 토큰이 이미지와 이전 문맥의 다른 부분에 주의를 기울일 수 있습니다.
모달리티 간 복잡한 상호작용: 시각적 정보와 텍스트적 정보가 여러 레이어의 어텐션 메커니즘을 통해 복잡하게 상호작용하는데, 이를 토큰 생성 단계별로 추적하기 어렵습니다.
**내용 토큰과 기능어 **(Filler words) "The", "is"와 같은 문법적 기능어와 "dog", "cat"과 같은 시각적 내용을 직접 참조하는 토큰을 구분하지 못해, 설명 지도 (Heatmap) 에 불필요한 노이즈가 포함됩니다.

2. 방법론 (Methodology)

DEX-AR 은 VLM 의 토큰 단위 생성 과정을 분석하기 위해 **레이어별 어텐션 맵에 대한 기울기 **(Layer-wise gradients w.r.t. attention maps)를 활용합니다. 주요 기술적 구성 요소는 다음과 같습니다.

2.1 토큰 단위 설명 지도 생성 (Per-Token Explainability)

**중간 로짓 계산 **(Intermediate Logits) 생성 단계 $t$ 에서 마지막 토큰의 예측을 위해, 최종 레이어뿐만 아니라 각 레이어 $l$ 의 은닉 상태 (Hidden State) 를 사용하여 중간 로짓을 계산합니다 (Logit Lens 접근법).
기울기 계산: 선택된 단어의 로짓에 대한 어텐션 맵 ( $A_{l,t}$ ) 의 기울기를 계산합니다.
시각 토큰 집중: 시퀀스의 마지막 토큰과 시각 토큰 (이미지 패치) 간의 기울기만 추출하여 시각적 영향력을 분석합니다.

2.2 동적 헤드 필터링 (Dynamic Head Filtering)

모든 어텐션 헤드가 시각 정보를 처리하는 것은 아닙니다. 일부 헤드는 텍스트 문맥에만 집중할 수 있습니다.

시각 vs 텍스트 기울기 비교: 각 헤드의 기울기 크기를 시각 토큰 ( $S_{img}$ ) 과 텍스트 토큰 ( $S_{text}$ ) 에 대해 비교합니다.
가중치 부여: $w = \max(0, S_{img} - S_{text})$ 공식을 사용하여 시각 정보에 더 집중하는 헤드에게 높은 가중치를 부여하고, 그렇지 않은 헤드는 필터링합니다. 이는 객체의 크기에 상관없이 가장 강력한 시각 신호를 포착하는 **최대값 **(Max)을 기반으로 합니다.

2.3 시퀀스 수준 필터링 (Sequence-Level Filtering)

생성된 문장 전체에 대한 설명 지도를 만들 때, 모든 토큰이 동일한 중요도를 갖지는 않습니다.

기능어 제거: 각 토큰 $t$ 에 대해 시각적 필요성 (Visual Necessity) 지수 $\delta_t$ 를 계산합니다. 이는 해당 토큰이 시각적 정보에 크게 의존하는지, 아니면 언어적 문맥 (Filler words) 에 의존하는지를 판단합니다.
집계: 시각적 의존도가 높은 토큰의 설명 지도만 가중치하여 최종 시퀀스 수준의 히트맵을 생성합니다.

2.4 아키텍처 적응성

DEX-AR 은 Decoder-only 모델 (LLaVA 등) 과 Encoder-Decoder 모델 (Florence-2 등) 모두에 적용 가능합니다. Cross-attention 이 있는 모델의 경우, 디코더와 인코더 간의 교차 어텐션 맵에 대한 기울기를 계산하여 동일한 원리를 적용합니다.

3. 주요 기여 (Key Contributions)

자동회귀 VLM 을 위한 전용 설명 방법론: 토큰 단위 생성의 동적 특성을 고려한 그래디언트 기반 설명 방법을 처음 제안했습니다.
이중 필터링 메커니즘: 어텐션 헤드의 시각적 관련성과 생성된 토큰의 시각적 의존성을 동적으로 가중치하여, 시각적으로 관련 없는 노이즈를 효과적으로 제거합니다.
새로운 평가 체계: 자동회귀 VLM 의 설명 가능성 품질을 평가하기 위해 Perplexity 기반의 Perturbation 메트릭과 PascalVOC-QA(Filler word 구분을 위한 데이터셋) 를 포함한 새로운 평가 프로토콜을 제시했습니다.

4. 실험 결과 (Results)

DEX-AR 은 ImageNet, VQAv2, PascalVOC 등 다양한 데이터셋과 LLaVA, BakLLaVA, PaliGemma, Florence-2 등 여러 최신 VLM 아키텍처에서 평가되었습니다.

**Perturbation 기반 평가 **(ImageNet, VQAv2)
- 중요한 이미지 영역을 제거했을 때 모델의 성능 (Perplexity) 이 얼마나 급격히 떨어지는지를 측정했습니다.
- DEX-AR 은 기존 방법 (GradCAM, Attention Rollout, RISE 등) 보다 **양적 Perturbation **(Positive Perturbation)에서 일관되게 높은 점수를 기록했습니다. (예: BakLLaVA 에서 AUC 18.10 으로 기존 최고점 대비 5.5 포인트 향상).
- 계산 효율성 면에서도 Integrated Gradients 나 RISE 보다 훨씬 빠릅니다.
**세그멘테이션 기반 평가 **(PascalVOC)
- 생성된 설명이 실제 객체 영역과 얼마나 일치하는지 IoU 및 EPG(Energy Pointing Game) 로 측정했습니다.
- DEX-AR 은 LLaVA-1.5 에서 기존 최선 방법 대비 Soft-IoU 에서 73.5%, IoU 에서 25.7% 향상된 성능을 보였습니다.
필터링 효과 분석:
- 헤드 필터링과 Filler word 필터링을 모두 적용했을 때 신호 대 잡음비 (SNR) 가 9.16 에서 96.12로 극적으로 향상되었습니다.
- 이는 불필요한 기능어와 시각적 관련성이 낮은 어텐션 헤드가 제거됨을 의미합니다.
Qualitative 분석:
- 복잡한 장면이나 여러 객체가 있는 경우에도 DEX-AR 은 특정 객체 (예: 회색 고양이 vs 주황색 고양이) 를 정확히 구분하여 설명하는 반면, 기존 방법들은 흐릿하거나 배경에 집중하는 경향이 있었습니다.
- Vision Transformer 의 'Registers'(배경 노이즈 토큰) 에 대한 강건성도 입증되었습니다.

5. 의의 및 결론 (Significance)

DEX-AR 은 VLM 의 "블랙박스"를 여는 중요한 도구입니다.

신뢰성 향상: 모델이 왜 특정 답변을 생성했는지 시각적 근거를 명확히 보여줌으로써, 자율 시스템 등 고위험 분야에서 AI 의 신뢰성을 높입니다.
오류 탐지: 모델이 잘못된 시각적 상관관계 (Spurious Correlations, 예: 배가 있으면 하늘만 보는 것) 에 의존하고 있음을 시각적으로 드러내어 모델 개선에 기여합니다.
모델 중립성: Transformer 기반 아키텍처의 공통적인 어텐션 기울기를 활용하므로, 다양한 VLM 모델에 적용 가능한 범용적인 방법론을 제공합니다.

결론적으로, DEX-AR 은 자동회귀 생성 과정의 역동성을 고려한 정교한 필터링 메커니즘을 통해, 기존 방법들이 놓쳤던 시각적 근거의 정확한 위치를 파악하고 모델의 의사결정 과정을 투명하게 해석할 수 있게 합니다.

DEX-AR: A Dynamic Explainability Method for Autoregressive Vision-Language Models