DEX-AR: A Dynamic Explainability Method for Autoregressive Vision-Language Models

本文提出了 DEX-AR,一种专为自回归视觉语言模型设计的动态可解释性方法,它通过计算生成过程中的层间注意力梯度,结合动态头过滤与序列级过滤机制,生成能够区分视觉与语言信息的 token 级及序列级 2D 热力图,从而有效提升了模型决策过程的透明度与可解释性。

Walid Bousselham, Angie Boggust, Hendrik Strobelt, Hilde Kuehne

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 DEX-AR 的新方法,它的任务是给“看图说话”的人工智能(我们叫它视觉语言模型)做“读心术”,让我们明白它到底是怎么根据图片生成文字的。

为了让你更容易理解,我们可以把整个过程想象成一位正在写游记的画家

1. 背景:画家遇到了什么麻烦?

现在的 AI 画家(比如 LLaVA、GPT-4o 等)非常厉害,你给它一张照片,它能写出一段描述。

  • 以前的方法(传统解释性): 就像有人拿着放大镜,只盯着画家的最后一笔看,或者只看画家整幅画的轮廓。
  • 问题所在: 画家是一个字一个字写出来的(这叫“自回归”)。
    • 当画家写“一只"时,他的眼睛盯着图片里的狗。
    • 但当画家写"草地上”时,他的眼睛可能在看草地,也可能只是在想语法,跟图片关系不大。
    • 以前的方法分不清哪些词是“看图说话”(比如“狗”、“红色”),哪些词只是“凑字数”的语法词(比如“的”、“是”、“在”)。结果就是,解释出来的热力图(Heatmap)乱七八糟,既标出了狗,也标出了天空,甚至标出了无关的背景,让人看不懂 AI 到底在想什么。

2. DEX-AR 是什么?(核心创新)

DEX-AR 就像是一位超级敏锐的“思维侦探”,它不只看结果,而是潜入画家的每一个思考瞬间,做两件事:

第一招:动态筛选“眼睛”(Head Filtering)

想象画家脑子里有100 双眼睛(注意力头),每双眼睛看东西的侧重点不同:

  • 有的眼睛专门看颜色
  • 有的眼睛专门看形状
  • 有的眼睛却在发呆,只看背景或者语法结构

以前的方法把这 100 双眼睛看到的都混在一起,导致画面模糊。
DEX-AR 的做法: 它实时检查每一双眼睛:“嘿,你刚才看的是图片里的‘狗’吗?如果是,保留你的信号;如果你在看‘天空’或者‘语法’,把你关掉!”

  • 比喻: 就像在嘈杂的派对上,DEX-AR 能精准地只把麦克风递给正在谈论“狗”的那个人,而把那些在聊“天气”或“语法”的人的麦克风静音。

第二招:区分“干货”与“废话”(Token Filtering)

画家写句子时,有些词是干货(直接描述图片,如“狗”、“奔跑”),有些词是废话(纯语法,如“的”、“了”)。

  • 以前的方法: 把所有词对图片的贡献都加起来,结果“的”字也分到了很高的热度,导致热力图上到处都是噪点。
  • DEX-AR 的做法: 它给每个词打分。如果这个词主要靠“语法逻辑”蹦出来的(比如“在”),它就给个低分,甚至直接忽略;如果这个词是靠“看图”蹦出来的(比如“猫”),它就给高分。
  • 比喻: 就像在统计“谁对破案贡献最大”。侦探(DEX-AR)会说:“指纹(猫)是证据,贡献 100 分;但‘的’这个助词只是连接词,贡献 0 分。”最后生成的报告只突出真正的证据。

3. 它是怎么工作的?(简单流程)

  1. 逐字拆解: 当 AI 生成“一只沙发上”时,DEX-AR 会分别分析“猫”和“沙发”这两个词生成时的瞬间。
  2. 梯度追踪: 它计算图片的哪些部分对生成这个字影响最大(就像计算“如果我把猫的图片遮住,AI 还能写出‘猫’字吗?如果不能,说明猫的图片很关键)。
  3. 动态过滤:
    • 过滤掉那些不看图的“眼睛”。
    • 过滤掉那些不看图的“语法词”。
  4. 生成热力图: 最后,它把剩下的关键信息叠加起来,生成一张干净、精准的热力图。图上只有猫和沙发是亮的,背景是暗的。

4. 效果怎么样?(实验结果)

作者在几个著名的数据集(像 ImageNet, VQAv2)上测试了 DEX-AR,发现它比以前的方法强很多:

  • 更准: 当把图片中 DEX-AR 认为重要的部分(比如猫)遮住时,AI 就写不出“猫”字了,说明它真的找到了关键。
  • 更清: 生成的热力图不像以前那样“雾里看花”,而是能精准地框出物体。
  • 更懂行: 它能区分出哪些是“看图说话”,哪些是“瞎编语法”,大大减少了噪音。

5. 总结:为什么这很重要?

想象一下,如果 AI 医生在诊断病情,它说“病人有肺炎”,但没人知道它是因为看到了 X 光片上的阴影,还是因为瞎猜的。这就很危险。

DEX-AR 的作用就是给 AI 装上“透明眼镜”:

  • 它让我们看到,AI 在说“这是一只"时,确实是盯着看的,而不是盯着旁边的草地
  • 它帮我们发现 AI 的偏见(比如看到“船”就只看“水”,忽略了船本身)。
  • 它让 AI 的决策过程变得可解释、可信任,这对于自动驾驶、医疗等高风险领域至关重要。

一句话总结:
DEX-AR 就像给 AI 的“看图说话”过程装了一个智能过滤器,帮我们把那些无关的“语法废话”和“走神视线”全部过滤掉,只留下真正盯着图片看的关键证据,让我们能真正看懂 AI 是怎么思考的。