GIFT: A Framework Towards Global Interpretable Faithful Textual Explanations of Vision Classifiers

本文提出了 GIFT 框架,通过生成忠实局部视觉反事实、利用多模态大模型将其转化为自然语言描述,并经由大语言模型聚合及因果干预验证,从而为视觉分类器提供全局性、可解释且忠实于模型真实推理过程的文本解释。

Éloi Zablocki, Valentin Gerard, Amaia Cardiel, Eric Gaussier, Matthieu Cord, Eduardo Valle

发布于 2026-02-23
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 GIFT 的新框架,它的目标是给那些像“黑盒子”一样的 AI 视觉模型(比如识别图片的深度学习模型)写一份全球性、可理解、且真实可信的“说明书”

想象一下,你养了一只非常聪明的狗(AI 模型),它能认出所有的动物。但你不知道它到底是怎么认出来的。

  • 以前的方法(如热力图)就像给狗拍一张照片,标出它盯着哪里看,但这很模糊,而且你只能看到它看这一只狗时的反应。
  • 以前的方法(如反事实解释)就像你问狗:“如果我把这只狗的耳朵剪掉,你还能认出它是狗吗?”狗会摇头。但这只能告诉你关于这一只狗的事,而且你很难用语言描述清楚。

GIFT 就像是一个超级侦探 + 翻译官 + 验尸官的组合,它通过四个步骤来破解 AI 的内心秘密:

第一步:制造“平行宇宙” (生成反事实)

比喻:给 AI 玩“找不同”游戏。
GIFT 会拿着 AI 看到的图片,悄悄地对它进行微小的修改(比如把一只红色的金属球变成棕色,或者把背景里的车移走),直到 AI 突然说:“等等,这张图我刚才认为是‘红色金属球’,现在我觉得不是了!”

  • 作用: 这一步非常诚实(Faithful)。因为它直接测试了 AI 的底线:到底改了什么,AI 才会改变主意?这就像在测试一个开关,只有动了这个开关,灯才会灭。

第二步:翻译成“人话” (视觉转文本)

比喻:请一位描述大师来解说“找不同”。
AI 看到的只是像素的变化(比如“红色变棕色”),人类看不懂。GIFT 请来了一个视觉语言模型(VLM),让它看着原图和修改后的图,用自然语言描述变化。

  • 例子: 它不会说“像素值从 255 变成了 128",而是会说:“原本在后面的那个小红色金属球不见了,变成了棕色的。”
  • 作用: 把冷冰冰的图像变化变成了人类能读懂的故事。

第三步:寻找“通用规律” (大模型归纳)

比喻:让一位博学的教授(LLM)做总结报告。
GIFT 会生成成百上千个这样的“找不同”故事。这时候,一个大语言模型(LLM) 登场了。它像一位经验丰富的侦探,阅读了所有故事,然后说:“嘿,我发现了一个规律!不管图片里是什么,只要左边车道有车,AI 就认为‘不能右转’;只要有红色金属物体,AI 就认为是‘红色物体’。”

  • 作用: 把零散的、局部的线索,拼凑成一个全局的、可理解的规则。它还能帮我们要去噪,比如把“背景变亮了”这种无关紧要的废话过滤掉,只保留核心原因。

第四步:法庭验尸 (因果验证)

比喻:这是最关键的“打假”环节。
前面的步骤虽然聪明,但大模型可能会“瞎编”或者产生幻觉。GIFT 不会盲目相信它。它会进行干预实验

  • 如果大模型说规则是“因为有红色物体”,GIFT 就会用图像编辑工具,真的把图片里的红色物体P 掉,或者P 进去
  • 然后再次问 AI:“现在还是红色物体吗?”
  • 如果 AI 真的改变了主意,说明这个解释是真实可信的(有因果关系的)。
  • 如果 AI 没反应,说明刚才那个解释是瞎猜的,直接扔掉。

GIFT 发现了什么?(实验结果)

  1. 在乐高积木世界 (CLEVR):
    GIFT 成功破解了 AI 的“暗语”。比如,它发现 AI 其实是在找“青色的金属物体”,而不是简单的“青色物体”。它甚至能发现人类都很难一眼看出来的复杂组合规则。

  2. 在人脸照片里 (CelebA):
    当 AI 判断一个人是“老”还是“年轻”时,GIFT 发现 AI 不仅仅看皱纹,还看眼镜发际线。更有趣的是,它发现 AI 甚至被背景里的细节(比如背景太复杂)误导了。这就像发现 AI 其实是个“看面相”的,但它看错了重点。

  3. 在自动驾驶场景 (BDD):
    这是最精彩的发现。GIFT 发现了一个隐藏的偏见:AI 认为“如果左边车道有车,就不能右转”。

    • 为什么这很重要? 因为人类司机都知道,左边有车并不影响右转。但 AI 因为训练数据的偏差,死板地记住了这个错误规律。
    • 对比: 如果让人类直接看图找原因,或者让 AI 自己瞎猜,都发现不了这个隐蔽的偏见。只有 GIFT 这种“制造变化 -> 翻译 -> 总结 -> 验证”的流程,才能把这种非直觉的、隐藏的坏毛病揪出来。

总结

GIFT 就像一个给 AI 做“心理侧写”的专家。
它不满足于告诉你是“哪里”出了问题(像热力图那样),也不满足于只解释“这一张”图。它通过制造变化、翻译变化、总结规律、最后验证真伪,告诉我们 AI 到底为什么会做出那个决定,以及这个决定背后是否藏着错误的偏见

这对于自动驾驶、医疗诊断等高风险领域至关重要,因为它能确保我们信任的 AI,真的是在按正确的逻辑思考,而不是在“走捷径”或“瞎蒙”。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →