Towards Attributions of Input Variables in a Coalition

本文针对可解释人工智能中变量归因缺乏理论指导的问题,通过分析交互作用导致的归因冲突,提出了一种扩展的 Shapley 值归因指标及三种联盟忠实度评估方法,以在合成数据、NLP、图像分类及围棋等场景中实现更符合人类直觉的变量分组归因。

Xinhao Zheng, Huiqi Deng, Quanshi Zhang

发布于 2026-02-25
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个在人工智能(AI)解释领域非常核心但常被忽视的问题:当我们试图解释 AI 为什么做出某个决定时,如何正确地“分组”它的输入信息?

为了让你轻松理解,我们可以把这篇论文的核心思想想象成**“如何公平地分蛋糕”或者“如何评价一个团队的表现”**。

1. 背景:AI 是个黑盒子,我们需要“分功劳”

想象一下,你有一个超级聪明的 AI 厨师(比如一个下围棋的 AI 或识别图片的 AI)。它做了一道菜(做出了预测),味道很好。

  • 输入变量:就是它用的食材(比如面粉、鸡蛋、糖,或者围棋里的每一颗棋子)。
  • 归因(Attribution):就是我们要搞清楚,这道菜好吃,到底是谁的功劳?是面粉?是鸡蛋?还是糖?

传统的“谢普利值(Shapley Value)”方法就像是一个绝对公平的会计。它计算每个食材单独对这道菜的贡献,并且满足很多数学上的完美规则(比如:所有食材的贡献加起来等于整道菜的味道)。

2. 问题:当“食材”变成“菜系”时,账算不平了

但在现实生活中,我们往往不是单独看“面粉”,而是看“面团”(面粉 + 水);不是单独看“棋子”,而是看“棋形”(几颗棋子组成的特定形状)。

这就引出了论文指出的核心冲突

  • 场景 A:我们把“面粉”和“水”分开算,算出面粉贡献了 3 分,水贡献了 2 分。加起来是 5 分。
  • 场景 B:我们把“面团”(面粉 + 水)看作一个整体(一个联盟 Coalition),直接算“面团”贡献了 8 分。

冲突出现了:为什么 3+283+2 \neq 8
这就好比:

  • 单独看,张三(面粉)很努力,李四(水)也很努力。
  • 但把他们俩绑在一起(面团),他们产生了化学反应,做出了比两人单独努力之和更棒的效果(或者因为配合不好,效果变差了)。
  • 以前的方法没有理论告诉我们要怎么定义这个“面团”才算合理,导致算出来的“总功劳”和“分功劳”对不上号,让人很困惑。

3. 核心发现:AI 里的“化学反应” (AND-OR 交互)

作者发现,AI 模型内部其实充满了各种**“化学反应”**。

  • AND 关系(与):就像做蛋糕,必须同时有面粉鸡蛋,蛋糕才能成型。缺一不可。
  • OR 关系(或):就像做饮料,有或者有柠檬,或者有橙子,都能让饮料变酸。

论文的关键突破在于
他们发现,所谓的“功劳冲突”,是因为有些“化学反应”只涉及部分人,而不是整个团队。

  • 例子:假设团队是 {A, B, C}。
    • 有一个化学反应是 {A, B} 在一起产生的(C 没参与)。
    • 当我们算 {A, B} 这个小组的功劳时,这个化学反应算进去了。
    • 但是,当我们把 A 和 B 拆开单独算,或者算 {A, B, C} 大团队时,这个 {A, B} 的化学反应就被“拆分”或“稀释”了。
    • 结论:只要 AI 模型里存在这种“只涉及部分成员”的化学反应,小组的总功劳就一定不等于成员个人功劳的简单相加。这不是计算错误,而是数学上的必然!

4. 解决方案:新的“分蛋糕”规则

既然冲突不可避免,作者提出了一套新的理论框架:

  1. 重新定义“联盟功劳”
    他们设计了一个新公式,专门用来计算一个“小组”(比如“面团”或“棋形”)的总贡献。这个公式考虑了所有涉及该小组的化学反应。

  2. 三个“忠诚度”指标
    既然有时候“小组”和“个人”算出来不一样,那怎么判断我们定义的“小组”是不是合理的?作者提出了三个指标来给“小组”打分:

    • 完全忠诚:这个小组就像一个完美的团队,大家在一起产生的效果,完全等于大家单独效果的总和(没有额外的化学反应干扰)。
    • 部分忠诚:大家在一起有额外效果,但也有一些内部摩擦。
    • 不忠诚:这个小组完全是乱凑的(比如把“面粉”和“酱油”硬凑在一起),算出来的结果毫无意义。

    比喻:就像评价一个足球队。

    • 如果 {前锋 + 后卫} 这个组合,他们的配合(化学反应)非常默契,那么把他们看作一个整体来评价是**“忠诚”**的。
    • 如果 {前锋 + 守门员} 这个组合,他们平时根本不配合,硬凑在一起算分,那就是**“不忠诚”**的。

5. 实验验证:从文字到围棋

作者用这套理论做了很多实验,证明它很管用:

  • 自然语言(NLP):在句子“这电影很无聊且令人失望”中,{无聊,令人失望} 是一个忠诚的联盟(它们一起表达了负面情绪)。但如果把 {无聊,电影} 凑在一起,可能就不太对劲。
  • 图像识别:在识别马的图片时,{马头,马耳朵} 是一个忠诚的联盟,因为它们共同构成了“马头”这个概念。
  • 围棋(Go):这是最精彩的部分。AI 下围棋时,人类棋手会看“定式”(特定的棋子形状)。作者发现,AI 模型里确实存在这些形状对应的“化学反应”。
    • 有些形状(联盟)在 AI 眼里价值很高,且符合人类直觉(忠诚)。
    • 有些形状虽然 AI 觉得有价值,但人类看不懂(因为 AI 学到了人类没注意到的长期统计规律)。
    • 这套方法甚至帮助人类棋手发现了新的、以前没注意到的“好棋形”。

总结

这篇论文就像给 AI 解释领域发了一本**“团队管理指南”**。

它告诉我们:

  1. 不要强求“小组功劳 = 个人功劳之和”,因为团队内部有复杂的化学反应(交互作用)。
  2. 承认冲突:这种算不平账是数学规律决定的,不是算错了。
  3. 学会评估:我们可以用新的指标来判断,我们定义的“小组”(比如把哪几个像素点或哪几颗棋子看作一个整体)是不是一个**“有机的、合理的团队”**。

这让 AI 的解释变得更加符合人类的直觉,也能帮助人类更好地理解 AI 到底在想什么,甚至反过来帮助人类专家(如围棋手)发现新的知识。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →