Actionable Interpretability Must Be Defined in Terms of Symmetries

原作者： Pietro Barbiero, Mateo Espinosa Zarlenga, Francesco Giannini, Alberto Termine, Filippo Bonchi, Mateja Jamnik, Giuseppe Marra

发布于 2026-06-15

📖 1 分钟阅读☕ 轻松阅读

查看于 arXiv ↗PDF ↗

CC BY 4.0

原作者： Pietro Barbiero, Mateo Espinosa Zarlenga, Francesco Giannini, Alberto Termine, Filippo Bonchi, Mateja Jamnik, Giuseppe Marra

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性，请参阅原始论文。阅读完整免责声明

核心问题：“‘可理解性’到底意味着什么？”

想象你有一个预测天气的机器人。它极其准确，但当你问它为什么认为会下雨时，它只回答：“因为数学计算结果如此。”你无法理解这些数学逻辑，因此你无法信任这个机器人。

多年来，研究人员一直试图构建“可解释”的 AI（即人类可以理解的 AI）。但本文认为，整个领域都出了问题。为什么？因为每个人对“可理解”的定义都不一样。有人说意味着“简单”，有人说意味着“透明”，还有人说意味着“可解释”。由于缺乏统一且严格的规则手册，我们无法真正测试一个模型是真的具有可解释性，还是仅仅在装模作样。

作者说：我们需要一套基于“对称性”（Symmetries）的新规则手册。

在物理学中，“对称性”是指当你改变某些东西（比如旋转一个雪花）时，它看起来仍然保持不变。作者认为，对于一个 AI 而言，要实现可解释性，即使我们改变观察它的方式或观察者是谁，它也必须保持“一致”（或可预测）。他们提出了四种特定的对称性作为检查清单。如果一个模型通过了所有四项测试，它才是真正可解释的。

四种对称性（四条规则）

可以将这些规则视为确保 AI 与人类语言一致并遵循相同逻辑的方法。

1. 推理等变性 (Inference Equivariance)：“翻译测试”

核心思想： 如果你将 AI 的输出翻译成人类语言，人类应该能够在 AI 说话之前就预判出它会说什么。
类比： 想象一个秘密代码。如果你给人类一个“解码环”（翻译工具），他们应该能够猜出 AI 即将发送的信息。如果人类即便有了翻译也无法猜出结果，那么这个 AI 就不是可解释的。
论文观点： 这条规则强制要求 AI 具备可预测性。如果人类无法在脑海中模拟 AI 的思考过程，该 AI 就未通过此项测试。

2. 信息不变性 (Information Invariance)：“垃圾桶规则”

核心思想： AI 应该只保留重要的信息，并丢弃其余部分。
类比： 想象你在识别一只狗。你需要知道它有四条腿和毛发。你不需要知道背景中主人衬衫的具体红色色调。
论文观点： 一个真正可解释的模型应该像一个智能过滤器。它会丢弃“噪声”（无关的像素或数据），只保留“信号”（决策所需的特征）。如果模型保留了每一个微小的细节，它就会变得过于混乱而难以理解。

3. 概念闭包不变性 (Concept-Closure Invariance)：“词汇匹配”

核心思想： AI 必须使用人类真正使用并理解的概念。
类比： 想象 AI 说：“这个物体是‘Glorp’。”如果“Glorp”不是人类认知的词汇，你就无法理解它。但如果 AI 说：“这个物体是‘红色的’且‘圆形的’”，而你也知道“红色”和“圆形”是什么意思，你就能理解它。
论文观点： AI 的内部“概念”必须与人类概念完美匹配。如果 AI 使用了一个无法映射到人类观念的奇怪内部标签，它就失败了。这确保了 AI 不仅仅是在使用秘密代码，而是在使用我们共同的词汇。

4. 结构不变性 (Structural Invariance)：“心理模型匹配”

核心思想： AI 的内部逻辑必须符合人类思考的方式。
类比： 想象一个学生只能理解简单的加法。如果给他看一个复杂的微积分方程，即使方程是“正确”的，他也无法理解。然而，如果给他看一个简单的加法问题，他就能理解。
论文观点： 只有当 AI 的结构符合你的大脑逻辑时，它对你而言才是可解释的。如果你是一个以直线逻辑（线性逻辑）思考的人，那么 AI 也必须是一个直线。如果 AI 是一个由复杂数学构成的纠缠结，即使它很聪明，对你来说也不是可解释的。

解决方案：构建 AI 的“配方”

作者不仅列出了问题，还提供了一个名为“范畴”（Category）的数学框架（即一种“配方”）来构建通过这些测试的 AI。

弦图 (String Diagrams)： 他们使用视觉化的图表（类似于电路板）来展示这些 AI 模型是如何构建的。不再是一个黑盒，你可以看到其中的线路和方块。
神奇成分： 通过遵循这四种对称性规则，AI 变成了一个“概率模型”，在数学上保证了其可解释性。

为什么这很重要：“三大魔术技巧”

一旦你利用这些对称性构建了 AI，你就可以执行三种强大的“魔术技巧”，这在标准的“黑盒”AI 中是不可能实现的：

对齐 (Alignment/教学)： 你可以从数学上证明 AI 的概念与人类概念是一致的。这就像是在检查 AI 的字典是否与你的字典相同。
干预 (Intervention/微调)： 你可以询问：“如果我改变这个特定的概念会怎样？”然后 AI 会告诉你结果。这就像是在机器上转动旋钮，并观察其产生的确切变化。
反事实分析 (Counterfactuals/如果……会怎样？)： 你可以询问：“如果输入的数据不同，会发生什么？”AI 可以逻辑严密地模拟这种“平行现实”。

总结

本文认为，我们不应再凭直觉猜测什么是“可解释性”。相反，我们应该构建满足这四种严格对称性规则的 AI。如果一个 AI 通过了这些测试，它就被证明是可理解、可预测且安全可用的。如果它没有通过，那么无论它声称自己多么“可解释”，它都仅仅是一个黑盒。

简而言之： 不要只是要求 AI 解释它自己。要通过构建 AI 的结构，使其在匹配人类逻辑、词汇和信息需求方面，从而在本质上迫使它变得可理解。

技术摘要：可操作的解释性必须基于对称性进行定义

1. 问题陈述

本文认为，当前的可解释人工智能（AI）研究在根本上是病态的（ill-posed）。尽管存在许多关于解释性的定义（例如 Kim et al., 2016; Miller, 2019; Doshi-Velez & Kim, 2017），但它们在很大程度上是直观且描述性的。因此，该领域缺乏：

一个用于验证模型是否具有解释性的形式化框架。
一套用于构建可解释模型的设计原则。

现有的定义未能明确如何正式地测试或工程化解释性。作者指出，如果没有严谨的基础，关键的局限性将被忽视，该领域将仅仅停留在对理想属性（如稀疏性、模块化）的罗列上，而无法形成统一的原则。

2. 方法论：基于对称性的框架

受爱尔朗纲领（Klein, 1893）的启发，作者提出，一个可操作的解释性定义必须基于对称性（保持结构的变换）来构建。他们采用了使用马尔可夫范畴（具体为范畴 BorelStoch）的组合概率视角，将人类用户和模型形式化。

该方法引入了四种特定的对称性，当这些对称性得到满足时，即可表征对给定人类用户 $h$ 具有解释性的模型类：

对称性 I：推理等变性 (Inference Equivariance)
- 定义： 如果用户能够“模拟”模型的决策过程，则模型 $P_{Y|X}$ 是可解释的。形式上，必须存在一个存在于用户假设空间 $H_m$ 中的“心理模型” $P^{[h]}_{Y|X}$ ，使得将输入翻译到用户空间并进行预测的结果，等于在原始空间进行预测后再进行翻译的结果。
- 机制： 这由一个交换图表示，其中“先翻译后预测”的路径等于“先预测后翻译”的路径。
- 局限性： 朴素地验证这一点对于高维输入空间是难以处理的（挑战 C1）。
对称性 II：信息不变性 (Information Invariance)
- 定义： 为了解决不可处理性问题，模型必须仅保留对任务充分的输入信息，并丢弃无关细节。
- 机制： 一个满射映射 $P_{Z|X}$ 将输入 $X$ 压缩为潜变量 $Z$ ，使得互信息 $I(Y; X)$ 在边际化下保持不变（ $I(Y; X|Z) = 0$ ）。
- 结果： 这将验证推理等变性的空间从指数级的 $X$ 空间降低到了可处理的 $Z$ 空间。
对称性 III：概念闭包不变性 (Concept-Closure Invariance)
- 定义： 为了确保模型输出与人类理解之间的翻译是“可靠的”（保持语义一致），模型必须在符合人类语义的概念上运行。
- 机制： 利用形式概念分析，将“概念”定义为对象与句子之间关系的固定点。翻译 $\tau_C$ 是可靠的，如果它保持了概念闭包（对象、句子及其映射的图表是交换的）。
- 结果： 这确保了模型使用的潜变量与人类可理解的概念相对应，防止了冲突的解释。
对称性 IV：结构不变性 (Structural Invariance)
- 定义： 模型的内部结构必须与用户的认知能力（其“心理模型”假设空间 $H_m$ ）相兼容。
- 机制： 如果用户只能进行线性推理，则模型也必须是线性的。形式上，结构属性在将可解释模型范畴映射到人类心理模型范畴的函子 $F$ 下得以保持。
- 结果： 这使得解释性具有明确的用户中心性；只有当模型的结构复杂度与用户的推理能力匹配时，该模型才是可解释的。

3. 核心贡献

A. 可解释模型的正式定义
作者将满足所有四种对称性的模型定义为可解释模型。他们构建了一个可解释模型范畴（ $I_m$ ），它是 BorelStoch 的一个子范畴。

对象： 概念空间（ $C_1, \dots, C_k$ ）。
过程： 基于概念的条件概率、复制映射和丢弃映射。
组合： 顺序组合与并行组合规则。
该范畴作为一个“食谱”（通过弦图实现），可以用来构建任何可解释的模型。

B. 将推理类型统一为贝叶斯反演
论文证明，在此框架下，解释性中使用的三种关键推理类型被统一为贝叶斯反演的形式：

概念对齐： 通过计算给定真实概念证据下的参数后验分布来学习人类概念。
干预： 通过后验推理，根据外部干预（例如 $do$-演算或真实值覆盖）更新模型状态。
反事实： 通过重写模型以隔离外生变量（溯因）、进行干预，并在修改后的模型中预测结果。

C. 现有属性的推导
该框架表明，文献中经常提到的理想属性（稀疏性、紧凑性、忠实性、模块化）并非原始公理，而是满足所提对称性的结果。例如：

稀疏性和紧凑性源于信息不变性。
忠实性和对齐性源于概念闭包不变性。
线性或单调性要求源于结构不变性。

4. 结果与主张

本文并未呈现新的实验基准或经验结果。相反，其“结果”是理论性和结构性的：

可处理性： 通过强制执行信息不变性，论文声称解决了在高维空间中验证推理等变性的不可处理问题。
可靠性： 通过强制执行概念闭包不变性，论文提供了一个正式的标准，用以区分可靠的翻译（例如“黑” $\to$ “noir”）与不可靠的翻译。
用户中心性： 通过强制执行结构不变性，论文将解释性形式化为一种模型与特定用户假设空间之间的关系，而非模型的固有属性。
统一性： 论文声称将不同的推理任务（对齐、干预、反事实）统一在单一的数学运算之下（马尔可夫范畴内的贝叶斯反演）。

5. 意义与行动呼吁

论文认为，其意义在于将该领域从非正式的属性枚举转向通过对称性进行的形式化验证。

对怀疑论的反驳： 作者针对“不存在统一数学定义”的观点进行了回应，认为对称性提供了一个通用的框架，该框架在保持数学严谨性的同时，通过 $H_m$ 纳入了用户中心性。
对可访问性担忧的反驳： 他们认为，虽然形式化过程（范畴论）是严谨的，但对称性允许进行直观的、示例级的解释，从而使广泛的受众能够理解。
未来方向： 作者呼吁社区：
1. 将现有的解释性方法映射到这四种对称性上。
2. 识别当前工作中隐含假设或违反了哪些对称性（例如，指出概念瓶颈模型虽然满足概念闭包，但如果使用不受约束的深度神经网络，则可能违反结构不变性）。
3. 开发专门针对预期任务和用户的、显式“对称完备”的新方法。

综上所述，本文认为，可操作的解释性不是一种模糊的特质，而是一种特定的结构属性，由模型如何相对于人类用户保留信息、概念和结构来定义，并且所有这些都可以通过所提出的对称性框架进行形式化验证和设计。