MINAR: Mechanistic Interpretability for Neural Algorithmic Reasoning

原作者： Jesse He, Helen Jenne, Max Vargas, Davis Brown, Gal Mishne, Yusu Wang, Henry Kvinge

发布于 2026-02-26

📖 1 分钟阅读☕ 轻松阅读

原作者： Jesse He, Helen Jenne, Max Vargas, Davis Brown, Gal Mishne, Yusu Wang, Henry Kvinge

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性，请参阅原始论文。阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 MINAR 的新工具，它的任务是给“会算数学题”的神经网络做CT 扫描，看看它们脑子里到底是怎么思考的。

为了让你更容易理解，我们可以把这篇论文的内容想象成**“侦探破解超级计算机的密码”**。

1. 背景：两个世界的相遇

左边的世界（算法专家）： 以前，我们教电脑做数学题（比如找最短路径），用的是经典的“贝尔曼 - 福特算法”。这就像教学生用固定的公式解题。
右边的世界（AI 专家）： 现在，我们训练一种叫 GNN（图神经网络） 的 AI。神奇的是，这些 AI 自己学会了用类似经典算法的方法解题，而且还能举一反三。
问题： 我们知道 AI 做对了题，但我们不知道它脑子里具体是哪几个神经元在起作用。就像你知道一辆车跑起来了，但不知道引擎里哪个零件在转。

2. 主角登场：MINAR（机械解释工具箱）

作者开发了一个叫 MINAR 的工具。你可以把它想象成一台**“超级显微镜”或者“电路侦探”**。

它是怎么工作的？
想象你在玩一个巨大的乐高城堡（这就是神经网络）。MINAR 会做这样一个实验：
1. 它先让城堡正常运作，记录下结果。
2. 然后，它偷偷把城堡里的某些积木（神经元）涂黑或者换掉（这就是“破坏输入”）。
3. 接着，它观察城堡哪里塌了，或者哪里还能维持运转。
4. 通过对比，它能精准地画出**“核心电路”**——也就是那些真正负责解题的关键积木块。

3. 两个精彩的发现（案例研究）

案例一：贝尔曼 - 福特算法的“瘦身”之旅

故事： 研究人员训练 AI 学习“找最短路径”。
发现 1（完美复刻）： MINAR 发现，AI 脑子里确实有一个非常精简的“电路”，它的运作方式竟然和人类写的经典数学公式一模一样！这证明了 AI 真的“学会”了算法，而不是死记硬背。
发现 2（延迟修剪）： 这是一个很有趣的现象。刚开始训练时，AI 脑子里有很多多余的“杂念”（多余的神经元）。虽然 AI 早就做对题了，但这些多余的零件要等到训练很久之后，才会被“剪掉”。
- 比喻： 就像学骑自行车，刚开始你全身僵硬，手脚乱动（有很多多余动作），虽然也能骑，但很笨拙。练了很久之后，你才慢慢把多余的动作去掉，变得行云流水。MINAR 让我们看到了这个“去油”的过程。

案例二：走捷径的“偷懒”AI

故事： 研究人员让 AI 同时学两件事：找最短路径（贝尔曼 - 福特）和找能不能到达某个地方（广度优先搜索 BFS）。
发现： AI 并没有分别学习两种方法。它发现了一个**“作弊捷径”**：它直接用“最短路径”的结果，稍微改个符号，就假装自己在做“能不能到达”的判断。
- 比喻： 这就像学生考试，本来要算一道复杂的数学题，结果他发现只要把上一题的答案乘以 -1 再加个常数，就能蒙对第二题。虽然分数拿到了，但这并不是真正的理解。MINAR 把这个“作弊小抄”给揪出来了，这是以前很难发现的。

4. 第三个发现：一鱼多吃

故事： 研究人员让 AI 同时学 7 种不同的图算法（比如找树、找桥、找最短路径等）。
发现： MINAR 发现，AI 在处理相似的题目时，会复用同一套“核心零件”。
- 比喻： 就像厨师做“红烧肉”和“红烧排骨”，虽然菜名不同，但核心步骤（炒糖色、炖煮）用的是同一套锅具和手法。AI 很聪明，它知道哪些工具是通用的，从而提高了效率。

5. 这篇论文有什么用？

让 AI 更透明： 以前我们只能看到 AI 的输入和输出，现在能看到它内部的“思考路径”。
压缩模型： 既然知道了哪些零件是多余的，我们就可以把 AI 变小、变快，而不影响它的能力（就像把大房子装修成精致的小公寓）。
防止“假学习”： 如果 AI 在走捷径（像案例二那样），我们可以及时发现并纠正它，让它真正理解算法。

总结

这篇论文就像给 AI 做了一次**“深度体检”**。它告诉我们：AI 不仅能学会像人类一样的算法，而且在这个过程中，它会经历“从笨拙到精简”的进化，甚至偶尔会耍小聪明走捷径。MINAR 这个工具，就是帮我们看清这一切的“火眼金睛”。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

神经算法推理 (NAR) 的兴起：图神经网络 (GNN) 展现出一种被称为“算法对齐”（Algorithmic Alignment）的能力，即能够像经典算法（如 Bellman-Ford、BFS 等）一样处理图数据。这种能力通常源于 GNN 的消息传递机制与动态规划的相似性。
机制可解释性 (Mechanistic Interpretability) 的发展：在大语言模型 (LLM) 领域，研究者开始关注“机制可解释性”，旨在识别模型内部执行特定计算的微观组件（如“电路”Circuits）。
核心问题：尽管 GNN 在算法任务上表现优异，但缺乏针对 GNN 的细粒度机制可解释性工具。现有的电路发现方法主要针对 LLM（通常基于注意力头或 MLP 模块），难以直接应用于 GNN 的神经元级别，且 GNN 在输入图上的参数共享特性使得传统的电路定义变得复杂。
研究目标：开发一种高效的工具，能够在 GNN 中自动发现执行特定算法逻辑的神经元级电路，从而揭示模型是如何学习、泛化以及复用算法组件的。

2. 方法论 (Methodology)

作者提出了 MINAR (Mechanistic Interpretability for Neural Algorithmic Reasoning)，这是首个将自动化电路发现应用于 GNN 框架的工具。

2.1 核心概念定义

模型计算图 (Model Computation Graph)：将 GNN 视为一个有向无环图，其中节点代表单个神经元，边代表神经元激活值之间的连接。
GNN 的特殊性处理：由于 GNN 在输入图的每个节点上共享参数，单个神经元 $\psi$ 在单次前向传播中会有多个激活值（对应输入图的每个节点）。MINAR 通过平均化（Pooling）策略，将每个神经元在输入图所有节点上的激活值聚合，从而为每条计算边分配一个单一的归因分数。

2.2 归因补丁技术 (Attribution Patching)

MINAR 改编自 LLM 领域的归因补丁方法，用于评估计算边的重要性：

构建干扰数据：创建干净输入图 $G$ 和干扰输入图 $G'$ （例如，将边权重设为 0，翻转节点特征）。
计算 EAP 分数：利用边缘归因补丁 (Edge Attribution Patching, EAP) 及其积分梯度变体 (EAP-IG)。
- 公式核心： $EAP(i,j) \approx (z'_i - z_i)^\top \frac{\partial L}{\partial \psi_j}$
- 其中 $z_i$ 和 $z'_i$ 分别是干净和干扰输入下神经元 $i$ 的激活值， $L$ 是损失函数。
- 通过计算干净与干扰输入之间的激活差异与梯度的点积，来近似移除该边对模型输出的因果影响。
电路构建算法：
- 计算所有边的 EAP/EAP-IG 分数。
- 利用最长路径算法（因为计算图是有向无环的），从输入到输出构建包含高分数边的连通子图。
- 这确保了提取的电路是端到端连通的，避免了传统 Top-K 选择导致的碎片化问题。

2.3 评估指标

正保真度 (Fid+)：移除电路后模型性能下降的程度（衡量必要性）。
负保真度 (Fid-)：仅保留电路时模型保持原性能的程度（衡量充分性）。
特征化分数 (Characterization Score)：结合上述两者的调和平均数。

3. 关键贡献 (Key Contributions)

首个 GNN 电路发现工具：提出了 MINAR，成功将机制可解释性方法适配到 GNN 设置，实现了神经元级别的电路提取。
验证了 Bellman-Ford 算法的精确复现：
- 在训练用于单源最短路径的 GNN 上，MINAR 成功提取了一个仅包含 10 个参数的最小电路，该电路完全复现了 Bellman-Ford 算法的行为。
- 证明了提取的电路既是充分的（独立运行能达到全模型精度），也是必要的（移除后模型失效）。
揭示了“延迟剪枝”现象 (Delayed Pruning)：
- 发现模型在训练早期（约 1000 轮）就能获得良好的泛化能力，但形成最终的最优最小电路却需要更长的时间（约 3000 轮或更久）。
- 这表明 L1 正则化在模型已经泛化后，继续通过剪枝去除冗余参数，将“可泛化的模型”精炼为“最简电路”。
揭示了“捷径学习” (Shortcut Learning)：
- 在同时训练 Bellman-Ford 和 BFS（广度优先搜索）任务时，模型并未独立学习 BFS 逻辑，而是利用已学到的最短路径距离作为“捷径”来推断可达性。MINAR 成功捕捉到了这种隐式的捷径机制。
多任务电路复用分析：
- 在 CLRS-30 基准的 7 个任务上，MINAR 展示了模型如何复用相同的电路组件来处理相关任务（如 Dijkstra、Prim 和 Bellman-Ford 共享基于边权重的电路；DFS、关节点和桥共享基于 DFS 的电路）。

4. 实验结果 (Results)

案例研究 1：Bellman-Ford (单任务)
- 电路提取：从 18,240 条边的计算图中提取出 10 条边的最小电路。
- 性能：提取的电路在测试集上的乘性损失 (LMult) 为 0.0545，与全模型 (0.0578) 相当甚至略优。
- 剪枝过程：观察显示，随着训练进行和 L1 正则化作用，电路从早期的较大结构（如 73 条边）逐渐收缩为最终的最小结构。
案例研究 2：Bellman-Ford + BFS (多任务)
- 捷径发现：模型学习到的 BFS 电路几乎与 Bellman-Ford 电路相同。BFS 输出实际上是通过对最短路径距离的线性变换（乘以负权重并加偏置）得到的，而非真正的 BFS 遍历。
- 验证：移除该电路后，BFS 准确率从 1.00 降至 0.8198（即模型倾向于将所有节点标记为可达）。
案例研究 3：SALSA-CLRS (大规模基准)
- 任务覆盖：在 BFS, DFS, Dijkstra, Prim, Bellman-Ford, 关节点，桥等 7 个任务上进行了测试。
- 方法对比：EAP 和 EAP-IG 在发现解释性电路方面优于简单的权重基线 (Weight) 和梯度基线 (Weight Grad)。
- 电路重叠：加权 Jaccard 相似度分析显示，相关算法（如 Dijkstra 和 Prim）的电路高度重叠，验证了 GNN 在并行任务中共享计算组件的机制。

5. 意义与影响 (Significance)

深化对 NAR 的理解：MINAR 提供了微观视角，证明 GNN 并非仅仅“黑盒”拟合，而是确实学习到了类似经典算法的结构化逻辑。
模型压缩与蒸馏的新视角：研究发现的“延迟剪枝”现象表明，仅仅在模型达到泛化性能时就停止训练或进行压缩可能不是最优的。继续训练并利用正则化可以产生更稀疏、更高效的电路，这为模型压缩和知识蒸馏提供了新的策略（即寻找“精炼后”的教师模型）。
揭示捷径学习的风险：MINAR 能够发现即使在高泛化性能下，模型也可能通过非预期的捷径（Shortcut）来解决问题，这对于评估模型在分布外（OOD）场景下的鲁棒性至关重要。
可解释性工具的扩展：将机制可解释性从 LLM 成功迁移到 GNN，为理解图结构数据的推理过程提供了通用的分析框架。

总结

MINAR 通过结合归因补丁技术和 GNN 的特定结构，成功实现了神经元级别的电路发现。它不仅验证了 GNN 能够精确实现经典算法，还揭示了训练动态中电路形成与剪枝的微妙过程，以及多任务学习中的组件复用和捷径学习现象。这项工作为神经算法推理领域的可解释性研究奠定了重要基础。