Represented Is Not Computed: A Causal Test of Candidate Algorithmic… — 通俗解释

想象一下，你有一位非常聪明但神秘的机器人厨师。你给它一张食谱卡，上面写着三种食材：一个大数（ $N$ ）、一个基数（ $B$ ）和一个特定的“槽位”编号（ $D$ ）。厨师的任务是找出这个大数中的一个特定数字，但前提是先将其转换为“基数”语言。

例如，如果大数是 255，基数是 16，你询问第 0 个槽位，厨师就需要进行一些数学运算来告诉你答案。

这篇论文的研究人员想要窥探这位厨师的大脑，看看它究竟如何解决这个谜题。他们对厨师应该如何思考有一个非常具体的理论，并想验证这是否确实是实际发生的情况。

以下是他们发现的故事，分解为简单的步骤：

1. 厨师是这项任务的天才

首先，他们检查了机器人是否真的能完成这项工作。他们在数千个示例上训练了它，然后在新的、未见过的数字上进行了测试。

结果：机器人几乎完美（准确率为 99.83%）。它确切地知道该给出什么答案。因此，我们知道它能够解决这个问题。

2. “蓝图”理论（我们以为正在发生的情况）

这个数学问题有一个清晰的、逐步的解决方案（就像一张蓝图）。要得到答案，理论上你需要：

计算一个辅助数（ $B^D$ ）。
将大数除以该辅助数。
向下取整。
取余数。

研究人员认为机器人可能正在遵循这张蓝图。他们使用了一种名为“线性探针”（Linear Probe）的工具（把它想象成一个金属探测器）来扫描机器人的大脑。

发现：金属探测器响了！它发现机器人的大脑中确实包含了这些确切的数字。“辅助数”和“向下取整后的数”在机器人的内部思维中清晰可见。
陷阱：因为他们发现了这些数字，便假设机器人正在使用它们来解决问题。这看起来机器人完美地遵循了蓝图。

3. 现实检验（因果测试）

这正是论文变得有趣的地方。仅仅因为机器人拥有这些数字，并不意味着它正在使用它们来做决定。

为了找出机器人实际使用了什么，研究人员对机器人的大脑进行了“手术”，使用了两种方法：

方法 A：静音按钮（消融）
他们试图“静音”大脑中那些本应将“辅助数”传递给最终答案的特定部分。
- 结果：令人惊讶的是，静音那些包含复杂数学的部分并没有对机器人造成太大伤害。但是，当他们静音机器人查看“槽位编号”（ $D$ ）的最初部分时，机器人立即忘记了如何作答。无论复杂的数学是否存在，机器人都忽略了它。
方法 B：交换（修补）
他们取来一个“捐赠者”机器人，它拥有不同的“槽位编号”（ $D$ ），但大数和基数相同。他们将捐赠者的脑信号交换到原始机器人中。
- 结果：原始机器人突然给出了捐赠者的答案。但这仅发生在**槽位编号（ $D$ ）**不同的情况下。如果他们交换大数（ $N$ ）或基数（ $B$ ），机器人毫不在意。
- 结论：机器人并没有使用复杂的数学（蓝图）来决定答案。它只是直接听信“槽位编号”（ $D$ ）。

4. “隐藏路径”的发现

最后，他们绘制出了信息实际采取的路径。

他们的预期：一条单一的、有组织的公路， $N$ 、 $B$ 和 $D$ 在此汇合，混合成复杂的数学公式，然后产生答案。
他们的发现：机器人有三条独立的、细小的道路。一条路承载大数，一条承载基数，一条承载槽位编号。这些道路在几乎整个旅程中都保持分离。它们直到最后一刻，就在答案被写下之前才汇合。机器人并没有构建复杂的“辅助数”并将其传递下去；它只是将成分保持分离，直到最后。

核心教训：“被表征”不等于“被计算”

论文的主标题道出了一切：“被表征不等于被计算”（Represented Is Not Computed）。

被表征：机器人的大脑包含了复杂的数学数字。如果你查看大脑，你可以清晰地看到它们（就像在背包里发现一张地图）。
被计算：机器人并未使用这些数字来驾驶汽车。它走了捷径。

类比：
想象你正开车去参加一个派对。你的手套箱里有一张详细的、手绘的地图，上面标明了每一个转弯、交通灯和捷径（即“被表征”的数学）。

探针：你看向手套箱并说：“啊哈！你有地图！你一定是在用地图开车！”
现实：你实际上只是记住了路线，并凭直觉驾驶。如果你拿走地图，你依然能到达目的地。如果你把地图换成别人的地图，你毫不在意，因为你根本没在看它。

总结：
机器人完美地解决了这个数学问题，甚至以看起来像是在遵循规则的方式“思考”了数学步骤。但是，当他们测试究竟是什么导致机器人给出答案时，他们发现它忽略了复杂的步骤，只是直接对人们询问的特定“槽位”做出反应。

这篇论文警告我们：仅仅因为我们能在神经网络中找到一条信息，并不意味着该网络实际上正在使用该信息来做决定。我们需要测试因果关系，而不仅仅是查看内容。

技术摘要：被表征的并非被计算

问题陈述
机械可解释性旨在理解神经网络如何整合与任务相关的组件以解决结构化提示。在自然语言和视觉领域，实现这种整合所需的内部关系很少被精确指定到足以定义候选内部算法的程度。本文通过利用算术，特别是基位提取，作为一个更清晰的设置来填补这一空白，在该设置中输入 - 输出函数是已知的，且候选算法可以被明确定义。该任务涉及一个 Transformer 接收十进制数 $N$ 、基数 $B$ 和数字位置 $D$ ，并预测 $N$ 的 $B$ 进制展开式中 $B^D$ 的系数。闭式解为 $y = \lfloor N/B^D \rfloor \mod B$ 。

核心问题在于：模型是否实现了由该闭式解所暗示的“分阶段”算法假设：即先计算 $B^D$ ，然后计算 $N/B^D$ ，取整，最后对 $B$ 取模。具体而言，作者调查了可解释性中常被混淆的三个不同问题：(1) 模型能否解决该任务？(2) 闭式解中的量是否在网络内部被表征？(3) 这些量是否是产生答案所使用的因果中间变量？

方法论
作者使用三个不同的随机种子，从头开始训练了 10 层仅解码器 Transformer，用于基位提取任务。训练数据包括 $N \in \{0, \dots, 999\}$ ， $B \in \{2, \dots, 30\}$ 以及各种数字位置 $D$ 。模型在保留的数 - 基交叉集上进行自回归评估，以确保稳健的泛化能力而非死记硬背。

为了分析内部机制，该研究采用了一个多阶段方法：

线性探测：在冻结的激活上训练线性读取器，以测试闭式解量（ $B^D$ 、 $N/B^D$ 、 $\lfloor N/B^D \rfloor$ 以及最终答案）是否可以从不同层的残差流中线性解码。
注意力消融：作者对从 $D$ -token 流（ $D_{ones}$ ）到输出流（ $O[0]$ 和 $O[1]$ ）的注意力路径进行了针对性消融。他们测量了掩蔽特定层（包括从浅层到深层和从深层到浅层的扫描）的注意力时的性能下降，以识别因果依赖关系。
激活修补：为了确定因果路径携带了什么信息，作者执行了键/值修补。他们将“捐赠者”示例中的 $D_{ones}$ 键/值向量替换到“源”示例中。通过改变捐赠者与源在 $N$ 、 $B$ 或 $D$ 上的差异，他们测试了该路径是携带特定于数字位置的信息，还是携带更广泛的算术中间变量信息。
稀疏电路搜索：执行了从右到左的贪婪搜索，以识别足以完成任务性能的最小注意力路径集，从而揭示模型的整体路由结构。

关键结果

任务能力：模型在保留测试集上实现了近乎完美的性能，三个种子的平均精确答案准确率为 99.83%。这确立了模型可靠地学习了任务映射。
表征（探测）：闭式解量可以从残差流中强线性解码。具体而言， $B^D$ 和类商量（ $N/B^D$ ）可从 $D_{ones}$ 流中获取，最终答案量可从输出流中解码。这使得分阶段算法假设在表征层面上是合理的。值得注意的是，部分这种可解码性甚至在初始化时就已存在，表明它部分源于架构和数据几何的产物，而非纯粹的学习计算。
因果使用（消融与修补）：尽管分阶段中间变量具有强表征，但因果测试揭示了不同的机制。
- 早期敏感性：输出行为对早期 $D_{ones} \to O$ 通信（特别是第 0-1 层）最为敏感。掩蔽这些早期层会导致性能急剧下降，而掩蔽较深层的影响微乎其微。
- 选择性信息传递：修补实验表明， $D_{ones} \to O$ 路径携带的行为有效信息高度选择性地针对 $D$ 。当捐赠者仅在 $N$ 或 $B$ 上与源不同时，修补后模型的输出保持不变（与源匹配）。当捐赠者仅在 $D$ 上与源不同时，输出翻转以匹配捐赠者。
- 因子化路由：稀疏电路搜索揭示， $N$ 、 $B$ 和 $D$ 通过大部分分离的局部支架进行路由，并在输出流处晚期汇聚。没有证据表明存在单一的、统一的闭式中间变量从提示端传输到输出端。

关键贡献与主张
本文的主要贡献是一个解离性观察：模型表征了使分阶段算法解成为可能的量（它们是可线性解码的），但识别出的因果路径并未将这些量传输到输出端。

作者主张"被表征的并非被计算"。在此语境下，“被计算”指的是实际用于形成答案的因果中间变量。该研究表明：

探测可能偏离因果现实：线性探测成功识别了算法中间变量的存在，但因果干预（消融和修补）证明这些中间变量并非输出的主要驱动因素。
可解码性 $\neq$ 因果使用：一个量的高可解码性并不能保证它是学习的因果中间变量；它可能反映了由架构或分词提供的可访问性，这些可访问性虽经训练被塑造，但并未在通往输出的特定因果路径中被利用。
基位提取机制：模型通过将 $N$ 、 $B$ 和 $D$ 路由到分离的路径并在晚期整合来解决该任务，依赖于早期的 $D$ 选择性通信，而非类商值的分阶段传输。

意义
本文作为一个直接且可验证的警告，反对仅依赖线性探测进行机械解释。即使在一个具有明确已知算法且任务性能近乎完美的设置中，内部因果机制也可能与直观的算法假设显著不同。作者认为，机械解释需要展示量如何被因果使用，而不仅仅是它们是否存在。这项工作通过表明启发式或非算法路径可以解决那些清晰可表征但未在因果上被利用的干净算法中间变量的任务，补充了关于 Transformer 电路和算术机制的现有研究。

Represented Is Not Computed: A Causal Test of Candidate Algorithmic Intermediates in a Transformer