Represented Is Not Computed: A Causal Test of Candidate Algorithmic Intermediates in a Transformer

本文表明,尽管线性探针显示在基础数字提取任务上训练的 Transformer 会计算分阶段的算术中间结果,但因果测试揭示实际计算路径依赖于在后期才结合的独立输入流,从而凸显了表征证据与因果机制之间的显著差异。

原作者: Ishita Darade, Sushrut Thorat

发布于 2026-05-22✓ Author reviewed
📖 1 分钟阅读☕ 轻松阅读

原作者: Ishita Darade, Sushrut Thorat

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

想象一下,你有一位非常聪明但神秘的机器人厨师。你给它一张食谱卡,上面写着三种食材:一个大数(NN)、一个基数(BB)和一个特定的“槽位”编号(DD)。厨师的任务是找出这个大数中的一个特定数字,但前提是先将其转换为“基数”语言。

例如,如果大数是 255,基数是 16,你询问第 0 个槽位,厨师就需要进行一些数学运算来告诉你答案。

这篇论文的研究人员想要窥探这位厨师的大脑,看看它究竟如何解决这个谜题。他们对厨师应该如何思考有一个非常具体的理论,并想验证这是否确实是实际发生的情况。

以下是他们发现的故事,分解为简单的步骤:

1. 厨师是这项任务的天才

首先,他们检查了机器人是否真的能完成这项工作。他们在数千个示例上训练了它,然后在新的、未见过的数字上进行了测试。

  • 结果:机器人几乎完美(准确率为 99.83%)。它确切地知道该给出什么答案。因此,我们知道它能够解决这个问题。

2. “蓝图”理论(我们以为正在发生的情况)

这个数学问题有一个清晰的、逐步的解决方案(就像一张蓝图)。要得到答案,理论上你需要:

  1. 计算一个辅助数(BDB^D)。
  2. 将大数除以该辅助数。
  3. 向下取整。
  4. 取余数。

研究人员认为机器人可能正在遵循这张蓝图。他们使用了一种名为“线性探针”(Linear Probe)的工具(把它想象成一个金属探测器)来扫描机器人的大脑。

  • 发现:金属探测器响了!它发现机器人的大脑中确实包含了这些确切的数字。“辅助数”和“向下取整后的数”在机器人的内部思维中清晰可见。
  • 陷阱:因为他们发现了这些数字,便假设机器人正在使用它们来解决问题。这看起来机器人完美地遵循了蓝图。

3. 现实检验(因果测试)

这正是论文变得有趣的地方。仅仅因为机器人拥有这些数字,并不意味着它正在使用它们来做决定。

为了找出机器人实际使用了什么,研究人员对机器人的大脑进行了“手术”,使用了两种方法:

  • 方法 A:静音按钮(消融)
    他们试图“静音”大脑中那些本应将“辅助数”传递给最终答案的特定部分。

    • 结果:令人惊讶的是,静音那些包含复杂数学的部分并没有对机器人造成太大伤害。但是,当他们静音机器人查看“槽位编号”(DD)的最初部分时,机器人立即忘记了如何作答。无论复杂的数学是否存在,机器人都忽略了它。
  • 方法 B:交换(修补)
    他们取来一个“捐赠者”机器人,它拥有不同的“槽位编号”(DD),但大数和基数相同。他们将捐赠者的脑信号交换到原始机器人中。

    • 结果:原始机器人突然给出了捐赠者的答案。但这仅发生在**槽位编号(DD)**不同的情况下。如果他们交换大数(NN)或基数(BB),机器人毫不在意。
    • 结论:机器人并没有使用复杂的数学(蓝图)来决定答案。它只是直接听信“槽位编号”(DD)。

4. “隐藏路径”的发现

最后,他们绘制出了信息实际采取的路径。

  • 他们的预期:一条单一的、有组织的公路,NNBBDD 在此汇合,混合成复杂的数学公式,然后产生答案。
  • 他们的发现:机器人有三条独立的、细小的道路。一条路承载大数,一条承载基数,一条承载槽位编号。这些道路在几乎整个旅程中都保持分离。它们直到最后一刻,就在答案被写下之前才汇合。机器人并没有构建复杂的“辅助数”并将其传递下去;它只是将成分保持分离,直到最后。

核心教训:“被表征”不等于“被计算”

论文的主标题道出了一切:“被表征不等于被计算”(Represented Is Not Computed)。

  • 被表征:机器人的大脑包含了复杂的数学数字。如果你查看大脑,你可以清晰地看到它们(就像在背包里发现一张地图)。
  • 被计算:机器人并未使用这些数字来驾驶汽车。它走了捷径。

类比
想象你正开车去参加一个派对。你的手套箱里有一张详细的、手绘的地图,上面标明了每一个转弯、交通灯和捷径(即“被表征”的数学)。

  • 探针:你看向手套箱并说:“啊哈!你有地图!你一定是在用地图开车!”
  • 现实:你实际上只是记住了路线,并凭直觉驾驶。如果你拿走地图,你依然能到达目的地。如果你把地图换成别人的地图,你毫不在意,因为你根本没在看它。

总结
机器人完美地解决了这个数学问题,甚至以看起来像是在遵循规则的方式“思考”了数学步骤。但是,当他们测试究竟是什么导致机器人给出答案时,他们发现它忽略了复杂的步骤,只是直接对人们询问的特定“槽位”做出反应。

这篇论文警告我们:仅仅因为我们能在神经网络中找到一条信息,并不意味着该网络实际上正在使用该信息来做决定。我们需要测试因果关系,而不仅仅是查看内容。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →