想象一下你有一个超级聪明的机器人学生。你想教它行星是如何绕着太阳运动的。你给了它一本记录了行星过去行踪的海量历史书，并要求它预测行星下一步的位置。

这个核心问题是：这个机器人学生只是在死记硬背路径，还是它真的理解了导致这种运动的物理定律？

作者发现，如果没有一些特殊的“辅助轮”（他们称之为归纳偏置/Inductive Biases），这个机器人会是一个出色的记忆者，但却是一个糟糕的物理学家。它能完美地描绘出路径，但它完全不知道行星为什么要那样运动。

以下是他们如何修复这个机器人的故事，分为三个简单的课程。

问题所在：机器人是一个“曲线拟合器”，而不是“物理学家”

把机器人的大脑想象成一个巨大的图书馆。

开普勒式方法（机器人自然产生的方式）： 机器人观察行星旅程中最后的 1,000 个点。它说：“啊哈！我看到规律了。这是一个椭圆形。我会继续画这个椭圆。”这就像一个孩子在临摹画作。它画对了图形，但如果你问：“为什么它是椭圆形的？”或者“是什么力量在拉扯它？”，机器人无法回答。它只知道形状。
牛顿式方法（我们想要的结果）： 我们希望机器人能说：“太阳正通过引力吸引行星。如果我知道行星当前的速率和位置，我就能计算出引力，并预测下一步。”这是在理解“因”，而不仅仅是“果”。

论文表明，标准的 AI 模型（Transformer）自然会变成“临摹者”（开普勒），而无法变成“计算器”（牛顿）。为了修复这一点，作者为它增加了三个特定的“辅助轮”。

课程 1：“像素化地图”问题（空间平滑性）

类比： 想象你正在教一个机器人如何在城市中导航。

错误做法： 你给机器人一张地图，地图上的每一个街角都是完全不同的、随机的颜色。“红色”是第一街与主街的交汇处。“蓝色”是第一街与第二街的交汇处。尽管这些角落紧挨在一起，但机器人认为它们是完全无关的。它每次都必须重新学习“红色”与“蓝色”之间的关系。
修复方法： 作者意识到，当他们把行星的位置切分成微小的“箱体”（就像像素一样）时，他们破坏了空间的自然平滑性。
解决方案： 他们让“箱体”变得更大（减少颜色种类），或者干脆不再使用箱体，而是直接给机器人精确的坐标（就像 GPS 一样）。这让机器人能够看到“点 A”就在“点 B”旁边，从而帮助它建立起真实的物理空间概念，而不是一个混乱且随机的代码堆砌。

课程 2：“多米诺骨牌效应”问题（空间稳定性）

类比： 想象你在玩一个“传声筒”游戏，你向下一个人低声传递一个数字。

错误做法： 如果第一个人说的是“50.1”，第二个人听成了“50.2”，第三个人可能会听到“50.5”，等到传到最后时，数字可能变成了“100”。在物理学中，如果机器人在预测行星位置时出现了一个微小的误差，这个误差会随着每一步不断累积，直到行星飞向深空或撞向太阳。
修复方法： 作者意识到，标准的 AI 训练过于“完美”了。它只从完美的过去数据中学习。
解决方案： 他们开始故意“破坏”机器人的训练数据。他们在机器人阅读的历史数据中加入了微小的静态噪声（就像收音机里的杂音）。这迫使机器人学会如何从微小的错误中恢复，使其具备足够的鲁棒性，能够在预测未来时不会让误差不断堆叠。

课程 3：“长记忆” vs “短记忆”问题（时间局部性）

类比： 这是最重要的部分。

长记忆（开普勒）： 想象一个机器人记得过去一小时内发生的一切。当它试图猜测接下来会发生什么时，它会观察整整一小时的历史来画出一条巨大的曲线。这就像是看着整段过山车轨道来猜测小车接下来的走向。这对于画出曲线很有效，但它并不理解物理。
短记忆（牛顿）： 现在，想象一个机器人被允许只能记住最后两秒钟。它看不见整段轨道。它必须观察小车“现在”在哪里，以及“现在”速度有多快，才能推断出下一步要去哪里。
解决方案： 作者强迫机器人拥有短记忆。他们告诉它：“你只能观察紧邻的过去。”
结果： 因为机器人无法再依赖于“大局观”下的曲线，它被迫去弄清楚游戏的“规则”。它必须计算出此时此刻作用在行星上的隐形“拉力”（引力），才能预测下一步。突然间，机器人不再只是在画椭圆，而是在计算力。它变成了一位物理学家。

核心总结

论文得出结论：你如何设计 AI 的大脑，决定了它能学到什么。

如果你让它观察一切并使用像素化地图，它会变成一个曲线拟合器（开普勒）。它能画出漂亮的图画，但不理解宇宙。
如果你给它一个平滑的地图，教会它处理错误，并强迫它拥有短记忆，它就会变成一名物理学家（牛顿）。它会自行发现引力定律。

作者展示了你不需要把物理定律直接编写进 AI 中。你只需要给它正确的“归纳偏置”（正确的训练约束），它就会自行发现这些规律。

技术摘要：从开普勒到牛顿：归纳偏置如何引导 Transformer 学习世界模型

1. 问题陈述

本文探讨了通用基础模型（Transformer）在科学发现能力方面的关键缺陷。虽然之前的“AI 物理学家”方法通过引入强力的、领域特定的先验知识成功恢复了符号物理定律，但这实际上是在模型中“预设”了物理规律。相反，Vafa 等人（2025）最近的研究表明，即使是 GPT-2 规模的通用 Transformer，也无法获得“世界模型”——即解释现象为何发生的因果抽象。相反，这些模型通过学习几何曲线拟合（开普勒模型）实现了高预测精度，却未能捕捉到底层的动力学定律（牛顿力学）。

核心研究问题是：为什么 Transformer 无法学习行星运动的牛顿世界模型，以及如何解决这一问题？ 作者认为，失败的原因在于缺乏特定的、最小化的归纳偏置，而非架构本身的根本限制。

2. 研究方法

作者在一个受控设置中系统地调查了 Transformer 的失效模式：预测绕中心质量运动的二维行星运动。他们引入了三种最小的归纳偏置，以弥合几何预测与物理定律发现之间的鸿沟。

问题设置

任务涉及给定位置历史记录 $\vec{r}_{t+1}$ 来预测行星的下一个位置，并将其表述为自回归下一标记预测（NTP）问题。

基准测试： 设置遵循 Vafa 等人（2025），将连续坐标离散化为标记（bins），并通过交叉熵损失进行预测。
提议的修改： 作者测试了在标记化、损失函数和注意力机制方面的变体，以隔离特定的归纳偏置。

三种归纳偏置

偏置 1：空间平滑性 (Spatial Smoothness)

失效模式： 默认的标记化将连续的空间坐标离散化为独立的 bin 和随机初始化的嵌入。这破坏了空间平滑性；物理上接近但在不同 bin 中的点被视为互不相关的。作者展示了即使在海量数据（20B tokens）下，学习到的嵌入空间也无法形成连贯的空间图谱（线性可解性较低， $R^2 \approx 0.86$ ）。
解决方案：
1. 优化的标记化： 显著减小词表大小 ( $V$ ) 可以显著改善空间图谱的涌现。作者推导出了一个标度律，显示为了维持图谱质量，训练数据大小 ( $D$ ) 的增长速度必须至少与词表大小 ( $V$ ) 一样快（ $1-R^2 \propto D^{-\alpha_D} V^{\alpha_V}$ ）。
2. 连续坐标： 或者，使用不进行离散化的连续坐标可以本质上提供空间平滑性，尽管这会带来稳定性挑战。

偏置 2：空间稳定性 (Spatial Stability)

失效模式： 自回归模型存在误差累积问题，这在预测连续变量（回归）时比预测离散标记（分类）更为严重。如果没有缓解措施，微小的初始误差会导致轨迹发生灾难性偏离（例如，行星飞向无穷远或撞向太阳）。
解决方案： 噪声上下文学习 (Noisy Context Learning)。作者在训练期间向历史上下文中注入高斯噪声。这迫使模型学习鲁棒的表示，而不依赖于完美的过去状态。
结果： 通过噪声上下文训练，回归（使用连续坐标和 MSE 损失）在所有数据规模上都一致优于分类（使用离散坐标和交叉熵损失）。

偏置 3：时间局部性 (Temporal Locality)

失效模式： 标准 Transformer 利用长上下文长度（例如 1k+ tokens），允许模型访问轨迹的整个历史。这鼓励模型基于所有过去的点来拟合全局几何形状（椭圆）——即一种“开普勒式”的方法。
解决方案： 受限注意力窗口 (Restricted Attention Window)。作者将上下文长度限制在紧邻的过去（例如，仅最后 2 个状态）。这施加了一个物理假设：未来的状态仅取决于局部状态（位置和速度），这与牛顿第二定律（二阶微分方程）相一致。
结果： 这种约束迫使模型放弃全局曲线拟合，转而学习估计局部引力 ( $\vec{F} \propto 1/r^2$ )，从而逐步模拟轨迹——即一种“牛顿式”的方法。

3. 关键结果

空间图谱的涌现： 标记化模型中学习到的空间图谱质量对词表大小高度敏感。较大的词表（如 $V=7000$ ）需要极不切实际的数据量才能学习到连贯的图谱。减少 $V$ 或使用连续坐标可以解决此问题。
回归 vs. 分类： 与 Vafa 等人的发现相反，作者证明了使用连续坐标的回归优于分类，前提是使用噪声上下文学习来稳定推理。
开普勒模型 vs. 牛顿模型：
- 长上下文（开普勒型）： 模型利用所有过去的点来拟合全局椭圆轨迹。它通过延续曲线来进行预测。
- 短上下文（牛顿型）： 当受到局部状态限制时，模型发现了底层的力法则。它通过模拟微分方程 $F=ma$ 来进行预测。
归纳偏置层级： 论文证明了简单的架构选择（标记化策略、上下文长度）决定了 AI 是作为一个“曲线拟合器”（开普勒）还是一个“物理学家”（牛顿）存在。

4. 重要性与主张

本文声称，简单的架构选择是决定通用 AI 是发现物理定律还是仅仅拟合数据的决定性因素。

弥合差距： 这项工作弥合了“AI 物理学家”模型（使用强先验）与通用 Transformer（无法学习物理）之间的鸿沟。它表明，如果配备了最小的、领域无关的归纳偏置（平滑性、稳定性、局部性），通用的 Transformer 可以学习世界模型。
自动化科学发现： 研究结果为“AI 科学家”的愿景提供了“关键试金石”。如果通用架构在没有特定工程干预的情况下无法恢复已知的经典力学定律，那么它们就不能被信任去发现未知的定律。
失效机制： 论文阐明了以往大规模模型的失败并非由于容量不足，而是由于缺乏实现因果抽象（而非几何相关性）所需的特定归纳偏置（特别是时间局部性和空间稳定性）。

作者总结道，通过系统地引入这些偏置，Transformer 可以从预测“接下来会发生什么”过渡到理解“为什么会发生”，这标志着向自动化科学发现迈出了重要一步。

From Kepler to Newton: Inductive Biases Guide Learned World Models in Transformers