以下是用简单语言和创意类比对该论文的解读。

核心问题：我们是在教导模型，还是仅仅唤醒了它？

想象你有一位才华横溢但略显困惑的音乐家（即 AI 模型），他多年来一直在独自练习（预训练）。现在，你想教他一首新歌。

AI 界对于“如何”教导他们存在巨大争议。

方法 A（SFT，监督微调）： 你播放一段完美演奏的录音，并说：“完全照这样模仿。”
方法 B（RL，强化学习）： 你让他演奏，每次他弹对音符，就给他奖励；每次弹错，就不给奖励。

普遍的观点认为：方法 A 只是让他们模仿已知内容（模仿），而 方法 B 能帮助他们发现以前从未知晓的惊人新事物（发现）。

本文作者表示：“停。这种区分太简单了。”

他们认为，真正的问题不在于你“如何”教导（模仿 vs. 奖励），而在于你实际上在教什么。你是仅仅帮助音乐家演奏了一首他原本就有能力演奏但总是搞砸的曲子？还是你实际上赋予了他演奏一首以前在生理上无法演奏的曲子的能力？

他们将这两者称为：

能力激发（Capability Elicitation）： 唤醒一种已经存在但处于沉睡状态的技能。
能力创造（Capability Creation）： 赋予音乐家一种全新的、此前不具备的技能。

“能量景观”类比

为了解释这一点，作者使用了一个物理学概念：自由能。想象音乐家的大脑是一片丘陵地带。

山谷（Basins）： 这些是音乐家自然演奏的简单歌曲。它们深邃、舒适，很容易陷入其中。
山丘（Tails）： 这些是音乐家能够演奏，但位置很高的歌曲。到达那里需要付出巨大努力（或尝试很多次）。
墙壁（Barriers）： 这些是被巨大且无法攀爬的墙壁隔开的歌曲。音乐家仅靠四处走动无法到达；他们需要梯子或桥梁。
世界的另一端（Unsupported）： 这些是音乐家的宇宙中根本还不存在的歌曲。

训练如何在这片地图上运作

无论是“模仿”（SFT）还是“奖励”（RL），其运作方式都是倾斜这片景观。

如果你为山谷中的一首歌给予奖励，山谷会变得更深。音乐家会更频繁地演奏这首歌。
如果你为山丘上的一首歌给予奖励，山丘就会变成斜坡。音乐家现在可以更容易地爬上那首歌了。

关键点：
如果那首歌原本就在山谷里或山丘上，你就没有创造新的能力。你只是让现有的能力变得更加可靠。这就是激发（Elicitation）。

如果那首歌在墙壁后面，而你的训练方法以某种方式建造了桥梁或梯子让你到达那里，那么你就创造了一种新的能力。这就是创造（Creation）。

学习的四个区域

基于这张地图，该论文将后训练过程细分为四种具体场景：

1. “安全区”（演示覆盖的激发）

场景： 音乐家已经完美掌握了这首歌，但有时会忘记歌词。你给他看乐谱（演示）。
结果： 他不再忘记了。他没有学会新歌；只是稳定了旧歌。
结论： 无论你使用模仿还是奖励，如果答案原本就很容易找到，你只是在打磨一颗粗糙的宝石，而不是创造新的东西。

2. “隐藏宝石”（尾部重加权）

场景： 音乐家知道一段复杂的爵士独奏，但他百万次尝试中才演奏一次。它隐藏在“山丘”之中。
结果： 你使用奖励系统说：“哇，那段爵士独奏太棒了！”突然，他开始一直演奏它。
结论： 这看起来像魔法，因为表现力突飞猛进。但音乐家一直都能演奏它；他只是需要一个推动力来找到它。这仍然是激发，而非创造。

3. “桥梁建造者”（跨越障碍的发现）

场景： 音乐家需要演奏一首要求按顺序执行一系列他从未共同尝试过的步骤的歌曲。它在墙壁后面。
结果： 你不仅仅在结束时给予奖励。你为沿途的步骤给予奖励，或者你让他使用工具（如梯子）来跨越鸿沟。
结论： 这是能力创造。训练不仅仅是倾斜了山丘；它改变了地形，使音乐家能够到达以前被阻挡的地方。

4. “不可能区”（不支持的机制）

场景： 你要求音乐家演奏一首需要小提琴的歌曲，但他只有一把吉他。
结果： 无论多少模仿或奖励都无济于事。演奏那首歌所需的“能量”是无限的。
结论： 你无法仅通过训练在这里“创造”一种能力。你需要新的信息、新的乐器，或者完全不同的模型。

为什么这很重要

该论文认为，我们常常感到困惑，是因为我们关注的是方法（SFT vs. RL），而不是机制。

误区： "RL 是魔法，因为它能创造新技能。”
现实： 只有当 RL 与工具、搜索或交互相结合，帮助模型跨越“墙壁”时，它才能创造新技能。如果 RL 仅仅是奖励模型做它原本就能做的事情，那它只是激发。
误区： "SFT 很弱，因为它只是模仿。”
现实： 如果“模仿”数据来自超级聪明的来源（如搜索引擎或更强大的 AI），SFT 可以教会模型它从未知道的东西，实际上起到了创造的作用。

核心结论

当我们看到 AI 变得更好时，我们不应该只问：“他们使用了强化学习吗？”

我们应该问：“他们只是让 AI 更擅长做它原本就能做的事情，还是实际上赋予了 AI 做以前无法做到的事情的能力？”

该论文指出，大多数时候，我们只是在唤醒原本就存在的技能（激发），在声称我们真正发明了新的能力（创造）之前，我们需要非常谨慎。

技术摘要：区分训练后阶段的能力激发与能力创造

1. 问题陈述

当前关于大语言模型（LLM）训练后阶段的讨论，往往将监督微调（SFT）与强化学习（RL）之间的区别框定为模仿（SFT）与发现（RL）的二元对立。本文认为，这种区分过于粗糙，掩盖了训练后阶段如何改变模型行为的根本机制。

核心问题在于确定某种训练后程序是：

激发能力：提高预训练基座模型本已能够产生但表现不可靠的行为的概率。
创造能力：扩展模型实际可达到的行为集合，使其能够实现此前无法达成的结果。

作者主张，将某种方法标记为"SFT"或"RL"并不能决定其能力机制。相反，该机制取决于训练信号的来源（演示数据与奖励）、候选行为的生成方式，以及该过程是否扩展了模型的可达支撑集（accessible support）。

2. 方法论与理论框架

2.1 自由能视角

作者利用自由能框架将训练后过程形式化，类比于统计物理学（$F = E - TS$）。他们将训练后目标解释为最小化有效自由能：
$F_x(q) = \mathbb{E}_{y \sim q(y|x)}[E(x, y)] + \beta \text{KL}[q(y|x) \parallel p_0(y|x)]$
其中：

$p_0(y|x)$ 是预训练参考分布。
$q(y|x)$ 是训练后分布。
$E(x, y)$ 是源自外部信号的有效能量。
$\beta$ 充当逆温度，控制利用偏好行为与保持多样性（KL 约束）之间的权衡。

核心理论见解：

SFT 即能量：SFT 最小化演示数据上的负对数似然。这等同于定义有效能量 $E_{SFT}(x, y) = -\beta \log \frac{p_{demo}(y|x)}{p_0(y|x)}$ 。如果某种行为在演示分布中，但在基座模型中概率为零（ $p_0 \to 0$ ），能量将变得奇异，从而破坏局部重加权的解释。
RL 即能量：RL 在 KL 约束下最大化奖励。这对应于 $E_{RL}(x, y) = -R(x, y)$ 。最优分布是参考分布的玻尔兹曼重加权： $q^*(y|x) \propto p_0(y|x) \exp(R(x, y)/\beta)$ 。
局部重加权：当更新保持在参考模型附近（强 KL 约束）时，主要效果是对现有分布进行局部重加权，而非创造新行为。

2.2 可达支撑集

为了将“激发”与“创造”之间的区别操作化，本文引入了可达支撑集的概念：指模型在有限的采样、优化和散度预算下实际能够产生的行为集合。这一概念超越了严格的数学支撑集（非零概率），转向实际可达性。

作者根据目标行为与基座模型可达支撑集之间的关系，将行为景观划分为四个区域：

演示覆盖的激发：目标行为位于基座模型的高概率“盆地”中，并被演示数据覆盖。训练后过程稳定了这种现有行为。
尾部重加权：目标行为位于基座模型分布的“尾部”（在贪婪解码下罕见，但在更大的采样预算如 best-of-N 下可达）。训练后过程放大了这些罕见但可达的行为。
跨越障碍的发现：目标行为与基座模型的典型输出被“障碍”（一系列低概率的中间步骤）隔开。要达到这些行为，需要改变轨迹生成过程（例如通过搜索、工具使用或过程监督），而不仅仅是重加权。
无支撑区域：目标行为位于基座模型的支撑集之外（ $p_0(y|x) = 0$ ）。有效能量变得发散。若无新信息、工具或架构变更，训练后过程无法创造这些能力。

3. 主要贡献

重构 SFT 与 RL 的辩论：本文将焦点从算法标签（SFT/RL）转移到能力变化的机制（激发与创造）。它认为，如果演示数据质量高（覆盖尾部），SFT 可以激发新行为；而如果受强 KL 惩罚约束，RL 可能仅仅是重加权。
诊断框架：通过应用自由能视角，作者提供了一种数学工具，用于诊断性能提升是源于局部重加权（在可达支撑集内）还是支撑集扩展（跨越障碍）。
四种区域：本文建立了训练后结果的分类法，阐明了“能力创造”并非方法的二元属性，而是训练信号、候选生成过程与基座模型可达性之间相互作用的属性。
澄清“创造”：作者认为，真正的能力创造（跨越障碍的发现）需要改变轨迹生成过程的机制（例如搜索、交互、工具使用），而非孤立的奖励最大化。

4. 结果与主张

本文并未提出新的实证基准，而是对现有的训练后现象提供了诊断性分析：

SFT 并非 inherently 薄弱：如果演示数据包含由搜索或更强模型生成的轨迹，SFT 可以激发基座模型很少产生的行为。SFT 的局限性在于演示分布的覆盖范围，而非监督目标本身。
RL 并非 inherently 具有创造性：如果 RL 在强 KL 约束下应用且缺乏搜索机制，它仅仅是对基座模型尾部行为的重加权。在此区域中巨大的基准测试增益反映的是尾部重加权，而非新能力的创造。
奇点边界：从激发到创造的过渡由自由能公式中的奇点标记。当所需行为的 $p_0(y|x) \to 0$ 时，局部重加权的观点失效，表明该行为位于可达支撑集之外。

5. 意义与范围

本文主张，区分能力激发与能力创造对于严谨的训练后研究至关重要。

适度主张：作者明确表示，他们并不声称 SFT 和 RL 是相同的，也不认为优化动力学无关紧要。相反，他们主张优化动力学必须相对于特定区域进行解释（例如，在跨越障碍的区域，优化必须与轨迹生成变化相结合）。
范围：该框架具有诊断性质。它阐明了单纯的性能提升不足以作为能力创造的证据。要声称创造了能力，必须证明该方法扩展了模型可达的行为空间，通常是通过搜索、交互或新信息，而不仅仅是重加权现有概率。
未来方向：本文呼吁未来的工作明确区分这些区域。研究人员不仅应报告性能增益，还应说明这些增益是反映了盆地的稳定、尾部的放大，还是障碍的跨越。

总之，本文提出，训练后阶段的核心问题不是"SFT 还是 RL？”，而是“该方法是对已可达内容的重加权，还是扩展了可达内容的范围？”

On Distinguishing Capability Elicitation from Capability Creation in Post-Training: A Free-Energy Perspective