On Distinguishing Capability Elicitation from Capability Creation in Post-Training: A Free-Energy Perspective

本文提出了一种自由能框架,用以区分能力激发(即在模型可及的支持范围内对现有行为进行重加权)与能力创造(即通过搜索或工具使用等机制扩展该支持范围),并论证这一区分在训练后阶段比传统的监督微调与强化学习二分法更为关键。

原作者: Yuhao Li, Shengchao Liu

发布于 2026-05-12
📖 1 分钟阅读☕ 轻松阅读

原作者: Yuhao Li, Shengchao Liu

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

以下是用简单语言和创意类比对该论文的解读。

核心问题:我们是在教导模型,还是仅仅唤醒了它?

想象你有一位才华横溢但略显困惑的音乐家(即 AI 模型),他多年来一直在独自练习(预训练)。现在,你想教他一首新歌。

AI 界对于“如何”教导他们存在巨大争议。

  • 方法 A(SFT,监督微调): 你播放一段完美演奏的录音,并说:“完全照这样模仿。”
  • 方法 B(RL,强化学习): 你让他演奏,每次他弹对音符,就给他奖励;每次弹错,就不给奖励。

普遍的观点认为:方法 A 只是让他们模仿已知内容(模仿),而 方法 B 能帮助他们发现以前从未知晓的惊人新事物(发现)。

本文作者表示:“停。这种区分太简单了。”

他们认为,真正的问题不在于你“如何”教导(模仿 vs. 奖励),而在于你实际上在教什么。你是仅仅帮助音乐家演奏了一首他原本就有能力演奏但总是搞砸的曲子?还是你实际上赋予了他演奏一首以前在生理上无法演奏的曲子的能力?

他们将这两者称为:

  1. 能力激发(Capability Elicitation): 唤醒一种已经存在但处于沉睡状态的技能。
  2. 能力创造(Capability Creation): 赋予音乐家一种全新的、此前不具备的技能。

“能量景观”类比

为了解释这一点,作者使用了一个物理学概念:自由能。想象音乐家的大脑是一片丘陵地带。

  • 山谷(Basins): 这些是音乐家自然演奏的简单歌曲。它们深邃、舒适,很容易陷入其中。
  • 山丘(Tails): 这些是音乐家能够演奏,但位置很高的歌曲。到达那里需要付出巨大努力(或尝试很多次)。
  • 墙壁(Barriers): 这些是被巨大且无法攀爬的墙壁隔开的歌曲。音乐家仅靠四处走动无法到达;他们需要梯子或桥梁。
  • 世界的另一端(Unsupported): 这些是音乐家的宇宙中根本还不存在的歌曲。

训练如何在这片地图上运作

无论是“模仿”(SFT)还是“奖励”(RL),其运作方式都是倾斜这片景观

  • 如果你为山谷中的一首歌给予奖励,山谷会变得更深。音乐家会更频繁地演奏这首歌。
  • 如果你为山丘上的一首歌给予奖励,山丘就会变成斜坡。音乐家现在可以更容易地爬上那首歌了。

关键点:
如果那首歌原本就在山谷里或山丘上,你就没有创造新的能力。你只是让现有的能力变得更加可靠。这就是激发(Elicitation)

如果那首歌在墙壁后面,而你的训练方法以某种方式建造了桥梁或梯子让你到达那里,那么你就创造了一种新的能力。这就是创造(Creation)


学习的四个区域

基于这张地图,该论文将后训练过程细分为四种具体场景:

1. “安全区”(演示覆盖的激发)

  • 场景: 音乐家已经完美掌握了这首歌,但有时会忘记歌词。你给他看乐谱(演示)。
  • 结果: 他不再忘记了。他没有学会新歌;只是稳定了旧歌。
  • 结论: 无论你使用模仿还是奖励,如果答案原本就很容易找到,你只是在打磨一颗粗糙的宝石,而不是创造新的东西。

2. “隐藏宝石”(尾部重加权)

  • 场景: 音乐家知道一段复杂的爵士独奏,但他百万次尝试中才演奏一次。它隐藏在“山丘”之中。
  • 结果: 你使用奖励系统说:“哇,那段爵士独奏太棒了!”突然,他开始一直演奏它。
  • 结论: 这看起来像魔法,因为表现力突飞猛进。但音乐家一直都能演奏它;他只是需要一个推动力来找到它。这仍然是激发,而非创造。

3. “桥梁建造者”(跨越障碍的发现)

  • 场景: 音乐家需要演奏一首要求按顺序执行一系列他从未共同尝试过的步骤的歌曲。它在墙壁后面。
  • 结果: 你不仅仅在结束时给予奖励。你为沿途的步骤给予奖励,或者你让他使用工具(如梯子)来跨越鸿沟。
  • 结论: 这是能力创造。训练不仅仅是倾斜了山丘;它改变了地形,使音乐家能够到达以前被阻挡的地方。

4. “不可能区”(不支持的机制)

  • 场景: 你要求音乐家演奏一首需要小提琴的歌曲,但他只有一把吉他。
  • 结果: 无论多少模仿或奖励都无济于事。演奏那首歌所需的“能量”是无限的。
  • 结论: 你无法仅通过训练在这里“创造”一种能力。你需要新的信息、新的乐器,或者完全不同的模型。

为什么这很重要

该论文认为,我们常常感到困惑,是因为我们关注的是方法(SFT vs. RL),而不是机制

  • 误区: "RL 是魔法,因为它能创造新技能。”

  • 现实: 只有当 RL 与工具、搜索或交互相结合,帮助模型跨越“墙壁”时,它才能创造新技能。如果 RL 仅仅是奖励模型做它原本就能做的事情,那它只是激发

  • 误区: "SFT 很弱,因为它只是模仿。”

  • 现实: 如果“模仿”数据来自超级聪明的来源(如搜索引擎或更强大的 AI),SFT 可以教会模型它从未知道的东西,实际上起到了创造的作用。

核心结论

当我们看到 AI 变得更好时,我们不应该只问:“他们使用了强化学习吗?”

我们应该问:“他们只是让 AI 更擅长做它原本就能做的事情,还是实际上赋予了 AI 做以前无法做到的事情的能力?”

该论文指出,大多数时候,我们只是在唤醒原本就存在的技能(激发),在声称我们真正发明了新的能力(创造)之前,我们需要非常谨慎。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →