A Simple "Motivation" Can Enhance Reinforcement Finetuning of Large Reasoning Models

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种让大型人工智能（AI）模型变得更聪明、更会“推理”的新方法，叫做 MeRF（动机增强型强化微调）。

为了让你轻松理解，我们可以把训练 AI 的过程想象成教一个学生做数学题，或者教一只小狗玩新游戏。

在传统的训练方法（论文里叫 RLVR）中，老师（训练算法）会让学生（AI 模型）不停地做题。

过程：学生做出一道题，老师只给一个结果：“对”或者“错”，或者给个分数。
问题：学生完全不知道为什么是对的，也不知道为什么是错的。他就像在黑暗中摸索，只能靠运气猜。如果题目很难，他可能猜了几千次都猜不对，老师也只会说“不对，再试一次”。
比喻：这就像你让小狗玩一个复杂的寻宝游戏，但你只会在它找到宝藏时说“好狗！”，在它乱跑时说“不行”。小狗根本不知道宝藏藏在哪，也不知道该往哪个方向走，只能靠无数次碰运气。

这篇论文的作者发现，既然 AI 很擅长阅读和理解文字（这叫“上下文学习能力”），那为什么不在做题之前，先把评分规则（也就是“动机”）直接告诉它呢？

做法：在让 AI 做题之前，先给它一段话，明确告诉它：“这道题如果答案正确，你可以得 2 分；如果格式不对，扣 1 分；如果答案完全看不懂，扣 2 分。”
比喻：
- 这就好比在教小狗寻宝前，先给它看一张藏宝图，或者明确告诉它：“宝藏藏在红色的盒子里，如果你找到了红色的盒子，我就给你肉干。”
- 或者像考试前，老师不仅发卷子，还发了一份详细的评分标准：“只要步骤写对，就算最后答案错了也能拿一半分；只要格式工整，也能加分。”
效果：AI 不再是盲目地乱猜，而是心里有了“目标”。它知道该往哪个方向努力，知道什么样的回答是老师喜欢的。

论文里做了一个很有趣的实验，证明了这种方法为什么有效：

不仅仅是“作弊”：有人可能会想，是不是 AI 只是记住了规则，考试时把规则抄下来就赢了？
- 实验证明：不是的。即使考试时不给规则（把藏宝图收走），受过这种训练的 AI 依然表现得比那些没看过规则、只靠死磕的 AI 要好得多。
- 原因：因为在学习过程中，AI 把“规则”内化成了自己的直觉。它学会了“思考的方向”，而不仅仅是记住了答案。
面对“坏规则”也能适应：
- 论文还测试了如果告诉 AI 一个错误的规则（比如：“答案错了反而加分”），AI 一开始会懵，会乱跑。但是，经过几轮训练后，AI 发现“哎？不管我按你说的做，最后分数还是不对”，它就会自己调整，忽略那个错误的规则，重新去寻找真正的得分点。这说明 AI 变得很聪明，能分辨什么是真话，什么是假话。

以前的 AI 训练像是在黑暗中摸索，效率低，浪费算力，而且很难学会复杂的逻辑。
现在的 MeRF 方法，就像是给 AI 点了一盏指路明灯。

一句话总结：
这篇论文告诉我们，教 AI 变聪明，不能只靠“打屁股”（给奖励或惩罚），更要靠“讲道理”（告诉它规则和目标）。只要把“游戏规则”说清楚，AI 就能像人类一样，带着目标去努力，从而变得更强大。

类似论文