A Simple "Motivation" Can Enhance Reinforcement Finetuning of Large Reasoning Models

该论文提出了“动机增强强化微调”(MeRF)方法,通过将奖励函数规范作为上下文提示直接注入大语言模型,使其在强化学习过程中明确优化目标,从而显著提升模型在复杂推理任务上的性能。

Junjie Zhang, Guozheng Ma, Shunyu Liu, Haoyu Wang, Jiaxing Huang, Ting-En Lin, Fei Huang, Yongbin Li, Dacheng Tao

发布于 Tue, 10 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种让大型人工智能(AI)模型变得更聪明、更会“推理”的新方法,叫做 MeRF(动机增强型强化微调)。

为了让你轻松理解,我们可以把训练 AI 的过程想象成教一个学生做数学题,或者教一只小狗玩新游戏

1. 以前的做法:盲人摸象(RLVR)

在传统的训练方法(论文里叫 RLVR)中,老师(训练算法)会让学生(AI 模型)不停地做题。

  • 过程:学生做出一道题,老师只给一个结果:“对”或者“错”,或者给个分数。
  • 问题:学生完全不知道为什么是对的,也不知道为什么是错的。他就像在黑暗中摸索,只能靠运气猜。如果题目很难,他可能猜了几千次都猜不对,老师也只会说“不对,再试一次”。
  • 比喻:这就像你让小狗玩一个复杂的寻宝游戏,但你只会在它找到宝藏时说“好狗!”,在它乱跑时说“不行”。小狗根本不知道宝藏藏在哪,也不知道该往哪个方向走,只能靠无数次碰运气。

2. 新方法的突破:告诉学生“游戏规则”(MeRF)

这篇论文的作者发现,既然 AI 很擅长阅读和理解文字(这叫“上下文学习能力”),那为什么不在做题之前,先把评分规则(也就是“动机”)直接告诉它呢?

  • 做法:在让 AI 做题之前,先给它一段话,明确告诉它:“这道题如果答案正确,你可以得 2 分;如果格式不对,扣 1 分;如果答案完全看不懂,扣 2 分。”
  • 比喻
    • 这就好比在教小狗寻宝前,先给它看一张藏宝图,或者明确告诉它:“宝藏藏在红色的盒子里,如果你找到了红色的盒子,我就给你肉干。”
    • 或者像考试前,老师不仅发卷子,还发了一份详细的评分标准:“只要步骤写对,就算最后答案错了也能拿一半分;只要格式工整,也能加分。”
  • 效果:AI 不再是盲目地乱猜,而是心里有了“目标”。它知道该往哪个方向努力,知道什么样的回答是老师喜欢的。

3. 核心发现:不仅仅是“作弊”,而是“内化”

论文里做了一个很有趣的实验,证明了这种方法为什么有效:

  • 不仅仅是“作弊”:有人可能会想,是不是 AI 只是记住了规则,考试时把规则抄下来就赢了?

    • 实验证明:不是的。即使考试时给规则(把藏宝图收走),受过这种训练的 AI 依然表现得比那些没看过规则、只靠死磕的 AI 要好得多。
    • 原因:因为在学习过程中,AI 把“规则”内化成了自己的直觉。它学会了“思考的方向”,而不仅仅是记住了答案。
  • 面对“坏规则”也能适应

    • 论文还测试了如果告诉 AI 一个错误的规则(比如:“答案错了反而加分”),AI 一开始会懵,会乱跑。但是,经过几轮训练后,AI 发现“哎?不管我按你说的做,最后分数还是不对”,它就会自己调整,忽略那个错误的规则,重新去寻找真正的得分点。这说明 AI 变得很聪明,能分辨什么是真话,什么是假话。

4. 总结:为什么这很重要?

以前的 AI 训练像是在黑暗中摸索,效率低,浪费算力,而且很难学会复杂的逻辑。
现在的 MeRF 方法,就像是给 AI 点了一盏指路明灯

  • 简单说:就是**“先讲清楚游戏规则,再开始玩游戏”**。
  • 结果:AI 学得更快、更准,而且能解决更难的逻辑题(比如复杂的数学题、逻辑谜题)。

一句话总结
这篇论文告诉我们,教 AI 变聪明,不能只靠“打屁股”(给奖励或惩罚),更要靠“讲道理”(告诉它规则和目标)。只要把“游戏规则”说清楚,AI 就能像人类一样,带着目标去努力,从而变得更强大。