Reinforcement Learning with Conditional Expectation Reward

该论文提出了一种名为条件期望奖励(CER)的新方法,利用大语言模型自身作为隐式验证器,通过计算生成答案对参考答案的条件似然期望来提供软性奖励信号,从而克服了传统基于规则验证器在自由形式答案领域应用受限的问题,显著提升了大模型在数学及通用推理任务中的表现。

Changyi Xiao, Caijun Xu, Yixin Cao

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种让大语言模型(LLM)变得更聪明、推理能力更强的新方法,叫做**“条件期望奖励”(CER)**。

为了让你轻松理解,我们可以把训练 AI 的过程想象成**“教一个学生做考试”**。

1. 以前的困境:只有“对”与“错”的严厉考官

在传统的强化学习(RLVR)中,我们教 AI 做题时,通常需要一个**“阅卷老师”(Verifier)**。

  • 数学题场景:如果题目是"2+2 等于几?”,标准答案是"4"。AI 回答"4",老师给满分;回答"5",老师给零分。这很完美,因为数学答案很死板,容易核对。
  • 开放题场景:但如果题目是“量子物理是决定论的吗?”,标准答案是“不是”。
    • AI 回答:“不是。”(老师:✅ 对)
    • AI 回答:“量子物理不是决定论的。”(老师:❌ 错!因为字面不一样,虽然意思完全一样)
    • AI 回答:“不,它是概率性的。”(老师:❌ 错!)

问题出在哪?
以前的“阅卷老师”太死板了,只认字面完全一样的答案。对于开放性问题(如物理、化学、金融),正确答案千变万化,很难写出一个能覆盖所有正确说法的“死规则”。这导致 AI 即使答对了意思,只要措辞不同就被判错,学不到东西,就像学生明明懂了,却因为没背标准答案而被老师骂,最后干脆不敢尝试新说法了。

2. 新方案:让 AI 自己当“内心裁判”(CER)

这篇论文的作者想出了一个绝妙的点子:既然请不到一个全能的“外部阅卷老师”,那就让 AI 自己当裁判!

他们提出了 CER(条件期望奖励)

核心比喻: “如果我是你,我会怎么想?”

想象一下,AI 做完一道题,给出了一个答案 AA
这时候,CER 机制会问 AI 自己一个问题:

“嘿,既然你已经得出了答案 AA如果你现在重新思考,你有多大可能性会再次得出那个标准答案 AA^*(参考答案)呢?"

  • 如果 AI 给出的答案 AA 和标准答案 AA^* 意思完全一样:AI 会想:“哦,既然我刚才这么想,那我肯定还会这么想。” -> 概率很高(奖励高)
  • 如果 AI 给出的答案 AA 和标准答案 AA^* 意思差不多,但措辞不同:AI 会想:“虽然刚才我换了一种说法,但核心逻辑是一样的,我重新思考时,很有可能会再次联想到那个标准答案。” -> 概率中等(奖励中等)
  • 如果 AI 给出的答案 AA 完全跑偏了:AI 会想:“既然我刚才得出这个离谱的结论,那我重新思考时,几乎不可能再联想到那个正确的标准答案。” -> 概率极低(奖励低)

为什么这很厉害?

  1. 不需要外部老师:不需要专门训练一个额外的模型来当裁判,也不需要写复杂的规则代码。AI 自己就是裁判。
  2. 给“部分正确”发糖:以前的规则是“非黑即白”(0 分或 100 分)。CER 是**“灰度奖励”**。只要你的答案和标准答案在逻辑上越接近,你得到的奖励就越高。这就像老师对学生说:“虽然你没背标准答案,但你理解对了 80%,给你 80 分!”这能鼓励 AI 去探索更多样化的正确表达方式。
  3. 通用性强:无论是做数学题,还是写物理分析、金融报告,只要 AI 能理解题意,它就能用这套逻辑自我评估。

3. 实验结果:真的管用吗?

作者做了很多实验,把这套方法用在数学题和通用知识题(如物理、生物、金融)上:

  • 在数学题上:CER 的表现和那些死板的“规则阅卷老师”一样好,甚至更好。
  • 在通用题上:CER 完胜!因为它能识别出那些“字面不同但意思对”的答案,而传统的规则方法在这里几乎失效。
  • 组合拳:如果把“死板规则”和"CER"结合起来用,效果最好。就像既有严格的数学老师,又有懂变通的语文老师,学生进步最快。

4. 总结

简单来说,这篇论文发明了一种**“让 AI 自我反思”**的奖励机制。

  • 以前:AI 答错一个字,全盘否定。
  • 现在:AI 只要逻辑通顺、意思接近,就能得到鼓励。

这种方法让大语言模型不再被死板的规则束缚,能够更灵活、更聪明地处理各种复杂的现实世界问题,就像从一个只会背书的“做题机器”,进化成了一个真正懂得“举一反三”的“思考者”。