Generalization of RLVR Using Causal Reasoning as a Testbed

本文通过因果推理实验发现,强化学习验证奖励(RLVR)相较于监督微调(SFT)能显著提升大语言模型在概率查询中的泛化能力,但其效果取决于模型规模与训练查询层级的匹配,且仅在模型具备足够初始推理能力时,RLVR 才能通过优化边缘化策略和减少中间计算错误来改善复杂推理任务的表现。

Brian Lu, Hongyu Zhao, Shuo Sun, Hao Peng, Rui Ding, Hongyuan Mei

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常前沿的话题:如何教人工智能(大语言模型)像人类一样进行“因果推理”,以及一种名为RLVR(带可验证奖励的强化学习)的训练方法是否真的有效。

为了让你轻松理解,我们可以把大语言模型想象成一个正在学习破案的新手侦探,而这篇论文就是关于如何训练这位侦探,让他不仅能背下案情,还能真正学会推理。

1. 核心任务:侦探的“因果推理”考试

想象一下,侦探面对三个不同难度的案件类型(论文中称为“因果阶梯”):

  • 关联推理(Association): 就像看到“地上湿了”,推断“可能下过雨”。这是基于观察到的现象找联系。
    • 比喻: 看到猫在窗台上,推断猫可能刚跳上去。
  • 干预推理(Intervention): 就像你主动“把猫抱到窗台上”,然后问“猫会开心吗?”。这是人为改变一个条件,看结果如何。
    • 比喻: 你强行把猫抱到窗台,猫的反应和它自己跳上去一样吗?
  • 反事实推理(Counterfactual): 这是最难的。就像问“如果昨天我没把猫抱走,它现在会在窗台上吗?”。这需要构建一个“平行宇宙”来思考。
    • 比喻: 侦探在脑海里构建一个“如果当时没发生那件事”的平行世界,并计算那个世界里会发生什么。

这篇论文的任务就是给这些侦探(AI 模型)出题,看它们能不能算出正确的概率答案。

2. 两种训练方法:死记硬背 vs. 实战演练

论文比较了两种训练侦探的方法:

  • SFT(监督微调): 就像死记硬背。老师直接给侦探看“题目 + 正确答案”。侦探的任务是记住这道题的答案,下次遇到类似的直接背出来。
    • 缺点: 遇到稍微变通一点的题目,侦探就懵了,因为它只背了答案,没懂逻辑。
  • RLVR(带可验证奖励的强化学习): 就像实战演练 + 即时反馈。侦探先自己写推理过程(思考链),然后系统会立刻告诉它:“你算错了,正确答案是 X,你刚才哪一步逻辑崩了?”
    • 优点: 侦探学会了怎么思考,而不仅仅是答案。

3. 主要发现:并不是越练越好,要看“底子”

论文得出了几个非常有趣的结论,我们可以用**“练武”**来打比方:

发现一:RLVR 是“神助攻”,但前提是徒弟得有“内功”

  • 现象: 对于大模型(比如 70 亿参数以上,相当于有一定天赋的徒弟),RLVR 训练出来的侦探,不仅能在原题上考高分,遇到没见过的难题(泛化能力)也能举一反三,比死记硬背的强很多。
  • 现象: 对于小模型(30 亿参数,相当于刚入门的徒弟),RLVR 反而不管用了。
    • 原因: 小模型本身“智商”不够,连基本的逻辑推理都搞不定。这时候给它们 RLVR 训练,就像让一个连马步都站不稳的人去练高深剑法,它学不会,最后干脆放弃思考,直接瞎蒙答案。
    • 比喻: 如果徒弟连加减法都算不对,你教他微积分,他只会更困惑,最后直接乱写。

发现二:RLVR 治好了“粗心”和“逻辑跳跃”

  • 经过 RLVR 训练的大模型,在解题时变得更严谨了。
  • 以前: 它们可能会跳过中间步骤,或者错误地假设两个不相关的事情有关联(比如认为“猫在窗台”和“下雨”有直接因果关系)。
  • 现在: 它们学会了**“分步走”**(Incremental Marginalization)。就像解数学题一样,一步一步地消去无关变量,不再跳步,也不乱假设。
  • 比喻: 以前侦探是“拍脑袋”猜凶手,现在学会了“按线索一步步推导”,虽然慢点,但更准。

发现三:越难的题,RLVR 优势越大

  • 对于简单的题目,死记硬背(SFT)也能考个及格分。
  • 但对于复杂的、变量很多的难题,RLVR 训练的侦探优势巨大。因为它学会了处理复杂逻辑的“套路”,而不仅仅是背答案。

4. 总结与启示

这篇论文告诉我们一个关于 AI 训练的重要道理:

“强化学习(RLVR)不是万能药,它更像是一个‘放大器’。”

  • 如果模型本身已经有了一定的推理能力(比如大参数模型),RLVR 就能把它从“背题机器”变成“推理高手”,让它学会举一反三,解决从未见过的复杂问题。
  • 如果模型基础太差(小参数模型),RLVR 也救不了它,因为它连基本的逻辑链条都构建不起来。

一句话总结:
想要让 AI 真正学会像侦探一样思考,不能只靠喂答案(SFT),也不能盲目地用强化学习(RLVR)。最好的策略是:先确保模型有足够的“智商”底子,然后再用 RLVR 这种“实战演练”来打磨它的逻辑,让它从“死记硬背”进化为“融会贯通”。