How Far Can Unsupervised RLVR Scale LLM Training?

该论文通过理论分析与实验证实,无监督强化学习中的内在奖励方法虽能短期提升模型,但受限于初始分布的“置信度 - 正确性”对齐问题而必然导致性能先升后降的崩溃,而基于计算不对称性的外部奖励方法则有望突破这一瓶颈。

Bingxiang He, Yuxin Zuo, Zeyuan Liu, Shangziqi Zhao, Zixuan Fu, Junlin Yang, Cheng Qian, Kaiyan Zhang, Yuchen Fan, Ganqu Cui, Xiusi Chen, Youbang Sun, Xingtai Lv, Xuekai Zhu, Li Sheng, Ran Li, Huan-ang Gao, Yuchen Zhang, Bowen Zhou, Zhiyuan Liu, Ning Ding

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

1. 核心问题:学生想自学,但老师不在家

  • 背景:以前,学生想变强,必须有老师(人类)给答案、打分(监督学习)。但题目越来越难,人类老师跟不上了,或者请不起那么多老师了。
  • 新尝试(URLVR):于是,大家想出一个办法:让学生自己给自己打分
    • 比如,让学生做 10 道题,如果 10 次里有 8 次答案一样,那就默认这个答案是对的,给自己加分。
    • 或者,让学生看自己解题时“信心满满”的样子,就给自己加分。
  • 论文的核心疑问:这种“自己教自己”的方法,到底能走多远?能无限变强吗?

2. 发现一:自学的“死循环”陷阱(内源性奖励的局限)

论文发现,目前主流的“自己教自己”方法(称为内源性奖励),就像是一个只会“马后炮”的教练

  • 比喻:想象这个学生有一个“初始性格”(模型先验)。
    • 情况 A(运气好):学生一开始觉得“这道题选 A",结果真的选对了。教练(算法)就会说:“你看,你选 A 时信心很足,以后多选 A!”于是学生变得更自信,成绩更好。
    • 情况 B(运气差):学生一开始觉得“这道题选 B",结果其实是错的。教练却说:“你选 B 时很自信,所以 B 是对的!”于是学生不仅不改错,反而把错误的自信加倍放大
  • 结果
    • 先升后降:刚开始,学生可能因为运气好,成绩蹭蹭涨。但练久了,一旦遇到他一开始就搞错的题目,他就会越练越错,最后陷入“自信地胡说八道”的崩溃状态(Model Collapse)。
    • 结论:这种方法无法无限放大。它只能强化学生原本就会的东西,而无法让他学会原本不会的新知识。就像一个人只能重复练习自己擅长的动作,永远学不会新舞步。

3. 发现二:什么时候自学是安全的?(小数据集与考试时学习)

虽然大规模自学有风险,但论文发现了一个**“安全区”**。

  • 比喻
    • 大海里游泳(大数据集):如果让学生在海里(海量数据)自己瞎练,很容易游偏,最后累死在错误的方向上。
    • 泳池里练习(小数据集):如果只让他练32 道题,哪怕他练错了,也只是在这 32 道题上“钻牛角尖”,不会破坏他整个游泳的肌肉记忆。
  • 实际应用
    • 考试时学习(Test-Time Training):在真正考试(遇到新题)的那一刻,让学生针对这几道题快速“热身”一下。因为题目少,时间短,他来不及“练坏”,反而能利用那一点点自信提升表现。
    • 结论:小范围、短时间的“自我强化”是安全且有效的,适合用来应对具体的难题。

4. 发现三:如何判断这个学生能不能“自学成才”?(模型崩溃步)

既然自学有风险,怎么在开始之前就知道这个学生适不适合自学呢?

  • 旧方法:让他做 100 道题,看能不能全对(Pass@k)。但这很笨,而且有时候猜也能猜对。
  • 新方法(模型崩溃步)
    • 比喻:就像测试一辆车的刹车性能。你不用把车开到报废,只需要轻轻踩一脚刹车,看它多久开始打滑
    • 操作:让模型试着“自己教自己”练一小会儿。
      • 如果它练了100 步还没崩,说明它底子好,自信度跟正确率匹配,适合大规模自学。
      • 如果它练了5 步就开始胡言乱语,说明它底子差,自信是假的,千万别让它自学。
    • 价值:这是一个快速、低成本的“体检指标”,能帮我们在花大钱训练前,筛选出真正有潜力的模型。

5. 未来方向:别只靠“感觉”,要靠“外部工具”(外源性奖励)

既然“自己教自己”有天花板,那怎么办?论文提出了**“外部奖励”**这条路。

  • 比喻
    • 内源性(自己教自己):就像学生自己觉得“我觉得我算对了”,这不可靠。
    • 外源性(利用不对称性)
      • 生成难,验证易:让学生生成一个复杂的数学公式很难,但让他验证一个公式对不对(比如用计算器算一下)却很容易。
      • 例子:就像编程。写代码很难,但让电脑运行代码看有没有报错(验证)很简单。
  • 结论:未来的方向不是让模型“感觉”自己变强了,而是利用计算机的验证能力(如运行代码、数学验算)来给它打分。这样,无论模型变得多强,验证工具(如编译器、计算器)永远客观、准确,不会像人类老师那样累,也不会像模型自己那样“自信地犯错”。

总结:这篇论文告诉我们要什么?

  1. 别盲目自信:让大模型完全靠“自我感觉”来无限进化是行不通的,它最终会陷入“自信地胡说八道”的崩溃。
  2. 小范围有用:在特定场景(如考试时针对几道题微调),这种自我强化很有用。
  3. 先体检再训练:用“模型崩溃步”这个新指标,快速判断哪个模型适合当“自学苗子”。
  4. 寻找新老师:真正的未来在于利用外部工具(如代码执行器、数学验证器)来给模型打分,而不是让它自己给自己打分。

一句话总结
大模型想“自学成才”,如果只靠“我觉得我是对的”,迟早会走火入魔;但如果能利用“计算器”和“编译器”这些外部工具来检验自己,它才能真正无限进化。