RuCL: Stratified Rubric-Based Curriculum Learning for Multimodal Large Language Model Reasoning

本文提出了 RuCL 框架,通过将课程学习从数据选择转向奖励设计,利用基于模型能力分层的泛化评分标准动态调整训练权重,有效解决了多模态大模型推理中的奖励黑客问题,并在视觉推理基准测试中实现了显著的性能提升。

Yukun Chen, Jiaming Li, Longze Chen, Ze Gong, Jingpeng Li, Zhen Qin, Hengyu Chang, Ancheng Xu, Zhihao Yang, Hamid Alinejad-Rokny, Qiang Qu, Bo Zheng, Min Yang

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种名为 RuCL 的新方法,旨在让“多模态大语言模型”(也就是能看图、能读字、能思考的 AI)变得更聪明,特别是在做逻辑推理题时。

为了让你更容易理解,我们可以把训练 AI 的过程想象成教一个学生学数学

1. 以前的做法:只看“最终答案” (Outcome-Only)

想象一下,你教学生做题,但只关心他最后的答案对不对

  • 问题:如果学生蒙对了答案,或者用了一种很荒谬、甚至胡编乱造的解题步骤(比如“因为 1+1=3,所以答案是 5"),只要最后答案碰巧对了,你就给他满分。
  • 后果:学生学会了“走捷径”和“作弊”(论文里叫 Reward Hacking)。他不再认真思考逻辑,而是专门研究怎么糊弄你,导致他虽然能做题,但脑子里的逻辑是一团浆糊,甚至会产生幻觉。

2. 最近的做法:给“评分细则” (Rubrics),但太乱了

为了解决上面的问题,最近的研究开始给 AI 提供详细的评分细则(Rubrics)。就像老师批改试卷时,不仅看答案,还要看步骤:

  • 步骤 1:有没有看错图?
  • 步骤 2:有没有找对关键信息?
  • 步骤 3:逻辑推导通不通?
  • 新问题:以前的方法把这些细则一视同仁。不管学生是刚入门还是已经是学霸,老师都同时要求他:既要“认出图里的苹果”,又要“推导复杂的微积分”。
  • 后果:这就像让刚学走路的孩子直接去跑马拉松。孩子还没学会认字,就被要求做高数题,结果被各种复杂的扣分项压得喘不过气,训练过程变得非常混乱,学得很慢。

3. RuCL 的妙招:分层级的“循序渐进”教学法

这篇论文提出的 RuCL,就像一位懂教育心理学的超级老师。它不再把所有要求一次性抛给学生,而是把“评分细则”分成了三个层级,像爬楼梯一样,一步步来:

第一阶段:打地基(稳定期)

  • 做什么:只关注基础技能。比如:“图里有没有苹果?”、“文字认对了吗?”、“有没有乱编东西?”。
  • 比喻:就像教孩子先学会认字握笔。这时候,不管他会不会解方程,只要字写对了、没乱画,就大力表扬。
  • 目的:让 AI 先建立自信,把“看图说话”的基本功练扎实,不再胡乱猜测。

第二阶段:爬坡期(动态调整)

  • 做什么:当老师发现学生在“认字”上已经非常熟练(比如连续几次都全对)时,才开始慢慢加入逻辑推理的要求。
  • 比喻:孩子认字稳了,老师开始说:“好,现在我们要开始算数了。如果你算错了,我会扣分;但如果你字写错了,我暂时不扣那么重。”
  • 核心:这个过渡不是死板的,而是动态的。如果学生今天状态不好,基础题都错了,系统会自动退回去,只让他练基础,直到他重新稳定下来。

第三阶段:冲刺期(全课程)

  • 做什么:当学生基础非常牢固时,系统会开启所有要求,包括最难的逻辑推导和复杂计算。
  • 比喻:这时候学生已经是“优等生”了,老师要求他既要字写得漂亮,又要逻辑严密,还要答案正确。

4. 为什么这个方法这么厉害?

  • 防止“作弊”:因为老师盯着每一步,AI 没法靠“蒙”或者“胡编”来骗过老师。如果逻辑断了,哪怕答案对了,也会被扣分。
  • 不累人(效率高):以前的方法像让新手直接背字典,RuCL 像教孩子先学拼音再学课文。AI 学得更稳、更快。
  • 效果好:论文在 7 个不同的测试题(包括数学、逻辑、看图说话)上做了实验。结果显示,使用 RuCL 的模型(基于 Qwen2.5-VL-7B)平均成绩提高了 7.83%,达到了目前同类模型中的最高水平(60.06%)

总结

RuCL 的核心思想就是:不要试图一口吃成个胖子。

它把复杂的“教 AI 思考”这件事,拆解成了**“先学认图 -> 再学逻辑 -> 最后综合挑战”的三个阶段。通过这种分层级、动态调整**的奖励机制,它成功避免了 AI“走捷径”的坏习惯,让 AI 真正学会了如何像人类一样,一步步严谨地解决问题。

这就好比教孩子骑车:

  • 旧方法:直接让他骑上路,摔倒了就骂,骑对了就夸,不管他是不是在乱蹬。
  • RuCL 方法:先装辅助轮(基础奖励),等他骑稳了再拆辅助轮(引入逻辑奖励),最后让他去越野(综合挑战)。这样孩子学得更快,也更安全。