Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle

本文提出了 Shuffle-R1 框架,通过引入成对轨迹采样和基于优势的轨迹重洗牌机制,有效解决了多模态大语言模型强化学习中优势坍缩和 rollout 静默问题,从而显著提升了训练效率与推理性能。

Linghao Zhu, Yiran Guan, Dingkang Liang, Jianzhong Ju, Zhenbo Luo, Bin Qin, Jian Luan, Yuliang Liu, Xiang Bai

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 Shuffle-R1 的新方法,旨在让“多模态大语言模型”(也就是能同时看懂图片和文字、还能进行复杂推理的 AI)学得更聪明、更快。

为了让你轻松理解,我们可以把训练 AI 想象成教一个学生做数学题

1. 现状:传统的“填鸭式”教学效率低

目前的 AI 训练方法(就像传统的 RL 强化学习)通常是这样做的:
老师(训练程序)给学生(AI)发一堆题目,学生做完后,老师打分。

  • 问题一:优势崩塌 (Advantage Collapsing)
    想象一下,老师给全班 100 个学生打分,结果发现 90 个学生的分数都集中在"60 分”左右,只有极少数人考了 90 分或 30 分。
    因为大部分人的分数都差不多(接近平均值),老师就不知道该重点教谁了。大家“半斤八两”,导致老师发出的指令(梯度更新)变得很微弱,学生学不到东西。这就叫“优势崩塌”。
  • 问题二: rollout 沉默 (Rollout Silencing)
    随着训练进行,老师发现越来越多的学生做的题,要么太简单(早就学会了),要么太难(完全听不懂),导致他们产生的“学习信号”几乎为零。
    就像老师讲了一节课,结果发现只有 10% 的学生在认真听并产生反应,剩下 90% 的学生都在“发呆”或“走神”。但这 90% 的时间却白白浪费了,计算资源被严重浪费。

2. 解决方案:Shuffle-R1 的“精挑细选”与“动态重组”

Shuffle-R1 就像一位超级聪明的班主任,它不满足于按部就班地发题,而是引入了两个新招数:

第一招:成对对比法 (Pairwise Trajectory Sampling) —— “找茬游戏”

  • 传统做法:老师随机抓 16 个学生做题,然后一起批改。
  • Shuffle-R1 的做法
    老师先让 16 个学生做题,然后故意把“做得最好的”和“做得最差的”配成一对,把“第二好的”和“第二差的”配成一对……
    • 比喻:这就像在体育课上,让跑得最快的和跑得最慢的两人一组比赛。这种巨大的反差(高对比度)能让教练(AI 模型)一眼看出“好在哪里,差在哪里”。
    • 效果:老师只保留那些“反差最大”的配对,把那些“半斤八两”的平庸配对直接扔掉。这样,AI 每次学习都能接收到最强烈、最清晰的信号,解决了“优势崩塌”的问题。

第二招:基于分数的动态洗牌 (Advantage-based Batch Shuffle) —— “重点复习”

  • 传统做法:老师把题目按顺序发给学生,做完一遍就扔进垃圾桶,不管这道题学生掌握得怎么样。
  • Shuffle-R1 的做法
    老师手里有一堆题目,但他发现有些题目(那些“高价值”的,能带来大进步的)特别重要。于是,他不按照顺序发题,而是根据题目的“重要性”(优势大小)进行动态洗牌
    • 比喻:想象你在复习备考。传统的做法是把书从头到尾读一遍。Shuffle-R1 的做法是:把你最薄弱、最容易提分的章节(高优势样本)拿出来,反复让你练习,而把你已经滚瓜烂熟的章节(低优势样本)暂时放一边。
    • 效果:通过这种“洗牌”,那些最有价值的题目在训练中被反复提及,而没用的题目被过滤掉。这解决了“沉默”问题,让计算资源都花在刀刃上。

3. 结果:事半功倍

经过这种“精挑细选”和“动态重组”的训练,Shuffle-R1 展现出了惊人的效果:

  • 学得更快:它只需要传统方法一半的训练步数,就能达到同样的甚至更好的效果。
  • 更聪明:在数学推理、看图说话、图表理解等任务上,它的表现甚至超过了 GPT-4o 和 Claude-3.7 等顶尖闭源模型。
  • 更省钱:因为它减少了无效的计算(不再让 AI 在“发呆”的数据上浪费时间),所以节省了大量的显卡算力。

总结

简单来说,Shuffle-R1 就是告诉 AI 训练者:

“别傻乎乎地让 AI 做所有题,也别让它只做简单的题。把最好的和最差的题配对起来,让 AI 在巨大的反差中看清差距;然后,把那些最能提分的题拿出来反复练。"

这种方法证明了,在 AI 训练中,“教什么”(数据的选择和重组)比“怎么教”(算法本身)同样重要,甚至更重要。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →