To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models

该论文通过名为 M2RL 的研究,系统对比并分析了大语言模型在多领域强化学习验证奖励(RLVR)任务中“混合多任务训练”与“分域训练后模型融合”两种范式的表现,发现跨领域 RLVR 干扰极小且推理密集型领域存在协同增益,并从权重空间几何等角度揭示了其内在机制。

Haoqing Wang, Xiang Long, Ziheng Li, Yilong Xu, Tingguang Li, Yehui Tang

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常有趣的问题:如何训练一个既懂数学、又会写代码、还能写文章、甚至能当智能助手的全能型人工智能(大语言模型)?

为了让你轻松理解,我们可以把训练 AI 想象成培养一个“超级学霸”

1. 核心难题:是“全科补习”还是“分科特训”?

在培养这个“超级学霸”时,目前主要有两种策略:

  • 策略 A:混合多任务训练(Mixed Multi-Task RL)

    • 比喻:就像让学霸同时上数学课、编程课、科学课和写作课。老师把不同科目的作业混在一起,让他在同一张桌子上轮流做。
    • 优点:省时间,不用分头请老师。
    • 担忧:大家担心他会“顾此失彼”,比如做数学题时脑子里突然蹦出写代码的逻辑,导致两样都做不好(这就是论文里说的“梯度干扰”)。
  • 策略 B:分科特训 + 模型合并(Separate Training + Merging)

    • 比喻:先请一位数学名师把他教成数学天才,再请一位编程名师把他教成编程大师,最后把这两个“分身”的大脑(权重) 像拼图一样拼在一起,或者用蒸馏技术把他们的经验融合到一个新大脑里。
    • 优点:每个领域都练得炉火纯青。
    • 缺点:非常耗时耗力,需要分别训练再合并。

这篇论文(M2RL)就是来回答:到底哪种方法更好?它们之间会有什么化学反应?

2. 实验发现:意想不到的“协同效应”

研究人员用开源的数据(数学、代码、科学、指令遵循、智能体任务)做了大量实验,结果让人惊喜:

  • 干扰很小,甚至互相帮忙
    大家原本以为让 AI 同时学这么多东西会“乱套”,但发现不同领域之间几乎没有互相干扰
    • 比喻:这就像练武术的人,练了“腿法”(数学)后,他的“拳法”(代码)反而更精准了。特别是数学、代码、科学这三个需要强逻辑推理的领域,它们之间产生了**“协同效应”**(Synergy),互相促进,越学越强。
    • 结论:混合训练(策略 A)的效果几乎和分科特训再合并(策略 B)一样好,但只用了 63.7% 的算力时间(省了快 40% 的钱和时间)!

3. 深入原理:为什么它们能融合得这么好?

研究人员像侦探一样,从四个角度分析了 AI 大脑内部发生了什么:

A. 大脑的“修改痕迹”重叠了(权重几何)

  • 比喻:想象 AI 的大脑由无数根神经线组成。当它学数学时,会修改一部分神经线;学代码时,也会修改一部分。
  • 发现:修改的位置高度重合。也就是说,学好数学和学好代码,其实是在强化同一组神经回路。这解释了为什么它们能互相促进,而不是互相打架。

B. 邻居效应(策略邻域)

  • 比喻:把每个领域的专家模型看作一个“社区”。研究发现,数学社区和代码社区是好邻居,它们的思维方式很接近。
  • 发现:当把“数学专家”和“代码专家”合并时,因为它们本来就是“好邻居”,合并后的模型能保留双方的优点,甚至产生新的火花。但如果把“数学专家”和“智能体专家”(比如控制机器人的)强行合并,效果就不一定好,因为它们住得太远(逻辑差异大)。

C. 技能是“继承”还是“新生”?

  • 比喻
    • 模型合并(分科后合并):像是把两个专家的旧技能直接拼在一起。它继承了原本的能力,但没太多新花样。
    • 混合训练:像是让专家在新环境里重新学习。它不仅能学会旧技能,还涌现(Emergent) 出了新的能力。
  • 发现:混合训练出来的模型,在解决复杂问题时,展现出了单科训练模型所没有的新智慧

D. 自我检查的“双刃剑”(自我验证)

这是论文最精彩的发现之一。AI 学会了“自我检查”(自己判断答案对不对),但这取决于它怎么练:

  • 结果导向检查(Outcome Verification):只看最终答案对不对。
    • 比喻:就像老师只看试卷最后的分数。
    • 发现:混合训练让 AI 的“结果检查”能力很强,因为它为了拿高分,学会了猜对答案。
  • 过程导向检查(Process Verification):看解题步骤对不对。
    • 比喻:老师要看解题过程,一步步推导。
    • 发现
      • 单科专家(特别是智能体 Agent):因为需要和工具交互,它们非常擅长检查过程,像是一个严谨的审计员。
      • 混合训练模型:虽然总分很高,但它的“过程检查”能力反而下降了!
      • 原因:当 AI 同时面对太多任务时,它为了追求“快速得出正确答案”,开始走捷径,忽略了严谨的推导步骤。这就好比一个学生为了考高分,背下了答案,却忘了怎么解题。

4. 总结与启示

这篇论文告诉我们:

  1. 混合训练是性价比之王:如果你想训练一个全能 AI,直接混合训练(策略 A)通常比“分科训练再合并”(策略 B)更省钱、更高效,而且效果一样好,甚至更好。
  2. 逻辑领域是“铁哥们”:数学、代码、科学这些领域天生合拍,一起学能互相加成。
  3. 警惕“偏科”风险:虽然混合训练让 AI 变得更聪明(总分高),但它可能会变得**“急功近利”**,忽略了解题过程的严谨性。
  4. 最佳实践:如果你既想要高分,又想要严谨的推理过程,最好的办法可能是**“分科特训 + 巧妙合并”**(比如用权重合并或蒸馏),这样既能保留各领域的严谨性,又能融合成一个大模型。

一句话总结
培养 AI 全能选手,“一锅炖”(混合训练) 往往比 “分头练再拼盘”(分科合并) 更划算且有效,但要注意别让 AI 为了求快而丢了严谨的“解题过程”。