ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning

该论文针对现有混合 LoRA 模型中路由权重严重失衡导致有效 LoRA 数量受限的问题,提出了一种名为 ReMix 的新方法,通过引入不可学习的路由权重确保各 LoRA 平等激活,并利用基于 RLOO 技术的强化学习策略进行无偏梯度估计,从而在参数量相当的情况下显著提升了微调性能。

Ruizhong Qiu, Hanqing Zeng, Yinglong Xia, Yiwen Meng, Ren Chen, Jiarui Feng, Dongqi Fu, Qifan Wang, Jiayi Liu, Jun Xiao, Xiangjun Fan, Benyu Zhang, Hong Li, Zhining Liu, Hyunsik Yoo, Zhichen Zeng, Tianxin Wei, Hanghang Tong

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 ReMix 的新方法,旨在解决大语言模型(LLM)微调中的一个核心痛点。为了让你轻松理解,我们可以把整个过程想象成组建一支“特种部队”去执行任务

1. 背景:什么是 LoRA 和混合 LoRA?

想象你有一台超级强大的机器人(预训练好的大模型),它很聪明,但还没学会做具体的数学题或写代码。

  • LoRA (低秩适配器):就像给机器人背上几个轻便的“技能背包”。每个背包里装着一套特定的技能(比如“数学背包”、“写作背包”)。你不需要重新制造整个机器人,只需要训练这些背包,机器人就能学会新技能。
  • 混合 LoRA (Mixture-of-LoRAs):为了更灵活,研究人员设计了“混合背包系统”。每次机器人遇到一个问题,系统会决定同时激活几个背包(比如激活 4 个),让它们一起工作,希望能结合大家的长处。

2. 问题:为什么“混合”变成了“独裁”?

现有的混合系统里有一个“指挥官”(路由器/Router)。它的任务是看题目,然后给每个背包分配“权重”(决定谁出力多,谁出力少)。

论文发现了一个严重的问题:指挥官“偷懒”了。

  • 现象:虽然系统设定了要激活 4 个背包,但指挥官经过训练后,发现只要把 99% 的力气都压在某一个背包上,效果就差不多。于是,它把其他 3 个背包的权重几乎降到了 0。
  • 比喻:这就好比你要 4 个人一起搬砖,结果队长发现只要让力气最大的那个壮汉一个人干,其他人都在旁边“摸鱼”。虽然名义上叫“4 人团队”,实际上只有 1 人在干活。
  • 后果:既然只有 1 人在干活,那激活 4 个背包和激活 1 个背包没什么区别,之前的“混合”设计就完全浪费了,模型的能力也没有真正提升。论文把这种现象称为**“路由权重坍缩”**。

3. 解决方案:ReMix (强化路由)

为了解决这个问题,作者提出了 ReMix。它的核心思想非常反直觉:“既然你们总想偷懒,那我们就把指挥权收回来,强制大家平均用力。”

核心创新点:

  1. 强制“平均主义” (非学习权重)

    • 旧方法:指挥官(路由器)可以随意决定谁干多谁干少(权重是学习出来的,容易失衡)。
    • ReMix:一旦选定了 4 个背包,强制每个背包承担完全相同的任务量(权重固定且相等)。
    • 比喻:就像队长不再分配任务,而是规定:“只要被选中的 4 个人,每个人必须出 25% 的力,谁也不能少,谁也不能多。”这确保了所有被选中的背包都能真正发挥作用。
  2. 用“试错法”来训练 (强化学习 + RLOO)

    • 难题:既然权重是固定的(不能通过微调来改变),那怎么训练这个“选人的指挥官”呢?传统的“反向传播”(像老师批改作业一样一步步修正)行不通了,因为权重不能动。
    • ReMix 的妙招:把训练过程变成**“抽奖游戏”**。
      • 让指挥官随机抽取几组背包组合(比如抽 10 次)。
      • 看看哪组组合做出来的题目得分最高。
      • 利用一种叫 RLOO 的高级统计技巧,从这些“抽奖结果”中估算出指挥官应该往哪个方向改进,才能抽到更好的组合。
    • 比喻:就像教练不直接教队员怎么跑,而是让队员多跑几次,看看哪次配合最好,然后告诉队长:“下次选人的时候,多参考这次成功的经验。”
  3. 推理时的“优中选优”

    • 在真正做题(推理)时,不再随机抽奖,而是直接选出概率最高的前 4 个背包。
    • 比喻:训练时是“海选”找规律,比赛时直接派“最强阵容”上场。

4. 效果如何?

论文在数学推理(GSM8K)、代码生成(HumanEval)等任务上做了大量实验:

  • 性能更强:ReMix 比目前最先进的方法(SOTA)表现更好,准确率更高。
  • 更省钱:它用更少的参数量(更小的背包)达到了更好的效果。
  • 真正利用了“混合”:实验证明,ReMix 真的让多个背包同时在工作,而不是像以前那样只有一个人干活。

总结

ReMix 就像是一个聪明的团队管理改革
以前的系统虽然名义上是“多人协作”,但总是一个人在唱独角戏,其他人陪跑。
ReMix 通过强制平均分配任务(防止偷懒)和强化学习式的选拔机制(优化选人策略),让团队里的每一个成员都真正动起来,从而用更少的资源,干出了更漂亮的成绩。

这就好比,与其让一个天才累死,不如让四个普通人齐心协力,通过科学的配合,也能完成甚至超越天才的任务。