DC-Merge: Improving Model Merging with Directional Consistency

本文提出了 DC-Merge 方法,通过平滑奇异值以平衡任务向量的能量分布,并将其投影至共享正交子空间以校正方向几何不一致性,从而在模型合并中有效保留多任务知识,在视觉及视觉语言基准测试中实现了全微调与 LoRA 设置下的最先进性能。

Han-Chen Zhang, Zi-Hao Zhou, Mao-Lin Luo, Shimin Di, Min-Ling Zhang, Tong Wei

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 DC-Merge 的新方法,旨在解决人工智能模型“合并”时的一个核心难题。为了让你轻松理解,我们可以把整个过程想象成**“组建一支超级全能战队”**的故事。

1. 背景:为什么要合并模型?

想象你训练了 8 个不同的 AI 专家:

  • 专家 A 擅长认车(汽车分类)。
  • 专家 B 擅长认花(花卉分类)。
  • 专家 C 擅长认路牌(交通标志)。
  • ...以此类推。

现在,你不想维护 8 个不同的模型,你想把它们合并成一个“超级模型”,让它既能认车、又能认花、还能认路牌。

问题出在哪?
如果你简单地把这 8 个专家的“大脑”(参数)直接平均一下(就像把 8 杯不同口味的咖啡倒进一个大桶里搅拌),结果往往很糟糕:

  • 认车的专家可能忘了怎么认车。
  • 认花的专家可能开始把花认成车。
  • 大家互相干扰,最后变成一个“样样通、样样松”的平庸模型。

2. 核心发现:方向比“音量”更重要

研究人员发现,每个专家的大脑里其实藏着很多个“知识方向”(可以想象成不同的技能频道)。

  • 能量分布不均(音量问题): 在传统的模型里,某些技能(比如“认车”)的声音特别大(能量高),而有些技能(比如“认某种罕见花”)声音很小(能量低)。
  • 方向不一致(频道问题): 当把大家的声音混在一起时,如果大家的“频道”没对齐,声音就会变成噪音。

关键洞察:
研究发现,只要保留每个专家独特的“技能方向”(Directional Consistency),哪怕把他们的“音量”调得均匀一点,合并后的模型依然能保持强大的能力。 反之,如果方向乱了,哪怕音量再大,模型也会变傻。

3. DC-Merge 是怎么做的?(两步走策略)

为了解决上述问题,DC-Merge 就像一位高明的“乐队指挥”,分两步来重组这支战队:

第一步:能量平滑(让音量均衡)

  • 比喻: 想象专家 A 在喊“我是认车专家!”(声音巨大),而专家 B 在轻声细语说“我其实也懂点花”(声音微弱)。直接合并时,巨大的喊声会盖过轻声细语,导致“认花”的知识丢失。
  • 做法: DC-Merge 先给每个专家的“音量”做平滑处理。它把那些巨大的声音稍微压低,把微弱的声音稍微提亮,让所有重要的技能频道都达到一个均衡的音量
  • 效果: 这样,那些原本容易被忽略的、但很有价值的“微弱知识”就不会在合并过程中被淹没。

第二步:覆盖空间合并(对齐频道)

  • 比喻: 即使音量均衡了,如果专家 A 在“左耳”说话,专家 B 在“右耳”说话,大家还是听不清。他们的“频道”(数学上的子空间)没有对齐。直接混合会导致方向扭曲。
  • 做法: DC-Merge 先构建一个**“共享的公共频道”(共享正交子空间)。它把所有专家的声音都先投影**到这个公共频道上。
    • 在这个公共频道里,大家的“方向”被强行对齐了。
    • 然后,在这个对齐好的频道里,大家再进行合并(就像大家站在同一条线上一起喊口号)。
    • 最后,再把合并好的结果投影回原来的参数空间。
  • 效果: 这确保了在合并过程中,每个专家原本独特的“技能方向”没有被扭曲或破坏。

4. 结果如何?

经过大量实验(在图像识别、视觉语言大模型等领域),DC-Merge 证明了:

  • 它比现有的所有合并方法(如简单的平均、TIES-Merging 等)都要强。
  • 它不仅能保留每个任务原本的能力,还能让模型在没见过的任务上表现得更好(泛化能力更强)。
  • 无论是微调了整个模型(FFT)还是只微调了一小部分(LoRA),它都表现优异。

总结

DC-Merge 的核心思想就是:
在合并多个 AI 模型时,不要只盯着谁的声音大(能量分布),而要确保大家的方向是对齐的(方向一致性)。

  1. 先调音量: 让所有技能都得到公平的表达(能量平滑)。
  2. 再对齐频道: 让大家站在同一条线上说话,避免互相干扰(覆盖空间合并)。

通过这种“先平衡、后对齐”的策略,DC-Merge 成功打造了一个既全能又精准的“超级模型”。