Functionality-Oriented LLM Merging on the Fisher--Rao Manifold

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种让大型人工智能模型（LLM）“融合”的新方法。为了让你轻松理解，我们可以把这件事想象成**“烹饪”和“导航”**的故事。

1. 背景：为什么要“融合”模型？

想象你有一个超级大厨（基础大模型），他学会了做中餐。然后，你请了三个不同的徒弟，分别去进修了：

徒弟 A 学会了做川菜（擅长辣味）。
徒弟 B 学会了做粤菜（擅长清淡）。
徒弟 C 学会了做法餐（擅长精致甜点）。

现在，你想拥有一位**“全能大厨”，既能做川菜，又能做粤菜，还能做法餐，而且不需要**重新花几年时间去培训他。你只需要把这三个徒弟的“手艺”（模型参数）融合在一起，直接得到一个全能版本。

2. 旧方法的痛点：简单的“大杂烩”

以前的融合方法（比如简单的“平均法”），就像是把三个徒弟的菜谱直接倒进一个锅里搅拌。

问题一（走样）： 就像把红墨水、蓝墨水和黄墨水混在一起，最后可能变成一团浑浊的灰色，什么颜色都看不清了。在 AI 里，这叫“功能崩溃”，模型变得什么都不会，或者反应迟钝。
问题二（距离感）： 如果徒弟们学的菜系差别很大（比如川菜和法餐），简单的搅拌会让味道完全乱套。
问题三（人多手杂）： 以前的方法通常只擅长把两个模型融合。如果你想把 5 个、10 个不同风格的模型融合在一起，旧方法就会彻底失效，做出来的模型“变傻”了。

3. 新方法的创新：在“弯曲的地图”上找中心

这篇论文的作者提出，不能把模型参数看作是在平坦的桌面上画直线，而应该把它们看作是在弯曲的山地上行走。

核心概念：Fisher-Rao 流形（弯曲的地图）

想象这三个徒弟其实都站在一个巨大的、弯曲的山丘上。

旧方法（欧几里得直线）： 就像在地图上画一条直线连接他们。但在弯曲的山地上，直线其实是穿过山谷的“捷径”，这会导致你掉进山谷里（模型性能崩塌），因为那里并不是他们真正擅长的地方。
新方法（测地线/大圆航线）： 就像飞机飞行的大圆航线。它沿着山丘的曲面走，始终保持在“高海拔”的优良区域。

核心算法：Karcher 均值（寻找“地理中心”）

作者的方法叫Karcher 均值。

比喻： 想象你要在弯曲的山地上找一个点，使得这个点到所有徒弟的**“山路距离”**总和最短。
这个点不是简单的算术平均，而是考虑了地形（模型内部复杂的数学结构）后的**“最佳平衡点”**。
在这个点上，融合后的模型既保留了川菜的火辣，又保留了粤菜的鲜美，还保留了法餐的精致，而且不会因为强行融合而“走样”。

4. 为什么这个方法更厉害？

论文通过实验证明了三个关键点：

人多也不怕（扩展性）：
- 旧方法：融合 2 个模型还行，一旦融合 5 个或更多，性能就断崖式下跌（就像把 5 种完全不同的调料混在一起，味道全毁了）。
- 新方法：即使融合 11 个不同风格的模型，性能依然稳如泰山，甚至越融合越强。
拒绝“变傻”（防止崩溃）：
- 旧方法融合后，模型内部的“神经活动”会变得很弱（就像大脑变迟钝了，反应不过来）。
- 新方法能保持模型内部的“活力”和“多样性”，让模型在融合后依然思维敏捷，不会变成“弱智”。
通用性强：
- 不管是从 2 个模型融合，还是从 10 个模型融合，这套逻辑都适用，不需要针对每个情况重新设计规则。

5. 总结：从“硬拼”到“巧合”

简单来说，这篇论文就像发明了一种**“智能导航融合仪”**。

以前： 我们像做沙拉一样，把不同的模型参数粗暴地切碎混合，结果往往是一团糟。
现在： 我们像规划环球旅行路线一样，沿着模型参数最自然的“曲面”寻找最佳交汇点。

结果就是： 我们可以把更多、更不同的大模型融合在一起，得到一个更强、更聪明、更稳定的超级模型，而且不需要重新训练，省下了巨大的算力和时间成本。这对于未来构建更强大的 AI 助手来说，是一个非常重要的进步。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

核心问题：
现有的大语言模型（LLM）合并（Model Merging）技术旨在无需重新训练的情况下，将多个微调后的模型合并为一个单一模型。然而，大多数现有方法（如线性平均、任务向量 Task Vectors 等）本质上是在欧几里得参数空间（Euclidean Parameter Space）中进行启发式操作。

现有方法的三大局限性：

目标错位： 线性平均等操作基于欧几里得坐标，但合并的目标实际上是融合模型的功能（即预测行为），而非简单的参数数值。
表示崩溃（Representation Collapse）： 当源模型差异较大或异构性较高时，欧几里得混合会导致激活值的方差缩小（Variance Collapse）和有效秩下降（Rank Collapse），从而急剧降低模型精度。这是因为线性插值切过了参数空间中的“低损失山谷”（Curved Valleys），导致模型偏离了高性能流形。
扩展性差： 许多基于几何的方法（如 SLERP）天然适用于两个模型的插值，难以在具有原则性目标的情况下扩展到 $N > 2$ 个专家的合并。

2. 方法论 (Methodology)

作者提出将模型合并问题重新表述为在 Fisher-Rao 流形 上计算加权 Karcher/Fréchet 均值 的问题。

2.1 核心思想

从参数弦到函数距离： 模型间距离的合理度量应是其预测分布之间的差异。对于微小的参数位移，Fisher-Rao (FR) 度量将参数空间几何与分布空间散度联系起来：
$d^2_{FR}(\theta, \theta') \approx 2 \cdot KL(p_\theta \parallel p_{\theta'})$
因此，最小化基于 FR 的质心目标等价于最小化预测分布间的 KL 散度（即功能距离）。
Karcher 均值： 目标是在 Fisher-Rao 流形上找到一个点 $\theta^*$ ，使其到所有专家模型 $\theta^{(i)}$ 的加权测地线距离之和最小：
$\theta^* := \arg \min_{\theta} \sum_{i=1}^N \alpha^{(i)} d^2_{FR}(\theta, \theta^{(i)})$
其最优解满足加权黎曼一阶条件： $\sum \alpha^{(i)} \text{Log}_{\theta^*}(\theta^{(i)}) = 0$ 。

2.2 算法实现：固定点迭代与球面代理

由于直接计算现代 LLM 的精确 Fisher-Rao 对数/指数映射是不可行的，作者提出了一种实用的**球面代理（Spherical Proxy）**方法：

球面 Karcher 均值： 将每个参数块（如层或张量组）视为向量，归一化到单位球面上。在球面 $S^{d-1}$ 上使用闭式解的对数/指数映射计算 Karcher 均值。
范数保持： 计算完方向均值后，根据源模型该块的范数（如平均范数）重新缩放。这解决了欧几里得插值中常见的“范数收缩”问题。
固定点更新： 算法通过迭代更新：
- 计算加权切空间向量： $v^{(t)} = \sum \alpha^{(i)} \text{Log}_{\theta^{(t)}}(\theta^{(i)})$
- 指数映射更新： $\theta^{(t+1)} = \text{Exp}_{\theta^{(t)}}(\eta v^{(t)})$
- 在球面代理下，双模型合并退化为 SLERP，且可直接扩展到 $N > 2$ 个模型。
Fisher 加权（可选）： 可以在对数映射近似中引入对角 Fisher 信息或 KFAC 估计作为预条件，以保护对预测分布影响大的方向。

3. 主要贡献 (Key Contributions)

理论框架： 首次将模型合并形式化为 Fisher-Rao 流形上的 Karcher/Fréchet 均值计算，直接针对基于 KL 散度的功能距离进行优化，而非欧几里得弦长。
实用算法： 推导了一种基于轻量级球面代理的固定点算法。该方法不仅将 SLERP 从双模型推广到 $N > 2$ 模型，而且计算高效，无需昂贵的 Fisher 信息矩阵计算。
实证稳定性： 提供了强有力的实验证据，证明该方法在合并模型数量增加（规模扩大）和异构性增加（模型差异变大）时，仍能保持稳定性，并显著缓解了表示崩溃（方差和秩的下降）问题。

4. 实验结果 (Results)

实验在 Qwen2.5 系列模型上进行，涵盖了从 135M 到 14B 的不同规模，并在多个基准测试（HellaSwag, BBH, MMLU-Pro, MuSR, GPQA-D）中进行了评估。

4.1 性能表现

双模型合并 ( $m=2$ )： KARCHER 方法在所有基准测试中均优于所有基线（包括 LERP, SLERP, TIES, DARE, Model Stock 等），平均得分最高（0.597 vs 基线最高 0.577）。
多模型合并 ( $m=5$ )： 优势更加明显。当合并 5 个模型时，大多数基于欧几里得规则的基线（如 LERP, TIES, DARE）性能发生断崖式下跌（平均得分降至 0.24 左右），而 KARCHER 保持了高性能（平均得分 0.610）。
扩展性 ( $m=2 \to 11$ )： 随着合并模型数量 $m$ 增加到 11 个，KARCHER 性能保持稳定甚至略有提升，而其他方法在 $m \approx 5$ 时出现崩溃。

4.2 崩溃诊断 (Collapse Diagnostics)

激活方差与有效秩： 通过分层分析（Layer-wise analysis），发现 KARCHER 合并后的模型在中深层（Mid-to-Deep layers）保留了更大的激活方差和有效秩（Effective Rank）。
对比： 相比之下，LERP 和 TIES 等插值方法导致激活值方差急剧缩小，有效秩显著降低，证实了 KARCHER 有效缓解了表示崩溃问题。

4.3 跨尺度鲁棒性

在合并不同规模模型（135M, 360M, 1.7B）时，KARCHER 依然表现出优于基线的性能，证明了其在不同参数空间几何结构下的鲁棒性。

5. 意义与结论 (Significance & Conclusion)

几何视角的突破： 该工作证明了在模型合并中，考虑参数空间的曲率（通过测地线而非弦）至关重要。当源模型差异较大或合并数量较多时，欧几里得平均会切断高性能流形，而 Karcher 均值能沿着流形寻找最优解。
解决“崩溃”痛点： 为当前大模型合并中普遍存在的“合并越多，性能越差”的表示崩溃问题提供了一个几何层面的解释和解决方案。
实用价值： 提出的算法轻量、无需额外训练，且能直接利用现有的 MergeKit 等工具库实现，为构建多能力融合的单一大模型提供了新的标准范式。

局限性：
方法依赖于对 Fisher-Rao 几何的近似（球面代理），在损失景观高度非线性的区域可能存在偏差；固定点迭代可能依赖初始化和步长；目前主要验证于特定架构（Qwen）和基准，对其他模态或极端异构池的泛化性仍需进一步验证。

总结： 这篇论文通过引入微分几何中的 Fisher-Rao 流形和 Karcher 均值概念，提出了一种功能导向的模型合并新范式。它不仅在理论上更严谨地定义了模型间的距离，而且在实践中显著提升了多模型合并的稳定性，特别是解决了大规模、高异构性合并时的性能崩溃问题。