Do Post-Training Algorithms Actually Differ? A Controlled Study Across Model Scales Uncovers Scale-Dependent Ranking Inversions

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一次**“大模型后训练算法的终极大比武”**。

想象一下，你是一位大厨（模型开发者），手里有一块顶级的食材（预训练好的大模型，比如 Qwen 2.5）。你的目标是把这块食材做成一道美味佳肴（让模型能听懂人话、会做题）。

过去两年，市场上涌现了50 多种不同的“烹饪秘方”（算法，如 DPO、SimPO、PPO 等）。每篇论文都声称自己的秘方最好，但大家用的食材不同、火候不同、甚至评委也不同，导致没人知道到底谁才是真的“厨神”。

这篇论文的作者（来自 orze.ai）决定搞一次**“盲测”**：

统一食材：只用同一种模型（Qwen 2.5）。
统一厨房：用完全一样的硬件和代码框架（OXRL）。
统一评委：用同样的数学题（GSM8K）和逻辑题来考试。
大规模实验：他们跑了约 240 次实验，测试了 4 种不同体量的模型（从 0.5B 到 7B，就像从小学生到博士生的跨度），还测试了 20 种 DPO 的变种。

结果，他们发现了一些颠覆常识的真相：

1. 排名会“变脸”：小模型和大模型，口味完全不同

这是最惊人的发现。算法的排名不是固定的，而是随着模型大小（Scale）剧烈变化的。

比喻：这就像**“赛车”**。
- 在**小赛道（0.5B - 1.5B 模型）**上，SGRPO（一种在线强化学习算法，类似让模型自己不断试错）是冠军，跑得飞快。
- 但到了大赛道（7B 模型），画风突变！之前跑最后一名、甚至差点翻车的SimPO（一种离线算法），突然变成了冠军，把 SGRPO 甩在身后。
- 结论：你不能因为一个小模型上 A 算法赢了，就认为它在 7B 大模型上也能赢。模型越大，排名越容易“大反转”。

2. 20 种“改良版”DPO，全是“花架子”

DPO 是目前最火的算法之一。大家觉得它不够完美，于是发明了 20 种“升级版”（比如加个正则项、换个损失函数）。

比喻：这就像**“给可乐换包装”**。
- 有人给可乐加了气泡（IPO），有人换了个瓶子（KTO），有人加了点薄荷（SimPO）。
- 作者把这 20 种“改良版”和原版 DPO 放在一起盲测。结果发现：除了 SimPO 因为太激进反而表现更差之外，其他 19 种改良版和原版 DPO 几乎没有区别，甚至可以说“半斤八两”。
- 结论：在损失函数（Loss Function）上死磕，就像在可乐瓶子上贴金箔，对味道（效果）几乎没影响。大家别再浪费精力发明新公式了。

3. 算法的“威力”取决于考什么题

算法在数学题上表现天差地别，但在普通常识题上却“泯然众人”。

比喻：这就像**“特长生”与“通才”**。
- 在**GSM8K（数学题）**上，不同算法的分数差距很大（有的 58 分，有的 38 分），选对算法能提分 20 分。
- 但在MATH（更难的高阶数学）或通用常识题上，所有算法的分数都挤在一起，差距只有 0.5 分。
- 结论：算法的选择只在你训练它的那个特定领域（比如数学）才有用。如果你让它去讲笑话或写代码，选哪个算法其实都差不多。

4. 真正的“胜负手”是什么？

作者总结了一个**“影响力金字塔”**，告诉你什么才是真正重要的：

模型大小（Scale）：🏆 王者。模型从 1.5B 升级到 7B，效果能提升 50 分。这是最核心的。
训练范式（Paradigm）：🥈 亚军。是用“在线试错”（RL）还是“离线学习”（DPO），影响约 10 分。
在线 vs 离线：🥉 季军。影响约 9 分。
损失函数（Loss Function）：🐜 小蚂蚁。改个公式，影响只有 1 分。

给开发者的“避坑指南”

基于这些发现，作者给 practitioners（实践者）提了 6 条建议：

别在小模型上测大模型：1.5B 模型上的冠军，到了 7B 可能是倒数第一。一定要在最终部署的规模上测试。
小模型用 SFT：如果模型很小（<1.5B），直接用简单的“监督微调（SFT）”最划算，效果最好。
别折腾 DPO 变种：直接用原版 DPO 就行，别去搞那些花里胡哨的变种，没用的。
大模型用 SimPO：如果模型很大（7B）且用 LoRA 微调，SimPO 是性价比之王。
在线 RL 要看任务：只有当模型能自己生成正确答案时，用在线强化学习（SGRPO）才有效。
检查代码 Bug：作者还发现了一个 PyTorch 的隐藏 Bug，导致之前的很多实验其实“种子”没随机好，大家测出来的结果可能都是假的。

总结

这篇论文告诉我们要**“抓大放小”**。
在 AI 后训练领域，不要沉迷于发明新的数学公式（损失函数），那是最低效的努力。
真正的力量来自于：

把模型做大（Scale）。
选对训练的大方向（范式）。
理解任务特性（是考数学还是考常识）。

这就好比做菜，与其纠结是放 0.1 克还是 0.2 克盐（损失函数），不如先确保你用的是顶级食材（大模型）和正确的烹饪方式（训练范式）。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于大语言模型（LLM）后训练（Post-Training）算法的大规模受控研究论文，题为《后训练算法真的不同吗？：跨模型规模的控制研究揭示规模依赖的排名反转》（Do Post-Training Algorithms Actually Differ? A Controlled Study Across Model Scales Uncovers Scale-Dependent Ranking Inversions）。

以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

现状：后训练对齐（Post-training alignment）领域涌现了数十种竞争算法，包括在线强化学习（如 PPO, GRPO）、离线偏好优化（如 DPO）及其众多变体（SimPO, KTO, ORPO 等）。
痛点：
- 缺乏受控比较：现有文献通常在不同的基座模型、数据集和评估套件上报告结果，导致跨方法比较不可靠。
- 未探索的关键维度：算法排名如何随模型规模变化？DPO 的众多变体中哪些修改真正有效？在线与离线方法的计算 - 性能权衡如何？
- 混淆因素：现有对比研究往往将算法差异与实现细节（如代码库、数据管道）混淆。

2. 方法论 (Methodology)

作者提出了 OXRL 框架，这是首个大规模、受控的后训练算法统一评估框架。

统一框架 (Unified Framework)：
- 实现了 51 种 后训练算法，共享完全相同的基础设施（模型加载、数据管道、分布式训练 DeepSpeed ZeRO-3、评估工具）。
- 消除了“代码库作为混淆因素”的问题，确保除损失函数外，所有运行（SL runs）在模型、数据顺序、优化器状态和梯度管道上都是字节级一致的。
受控设计 (Controlled Design)：
- 固定模型家族（Qwen 2.5）、训练数据、优化器和学习率调度。
- 仅改变损失函数。对于需要额外组件（如参考模型、Rollouts）的算法，进行了标准化处理。
多尺度评估 (Multi-scale Evaluation)：
- 规模：覆盖 4 个模型规模（0.5B, 1.5B, 3B, 7B）。
- 算法：核心对比 8 种主要算法；针对 1.5B 模型进行了 20 种 DPO 变体 的细粒度测试（每种 5 个种子，共 100 次运行）。
- 因子分析：在 3B 和 7B 规模下，设计了 2x2 因子实验（全量微调 vs. LoRA），以解耦模型规模效应与 LoRA 正则化效应。
- 任务：主要基准为 GSM8K（数学推理），辅以 MATH、ARC-Challenge、HellaSwag 等通用领域基准。
实验规模：总计约 240 次 训练运行，在 H100 GPU 上耗时约 235 GPU 小时。

3. 关键发现 (Key Findings)

A. 排名随模型规模发生反转 (Ranking Inversions Across Scale)

这是论文最核心的发现：算法的优劣高度依赖于模型规模。

小模型 (1.5B)：在线强化学习 (SGRPO) 表现最佳（GSM8K 准确率 58.0%），优于 SFT (+3.6 pp) 和 DPO (+8.9 pp)。此时，基于参考模型的方法（DPO, IPO, KTO）表现中等，而 SimPO 表现最差 (38.7%)。
大模型 (7B)：排名完全反转。SimPO 成为最佳方法 (85.8%)，而 SFT 崩溃至接近基线水平。SimPO 从“最差”变为“最好”，实现了约 21 个百分点的逆转。
归因：通过 2x2 因子实验证实，这种反转是由模型规模驱动的，而非 LoRA 正则化。LoRA 在 3B 规模下对结果影响微乎其微，但在 7B 规模下，SimPO 的无参考模型训练更利于模型自主掌握格式合规性（Format Compliance），从而在大模型上获得巨大优势。

B. DPO 变体大多无效 (Negligible Gains from Loss Modifications)

零显著赢家：在 1.5B 模型上对 20 种 DPO 变体进行了 100 次运行（5 种子/变体），并经过 Bonferroni 校正。
结果：没有任何一个变体 在统计上显著优于原生 DPO。
异常值：唯一显著的异常是 SimPO，但它比原生 DPO 差了 11.5 个百分点 ( $p < 10^{-4}$ )。
结论：损失函数的微调（Loss Engineering）带来的收益微乎其微（约 1 pp），远小于模型规模（约 50 pp）和训练范式（约 10 pp）的影响。这类似于 GAN 领域的发现（Lucic et al., 2018），即大多数变体在受控条件下无法超越原版。

C. 算法杠杆具有任务特异性 (Task-Specific Leverage)

GSM8K：算法间的差异巨大（跨度 19.3 pp）。
MATH：差异急剧缩小至 0.54 pp（压缩 36 倍），且排名再次反转（SGRPO 跌至第 4，SimPO 升至第 2）。
通用领域：差异进一步缩小至 0.47 pp（压缩 41 倍），且没有任何方法显著优于未训练的基座模型。
结论：算法选择仅在训练分布内（特别是格式敏感的数学任务）至关重要。在分布外任务上，算法选择几乎无关紧要，且不会损害通用能力。

D. 发现隐藏的技术缺陷

研究团队发现 PyTorch 的 DistributedSampler 中存在一个隐蔽的确定性 Bug，导致种子依赖的方差被静默消除。修复后，他们重新运行了实验，揭示了真实的训练不稳定性（例如 3B 规模下 DPO 的种子方差高达 2.01 pp）。

4. 贡献与意义 (Contributions & Significance)

主要贡献

OXRL 框架：发布了一个统一的基准框架，包含代码、配置和评估数据，允许社区以“苹果对苹果”的方式比较任何新算法。
层级化杠杆理论：提出了后训练优化的优先级层级：
- 模型规模 (Scale) $\gg$ 训练范式 (Paradigm) $\gg$ 在线 vs. 离线 (Online vs. Offline) $\gg$ 损失函数 (Loss Function)。
- 具体量化：规模影响 (~~50 pp) > 范式 (~~10 pp) > 在线/离线 (~~9 pp) > 损失函数 (~~1 pp)。
实证证据：提供了大规模、多种子、多尺度的统计证据，推翻了“新损失函数必然带来提升”的直觉。

对实践者的建议 (Recommendations)

验证规模：在部署规模（如 7B+）上验证算法，小规模（<3B）的排名无法预测大模型行为。
小模型策略：在 $\le$ 1.5B 规模下，优先使用 SFT（最强且最便宜的离线方法），而非偏好优化。
DPO 选择：直接使用 原生 DPO，无需尝试复杂的变体。
大模型策略：在 $\ge$ 7B 且使用 LoRA 时，优先选择 SimPO（最佳准确率且计算效率最高）。
在线 RL：仅在格式敏感且模型能自生成正确答案的任务上使用 Token 级 SGRPO。
技术检查：在所有分布式训练研究中，务必验证种子传播（Seed Propagation）是否正确。

5. 总结

这篇论文通过严谨的受控实验，揭示了后训练算法领域的一个反直觉事实：算法的相对性能高度依赖于模型规模，且大多数损失函数的改进是无效的。 社区应将精力从设计新的损失函数转移到理解算法、规模与任务结构之间的相互作用上。该研究为未来的大模型对齐工作提供了重要的基准和方向指引。