Training Large Language Models To Reason In Parallel With Global Forking Tokens

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种让大语言模型（LLM）变得更聪明、更会“多角度思考”的新方法。为了让你轻松理解，我们可以把大语言模型想象成一个正在解数学题的学生，而这篇论文就是教这个学生如何同时开启多个“平行宇宙”的解题思路，并且知道在什么时候该用哪条思路。

以下是用通俗语言和比喻对这篇论文核心内容的解读：

1. 核心问题：学生容易“钻牛角尖”或“想太多”

现在的 AI 很厉害，但让它做难题时，它通常只有一条路走到底（串行思考）。

想太多（Overthinking）： 如果让它一直想，它可能会陷入死胡同，或者因为想太久反而把简单问题搞复杂了，导致错误。
多样性困境： 为了让它更聪明，我们通常让它多试几次（比如温度参数调高），但这就像让一个学生随机乱猜。虽然猜的次数多了，但正确的思路往往藏在很深的地方，随机猜很难碰到，而且容易把正确的思路也搞乱了（准确率下降）。

比喻： 想象你在迷宫里。以前的方法是让 AI 像一个人一样，一条路走到黑，撞墙了再回头。如果迷宫太复杂，它很容易迷路。现在的做法是让它同时派几个人进去，但如果这“几个人”都是同一种性格（比如都爱走左边），那他们可能都会死在同一个死胡同里。

2. 核心创新：给每个“平行宇宙”发一张专属门票

这篇论文提出了一个叫 SSFT（集合监督微调） 的方法。

以前的做法（普通微调）： 老师给 AI 看 4 种不同的解题过程，告诉它“这些都是对的”。结果 AI 学傻了，它觉得“哦，反正都是对的，那我就把它们的共同点学下来”，最后它只学会了一种“平庸”的解法，失去了多样性。
SSFT 的做法（二分图匹配）：
1. 发门票（Global Forking Tokens）： 论文给 AI 准备了 6 张特殊的“门票”（比如 <think 1>, <think 2>... <think 6>）。
2. 对号入座： 当 AI 看到一道题时，它必须同时生成 4 条不同的解题思路。
3. 智能匹配（核心魔法）： 算法会自动计算：哪张门票最适合哪条思路？
  - 比如：<think 1> 最适合“代数法”，<think 2> 最适合“几何法”。
  - 算法会强行把 <think 1> 和“代数法”绑定，把 <think 2> 和“几何法”绑定，并惩罚那些“乱点鸳鸯谱”的情况。
4. 结果： 经过训练，AI 发现：“哦！原来只要我输入 <think 1>，我就必须走代数路线；输入 <think 2>，我就必须走几何路线。”

比喻： 以前是让学生随便乱想。现在，老师给每个学生发了不同颜色的帽子（门票）。

戴红帽子的学生，必须用代数解题。
戴蓝帽子的学生，必须用几何解题。
老师通过一种“智能配对游戏”，确保红帽子永远只教代数，蓝帽子永远只教几何。这样，当学生戴上红帽子时，他的大脑就自动切换到代数模式，不会混乱。

3. 训练过程：如何找到最佳配对？

论文用了一个数学工具叫匈牙利算法（Hungarian Algorithm）。

这就好比在安排座位。有 6 个学生（门票）和 4 道题解法（思路）。
系统会尝试所有可能的搭配，找出总成本最低（也就是最顺畅、最准确）的那一种搭配。
一旦找到最佳搭配，就告诉 AI：“记住！红帽子配代数，蓝帽子配几何，下次就这么做！”

4. 进阶玩法：GFPO（让 AI 自己选帽子）

训练好之后，AI 已经知道每张帽子代表什么了。但在考试时，它怎么知道该戴哪顶帽子呢？

论文还引入了 GFPO（全局分叉策略优化）。
这就像给 AI 一个“直觉”。面对一道难题，AI 会自己判断：“这道题好像很难，代数法可能行不通，我试试戴蓝帽子（几何法）吧！”
这样，AI 不仅能同时生成多种思路，还能主动选择最适合当前问题的那一种思路，大大提高了单次回答的正确率。

5. 实验结果：真的有效吗？

论文在数学（如 AIME 竞赛题）和代码生成任务上做了测试：

多样性： 不同的帽子确实引出了完全不同的解题风格（有的像严谨的数学家，有的像直觉派，有的像草稿纸上的涂鸦）。
准确率： 使用这种方法训练的模型，比传统方法（SFT）和随机配对的方法都要强。特别是在需要同时尝试多种思路（并行计算）时，表现提升巨大。
抗干扰： 即使是在没见过的题目上（代码生成），这种“多模式”能力也能迁移过去，让 AI 更灵活。

总结

这篇论文的核心思想就是：不要指望 AI 随机变聪明，而是给它一套“开关”（门票），并教会它每个开关对应一种特定的、高质量的思考模式。

以前： AI 像是一个只会一种解法的人，或者是一个随机乱猜的人。
现在： AI 像一个拥有六套不同思维工具箱的专家。你给它一个特定的指令（门票），它就能立刻切换到对应的专家模式（代数专家、几何专家、直觉专家等），并且知道什么时候该用哪个工具箱。

这种方法让 AI 在保持高准确率的同时，拥有了真正的“多角度思考”能力，解决了“想太多反而变笨”的难题。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的论文，题为《TRAINING LARGE LANGUAGE MODELS TO REASON IN PARALLEL WITH GLOBAL FORKING TOKENS》（利用全局分叉令牌训练大语言模型进行并行推理）。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

并行推理的瓶颈：虽然通过增加测试时计算量（Test-time Compute）并生成多个推理路径（如 Self-Consistency）可以提升大语言模型（LLM）的推理能力，但这依赖于模型能够生成既多样又准确的推理路径。
现有方法的缺陷：
- 过思考（Overthinking）：单纯的序列扩展（Sequential Scaling）可能导致性能下降。
- 分叉令牌（Forking Tokens）难以捕捉：能够触发不同且正确推理模式的“分叉令牌”通常位于采样树的深层。随着问题难度增加，随机采样到这些令牌的难度增大。
- 多样性与准确性的权衡：传统的提高多样性的方法（如温度缩放 Temperature Scaling）往往以牺牲准确性为代价，因为高温会破坏正确的推理模式。
- 微调导致的模式坍塌：在监督微调（SFT）中，如果直接使用多条推理轨迹进行训练，模型往往会将所有轨迹“坍塌”为单一的推理模式，无法保留多样性。

2. 核心方法论 (Methodology)

论文提出了一种名为 集合监督微调（Set Supervised Fine-Tuning, SSFT） 的框架，将并行推理视为一个“下一令牌预测的集合”问题。

2.1 全局分叉令牌 (Global Forking Tokens)

引入一组预留的特殊令牌（如 <think 1>, <think 2>, ... <think N>），称为全局分叉令牌。
这些令牌作为提示（Prompt），旨在分别触发模型生成 $M$ 条不同的、且与地面真值（Ground-truth）对齐的推理轨迹。

2.2 基于二分图匹配的集合损失 (Set-based Loss via Bipartite Matching)

这是 SSFT 的核心创新。为了训练模型学会“哪个令牌对应哪条轨迹”，论文设计了以下流程：

构建代价矩阵：对于给定的输入 $x$ 和 $M$ 条推理轨迹 $\{r^{(j)}\}$ ，以及 $N$ 个分叉令牌 $\{g^{(i)}\}$ ，计算每个令牌 $g^{(i)}$ 生成轨迹 $r^{(j)}$ 的负对数似然（NTP Loss）。
最优二分图匹配：使用 匈牙利算法（Hungarian Algorithm） 寻找令牌集合与轨迹集合之间的最小代价匹配配置 $\hat{\sigma}$ $\overset{σ}{^}$ 。
- 这确保了模型不会因为某条轨迹在某个令牌下表现差而受到惩罚，只要它在另一个匹配的令牌下表现好即可（置换不变性）。
- 防止了模型在生成不同轨迹时共享同一个令牌。
损失函数：基于最优匹配 $\hat{\sigma}$ ，计算集合语言建模损失（Set Language Modeling Loss），并反向传播更新模型参数。

2.3 全局分叉策略优化 (Global Forking Policy Optimization, GFPO)

在 SSFT 训练后，模型学会了令牌与推理模式的关联。为了在推理时自动选择最佳令牌，论文引入了 GFPO。
这是一种轻量级的强化学习（RL）步骤，仅优化分叉令牌 $g^{(i)}$ 的选择策略（Policy Gradients），而不更新生成轨迹的其余部分。
GFPO 能够根据问题 $x$ 动态选择最可能触发复杂且正确推理模式的令牌。

3. 主要贡献 (Key Contributions)

提出 SSFT 框架：首次将集合损失（Set Loss）引入 LLM 的 SFT，通过令牌与轨迹的二分图匹配，解决了多轨迹微调中的模式坍塌问题。
发现并验证全局分叉令牌：证明了 SSFT 训练出的模型能够学会独特的全局分叉令牌，每个令牌能稳定触发一种特定的推理模式（如不同的数学解题策略），而标准 SFT 会导致这些模式坍塌。
GFPO 提升推理效率：展示了通过 GFPO 优化令牌选择，可以进一步提升 Pass@1（单次生成准确率）和 Cons@k（k 次生成的一致性/多数投票准确率）。
广泛的实验验证：在数学推理（AIME, MATH, GPQA）和代码生成（LiveCodeBench）任务上，SSFT+GFPO 模型显著优于基线模型（包括标准 SFT、随机匹配 SFT 以及使用温度缩放的模型）。

4. 实验结果 (Results)

基准测试表现：
- 在 AIME 2024/2025 和 MATH-500 等数学基准上，SSFT-32B 模型在 Pass@1 和 Cons@6/32 指标上均取得了 SOTA 或接近 SOTA 的成绩。
- 例如，在 AIME 2024 上，SSFT-32B 的 Pass@1 达到 64.06%，优于混合数据 SFT 基线（58.23%）和随机匹配 SFT（61.77%）。
- 在 Cons@6（6 次并行生成的多数投票）上，SSFT 表现尤为突出，AIME 2025 达到 73.94%。
多样性分析：
- 通过可视化不同 <think i> 令牌触发的推理长度和准确率，发现最优匹配下的 SSFT 模型中，不同令牌触发了显著不同长度和策略的推理路径（例如有的侧重代数推导，有的侧重几何分析），而随机匹配或标准 SFT 则无法区分。
鲁棒性：
- 在代码生成任务（LiveCodeBench）上，即使微调数据仅包含代码轨迹，SSFT 模型在数学推理任务上的泛化能力也优于基线，证明了其学习到的“推理模式”具有通用性。
- 在不同模型规模（4B, 8B, 32B）上均有效。

5. 意义与结论 (Significance & Conclusion)

解决“过思考”与多样性矛盾：SSFT 提供了一种机制，使得模型无需依赖高温采样或随机性，就能通过特定的令牌精确控制推理的多样性，同时保持高准确性。
测试时计算的新范式：将并行推理从“随机采样聚合”转变为“受控的集合预测”，使得测试时计算（Test-time Compute）更加高效和可解释。
对未来的启示：该方法展示了如何通过结构化的损失函数（集合损失）和特定的控制令牌，让模型学会“何时以及如何思考”，为构建更强大的智能体（Agentic AI）和推理模型提供了新的训练范式。

总结：这篇论文通过引入“全局分叉令牌”和“基于二分图匹配的集合损失”，成功解决了多轨迹微调中的模式坍塌问题，使 LLM 能够主动、可控地生成多样化的推理路径，显著提升了复杂推理任务的性能。