Training Large Language Models To Reason In Parallel With Global Forking Tokens

该论文提出了通过引入基于集合的全局损失进行监督微调(SSFT)以保留多样化的推理模式并生成全局分叉令牌,进而利用全局分叉策略优化(GFPO)引导模型在推理和代码生成任务中实现超越传统方法的性能。

Sheng Jia, Xiao Wang, Shiva Prasad Kasiviswanathan

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种让大语言模型(LLM)变得更聪明、更会“多角度思考”的新方法。为了让你轻松理解,我们可以把大语言模型想象成一个正在解数学题的学生,而这篇论文就是教这个学生如何同时开启多个“平行宇宙”的解题思路,并且知道在什么时候该用哪条思路。

以下是用通俗语言和比喻对这篇论文核心内容的解读:

1. 核心问题:学生容易“钻牛角尖”或“想太多”

现在的 AI 很厉害,但让它做难题时,它通常只有一条路走到底(串行思考)。

  • 想太多(Overthinking): 如果让它一直想,它可能会陷入死胡同,或者因为想太久反而把简单问题搞复杂了,导致错误。
  • 多样性困境: 为了让它更聪明,我们通常让它多试几次(比如温度参数调高),但这就像让一个学生随机乱猜。虽然猜的次数多了,但正确的思路往往藏在很深的地方,随机猜很难碰到,而且容易把正确的思路也搞乱了(准确率下降)。

比喻: 想象你在迷宫里。以前的方法是让 AI 像一个人一样,一条路走到黑,撞墙了再回头。如果迷宫太复杂,它很容易迷路。现在的做法是让它同时派几个人进去,但如果这“几个人”都是同一种性格(比如都爱走左边),那他们可能都会死在同一个死胡同里。

2. 核心创新:给每个“平行宇宙”发一张专属门票

这篇论文提出了一个叫 SSFT(集合监督微调) 的方法。

  • 以前的做法(普通微调): 老师给 AI 看 4 种不同的解题过程,告诉它“这些都是对的”。结果 AI 学傻了,它觉得“哦,反正都是对的,那我就把它们的共同点学下来”,最后它只学会了一种“平庸”的解法,失去了多样性。
  • SSFT 的做法(二分图匹配):
    1. 发门票(Global Forking Tokens): 论文给 AI 准备了 6 张特殊的“门票”(比如 <think 1>, <think 2>... <think 6>)。
    2. 对号入座: 当 AI 看到一道题时,它必须同时生成 4 条不同的解题思路。
    3. 智能匹配(核心魔法): 算法会自动计算:哪张门票最适合哪条思路?
      • 比如:<think 1> 最适合“代数法”,<think 2> 最适合“几何法”。
      • 算法会强行把 <think 1> 和“代数法”绑定,把 <think 2> 和“几何法”绑定,并惩罚那些“乱点鸳鸯谱”的情况。
    4. 结果: 经过训练,AI 发现:“哦!原来只要我输入 <think 1>,我就必须走代数路线;输入 <think 2>,我就必须走几何路线。”

比喻: 以前是让学生随便乱想。现在,老师给每个学生发了不同颜色的帽子(门票)。

  • 红帽子的学生,必须用代数解题。
  • 蓝帽子的学生,必须用几何解题。
  • 老师通过一种“智能配对游戏”,确保红帽子永远只教代数,蓝帽子永远只教几何。这样,当学生戴上红帽子时,他的大脑就自动切换到代数模式,不会混乱。

3. 训练过程:如何找到最佳配对?

论文用了一个数学工具叫匈牙利算法(Hungarian Algorithm)

  • 这就好比在安排座位。有 6 个学生(门票)和 4 道题解法(思路)。
  • 系统会尝试所有可能的搭配,找出总成本最低(也就是最顺畅、最准确)的那一种搭配。
  • 一旦找到最佳搭配,就告诉 AI:“记住!红帽子配代数,蓝帽子配几何,下次就这么做!”

4. 进阶玩法:GFPO(让 AI 自己选帽子)

训练好之后,AI 已经知道每张帽子代表什么了。但在考试时,它怎么知道该戴哪顶帽子呢?

  • 论文还引入了 GFPO(全局分叉策略优化)
  • 这就像给 AI 一个“直觉”。面对一道难题,AI 会自己判断:“这道题好像很难,代数法可能行不通,我试试戴蓝帽子(几何法)吧!”
  • 这样,AI 不仅能同时生成多种思路,还能主动选择最适合当前问题的那一种思路,大大提高了单次回答的正确率。

5. 实验结果:真的有效吗?

论文在数学(如 AIME 竞赛题)和代码生成任务上做了测试:

  • 多样性: 不同的帽子确实引出了完全不同的解题风格(有的像严谨的数学家,有的像直觉派,有的像草稿纸上的涂鸦)。
  • 准确率: 使用这种方法训练的模型,比传统方法(SFT)和随机配对的方法都要强。特别是在需要同时尝试多种思路(并行计算)时,表现提升巨大。
  • 抗干扰: 即使是在没见过的题目上(代码生成),这种“多模式”能力也能迁移过去,让 AI 更灵活。

总结

这篇论文的核心思想就是:不要指望 AI 随机变聪明,而是给它一套“开关”(门票),并教会它每个开关对应一种特定的、高质量的思考模式。

  • 以前: AI 像是一个只会一种解法的人,或者是一个随机乱猜的人。
  • 现在: AI 像一个拥有六套不同思维工具箱的专家。你给它一个特定的指令(门票),它就能立刻切换到对应的专家模式(代数专家、几何专家、直觉专家等),并且知道什么时候该用哪个工具箱。

这种方法让 AI 在保持高准确率的同时,拥有了真正的“多角度思考”能力,解决了“想太多反而变笨”的难题。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →