Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization

本文提出了细粒度组策略优化(FGO)算法,通过细分组响应并基于长度和熵分配权重,在有效压缩大语言模型冗长思维链的同时解决了 GRPO 算法数据利用率低和熵崩溃的问题,实现了在不降低性能的前提下提升推理效率。

Xinchen Han, Hossam Afifi, Michel Marot, Xilu Wang, Lu Yin

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何让大语言模型(LLM)“说话更简练、思考更高效”的故事

想象一下,你有一个非常聪明的助手(大语言模型),它擅长解决复杂的数学题或逻辑题。但是,这个助手有个坏习惯:它太啰嗦了

1. 问题:聪明的“话痨”助手

以前,为了让助手答对难题,研究人员教它要“多思考”(Chain-of-Thought,思维链)。结果,助手为了保险起见,开始过度思考

  • 现象:它会在解题过程中反复检查、自我怀疑,甚至把简单的步骤重复好几遍。
  • 后果:就像一个人做一道简单的数学题,却写了整整十页的草稿纸,还不断自言自语“等等,我是不是算错了?再算一遍……"。这不仅浪费了大量的时间(延迟)和算力(金钱),而且有时候想得太多反而把自己绕晕了,导致答案还是错的。

2. 旧方案:GRPO(有点粗糙的教练)

为了解决这个问题,之前的方法叫 GRPO。你可以把它想象成一个有点粗线条的教练

  • 教练的做法:他给助手一组题目,让助手做几遍。如果助手做对了,就奖励;做错了,就惩罚。
  • 缺陷
    1. 数据浪费:如果一组题目里,助手做的所有答案都是错的,教练就不知道该怎么指导了(因为大家都一样错,没法比较谁更好)。
    2. 思维僵化(熵崩溃):为了求稳,助手开始变得“无脑”,只敢写那种最安全、最无聊的废话,失去了探索新解法的能力,最后大家写的东西都一模一样,毫无新意。

3. 新方案:FGO(精明的“分众”教练)

这篇论文提出了一个新方法,叫 FGO(细粒度组策略优化)。你可以把它想象成一位非常精明、懂得因材施教的教练

这位教练不再“一刀切”,而是把助手们的回答分成了两个小组,并制定了不同的“奖惩规则”:

第一组:做对题的“优等生” (Correct Subgroup)

  • 教练的策略:“做得对很好!但我们要更精简。”
  • 具体做法
    • 如果优等生写的解题步骤很短,而且很有把握(不犹豫、不啰嗦),教练就重重奖励
    • 如果优等生虽然做对了,但写了长篇大论、反复确认,教练就少给点奖励
  • 比喻:就像考试,如果你能用三行字解出难题,老师会给你发“金笔奖”;如果你用了十行字才解出来,虽然也对,但老师会觉得你太啰嗦,只给你个“铜笔奖”。

第二组:做错题的“差生” (Incorrect Subgroup)

  • 教练的策略:“做错了没关系,但我们要多尝试、多思考。”
  • 具体做法
    • 对于做错的回答,教练不再直接给零分(那样助手就放弃了)。
    • 相反,如果差生虽然做错了,但尝试了不同的思路(思维活跃,不重复),或者写得比较短(没有废话),教练会给予鼓励
    • 如果差生只是机械地重复错误的废话,那就重罚。
  • 比喻:就像学骑自行车,摔倒了没关系。如果你摔倒是因为你尝试了新的平衡方法(虽然没成功),教练会拍拍你的肩膀说“有创意,继续试”;如果你只是原地发呆或者乱蹬,教练就会批评你。

4. 核心魔法:两个关键指标

FGO 教练在打分时,主要看两个指标:

  1. 长度 (Length):越短越好(像写摘要,言简意赅)。
  2. 熵 (Entropy):这是一个专业术语,简单理解就是**“思维的多样性”**。
    • 对于做对的题,希望思维稳定(不要反复横跳)。
    • 对于做错的题,希望思维活跃(多尝试新路子,不要死板)。

5. 实验结果:真的有效吗?

研究人员用这个新教练(FGO)训练了几个数学模型,并在各种数学竞赛(如 MATH500, AIME24 等)上进行了测试。结果非常惊人:

  • 变短了:助手生成的回答长度减少了一半甚至更多(比如从 700 个字变成了 300 个字)。
  • 变强了:虽然话变少了,但答对的准确率反而提高了
  • 不啰嗦了:助手不再无意义地重复“等等,我再想想”,而是直接给出最核心的逻辑。
  • 解决了旧问题:旧教练(GRPO)经常遇到“大家全错,没法教”的情况,而新教练(FGO)能利用所有数据,并且防止助手变得思维僵化。

总结

这篇论文的核心思想就是:聪明不等于啰嗦。

通过 FGO 这种“精细化”的奖励机制,我们教会了大语言模型:做对题要“快准狠”,做错时要“多尝试”。最终,模型不仅算得更快、更省资源,而且变得更聪明、更可靠了。这就好比把一位“啰嗦的学霸”训练成了一位“言简意赅的解题大师”。