On-Policy Self-Distillation for Reasoning Compression

本文提出了 OPSDC(基于策略的自我蒸馏推理压缩)方法,通过让模型在“简洁”指令下自我蒸馏,无需外部标签或预算约束即可自动压缩冗余推理,在显著减少 Qwen3 模型生成 token 数量的同时提升了数学推理任务的准确率。

Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang, Jiachen Sun

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 OPSDC 的新技术,它的核心思想非常有趣:教大模型学会“闭嘴”,结果反而让它变得更聪明了。

想象一下,现在的顶级 AI 模型(比如 Qwen3)在回答问题前,习惯像人类一样“大声思考”(Chain of Thought)。它们会在脑子里(也就是生成的文本中)进行大量的推演、自我怀疑、反复验证。

  • 现状: 面对一个简单的数学题(比如"2+2 等于几”),它们可能会写几千个字,先怀疑是不是二进制,再检查有没有陷阱,最后才给出答案。这就像是你去问朋友“今天星期几”,他却给你讲了一整篇关于日历历史的论文。
  • 问题: 这种啰嗦不仅浪费时间和算力,更糟糕的是,说得越多,出错的机会就越大。就像你在解一道数学题,步骤写得越长,中间写错一个数字的概率就越高,一旦前面错了,后面全完蛋。

OPSDC 是怎么做的?(核心比喻)

OPSDC 就像是一个**“自我纠错的教练”**,它不需要老师(人类)来告诉它答案对不对,也不需要给它设定“只能写 100 个字”的死板规定。它的训练方法非常巧妙:

  1. 分身术(Teacher vs. Student):
    它把同一个模型分成两个角色:

    • 学生(Student): 正常的模型,回答问题时喜欢啰里啰嗦。
    • 老师(Teacher): 还是同一个模型,但被加了一句“咒语”(指令):“请用最简洁的方式回答,不要废话。”
  2. 模仿秀(Self-Distillation):
    让“学生”先自己写一长串答案,然后让“老师”(带着简洁指令)看着同样的题目,写出一个精简版的答案。
    接着,强迫“学生”去模仿“老师”的简洁写法。如果学生写得太啰嗦,就惩罚它;如果它学会了像老师那样言简意赅,就给予奖励。

  3. 动态调整(自适应):
    最神奇的是,这个“老师”不是一成不变的。每过一段时间,老师就会把自己变成“学生”现在的样子,然后再戴上“简洁”的帽子。

    • 对于简单的问题: 老师能写出极短的答案,学生就会拼命模仿,把废话删得干干净净。
    • 对于很难的问题: 老师发现这个问题太复杂,必须得想很多步才能解出来,所以老师写的也不会太短。学生就会明白:“哦,这种难题不能太省,得保留思考过程。”
    • 结果: 模型自动学会了**“该省则省,该详则详”**。

为什么“少说话”反而“更聪明”?

论文发现了一个反直觉的现象:减少废话,准确率反而提高了。

  • 比喻: 想象你在走一条迷宫。
    • 啰嗦的模型: 每走一步都要停下来自言自语:“我是不是走错了?左边好像有个洞?右边是不是有风?让我再确认一下……"结果因为想太多,反而在原地打转,或者因为分心撞到了墙上。
    • OPSDC 模型: 它学会了直接看路,只走关键的几步。因为步骤少了,犯错的概率自然就降低了。就像射击,打 100 枪可能只有 1 枪中靶,但如果你只打 1 枪且瞄准了,命中率反而更高。

实验结果有多惊人?

研究人员在 Qwen3-8B 和 Qwen3-14B 这两个模型上做了测试:

  • MATH-500(数学题): 模型生成的字数减少了 57%~59%(几乎砍掉了一半多),但准确率反而提升了 9~16 个百分点(从 70% 涨到了 86%)。
  • AIME 2024(高难度竞赛题): 字数减少了 41%,准确率提升了 10 分。
  • 通用能力: 模型并没有因为变“话少”而变“笨”,它在其他领域的通用能力(MMLU 测试)完全没有下降。

总结

这篇论文告诉我们一个深刻的道理:有时候,过度思考(Overthinking)并不是谨慎,而是噪音。

OPSDC 就像给大模型做了一次“断舍离”。它不需要人类老师手把手教,而是让模型自己意识到:“原来我不需要说那么多废话也能把题做对,而且说得越少,我越不容易出错。”

最终,我们得到了一个更干练、更精准、更省钱的 AI 助手。它不再是一个喋喋不休的哲学家,而是一个言简意赅的实干家。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →