Not all tokens are needed(NAT): token efficient reinforcement learning

本文提出了 NAT(Not All Tokens Are Needed)框架,通过基于 Horvitz-Thompson 重加权的无偏部分 Token 策略梯度估计器,仅利用生成 Token 的子集进行强化学习更新,在保持数学推理等基准任务性能与全 Token 训练相当的同时,显著降低了长思维链场景下的计算成本与显存占用。

Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种让大型人工智能(AI)模型“学得更聪明、更省钱”的新方法。我们可以把它想象成是在教一个学生做极其复杂的数学题。

1. 背景:为什么现在的 AI 训练太“烧钱”?

想象一下,你正在教一个超级聪明的学生(AI 模型)做奥数题。

  • 传统的做法(全量训练): 学生每写一步解题过程,老师都要停下来,从头到尾把整个解题过程(包括那些最基础的“因为 A 所以 B"、“把 X 移到等号右边”这种机械步骤)全部检查一遍,然后告诉学生哪里做得好,哪里需要改进。
  • 问题所在: 现在的 AI 解题思路(Chain-of-Thought)越来越长,有时候要写几千个字。如果老师对每一个字都进行详细的检查和反馈,不仅老师累得半死(计算资源消耗巨大),而且学生学得很慢。这就好比为了教学生解一道题,老师把学生写的几千字草稿纸上的每一个标点符号都重新读了一遍,效率极低。

2. 核心创新:NAT(“并非所有字都需要”)

这篇论文的作者提出了一个叫 NAT (Not All Tokens are Needed) 的框架。它的核心理念是:并不是解题过程中的每一个字,都需要老师亲自检查一遍才能学会。

作者发现,在长长的解题过程中:

  • 有些字是关键决策点(比如“这里应该用勾股定理”),这些字很重要,必须学。
  • 有些字是机械性填充(比如“移项”、“合并同类项”),这些字只是把前面的逻辑顺下来,重复性很高,不需要每次都重新“背”一遍。

NAT 的做法是:
老师不再检查每一个字,而是随机挑选一部分关键的字进行检查和反馈。但是,为了保证学生学得不走样,老师用了一种特殊的“加权算法”(论文里叫 Horvitz-Thompson 估计),确保虽然只检查了一部分,但学到的知识总量和检查全部字是一样的,只是速度快了一倍,内存占用少了一半

3. 两种“挑选”策略:谁更聪明?

论文里提出了两种挑选字的方法,我们可以用两个生动的比喻来理解:

方法 A:随机撒网 (URS - 均匀随机采样)

  • 比喻: 老师手里有一把筛子,把学生写的几千字草稿纸倒进去,随机筛掉一半的字,只检查剩下的。
  • 结果: 虽然检查的字少了,但阅读速度没变快。因为学生写的时候,是顺着逻辑写的,后面的字依赖于前面的字。老师为了检查第 1000 个字,还是得先读完前 999 个字(在计算机里叫“前向传播”)。所以,虽然省了点检查的力气,但阅读和记忆的负担(显存)并没有明显减少

方法 B:随机截断 (RPC - 随机前缀切割) —— 这是本文的明星

  • 比喻: 老师决定,每次只让学生写到一半就停下来。比如,学生本来要写 1000 字,老师随机决定:“今天只看到第 400 字,后面的不用看了,我们直接根据这 400 字来总结教训。”
  • 关键点: 这种方法不仅检查的字少了,而且阅读和记忆的负担也大幅降低了!因为老师根本不需要去读后面那 600 个字。
  • 为什么不会学偏? 这里有个魔法:老师会告诉学生,“虽然我只看了前 400 字,但我给你的反馈权重会加倍(比如乘以 2.5),这样你学到的教训总量和看完全文是一样的。”
  • 优势: 这种方法既省了时间,又省了内存(显存),而且因为每次截断的位置是随机的,学生不会只学会“只写前一半”,而是能学会处理各种长度的题目。

4. 实验结果:真的有效吗?

作者用最新的 AI 模型(Qwen3-8B)在数学题上做了测试,结果非常惊人:

  • 成绩一样好: 使用“随机截断”(RPC)方法训练的 AI,做数学题的准确率,和那种“字字检查”的传统方法完全一样
  • 省了一半的力气:
    • 显存(内存): 峰值内存占用减少了约 18%。这意味着你可以用更便宜的显卡,或者在同样的显卡上训练更大的模型。
    • 时间: 训练速度提升了约 29%。以前跑完一个训练步骤要 5 分钟,现在只要 3 分半。
  • 对比“硬截断”: 如果老师只是机械地规定“永远只看前 50% 的字”(确定性截断),学生就会学偏,成绩会大幅下降。但 NAT 的“随机截断”因为加入了数学上的修正,完美避开了这个问题。

5. 总结:这对我们意味着什么?

这篇论文就像给 AI 训练界发了一张“节能通行证”。

以前,为了让 AI 变得更聪明(能处理更长的推理),我们需要更贵的显卡、更长的等待时间,因为我们要处理海量的文字数据。
现在,NAT 告诉我们:只要用对方法,我们可以只处理一半的数据,就能达到同样的效果。

  • 对普通人: 未来的 AI 可能会更便宜、反应更快,因为它们训练起来不再那么“烧钱”了。
  • 对开发者: 这是一个“即插即用”的工具,不需要改变 AI 的核心逻辑,就能让训练过程跑得更快、更稳。

简单来说,这就好比以前我们为了学会做一道菜,必须把厨师切菜、炒菜、装盘的每一个动作都看一遍;现在 NAT 告诉我们,只要随机看几个关键动作,再配合一点“脑补”技巧,就能学会同样的手艺,而且省了一半的精力!