Parallel Token Prediction for Language Models

本文提出了并行令牌预测(PTP)框架,通过将随机性从后验采样转移至随机输入变量,使语言模型能够在单次前向传播中并行预测多个令牌,从而在无需教师模型的情况下实现约 2.4 倍的推理加速。

Felix Draxler, Justus Will, Farrin Marouf Sofian, Theofanis Karaletsos, Sameer Singh, Stephan Mandt

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为**“并行词元预测”(Parallel Token Prediction, PTP)**的新技术,旨在解决大语言模型(LLM)“说话太慢”的问题。

为了让你轻松理解,我们可以把大语言模型想象成一位正在写小说的作家

1. 现在的痛点:一位“慢吞吞”的作家

目前的主流大模型(如你正在使用的这个)采用的是**“自回归”**(Autoregressive)模式。

  • 比喻:想象这位作家在写故事时,必须一个字一个字地写。他写完“今”,必须停下来思考,才能写“天”;写完“天”,才能写“气”。
  • 问题:即使他的脑子转得再快,每次只能吐出一个字。如果让他写一本小说,他必须经过成千上万次“思考 - 书写”的循环。这就像让一个人用单脚跳完马拉松,虽然稳,但太慢了。

2. 新方案:并行预测(PTP)

这篇论文提出的 PTP 技术,就像是给这位作家装上了**“预知未来的水晶球”,让他能一口气写完一整句话,甚至一整段**。

核心魔法:把“运气”变成“输入”

  • 传统做法:作家写完“今”字后,心里会想:“接下来是‘天’、‘气’还是‘空’?”然后他随机(靠运气)选一个。因为运气是随机的,他必须等选完这个,才能决定下一个。
  • PTP 做法
    1. 在作家动笔之前,我们给他一张**“命运卡片”**(论文里叫辅助变量 uu)。这张卡片上写着:“如果你看到‘今’,你就必须选‘天’;如果你看到‘天’,你就必须选‘气’"。
    2. 这张卡片其实是随机生成的,但一旦生成,它就是确定的
    3. 作家拿到这张卡片后,就不需要再“猜”了。他可以直接看着卡片,同时写出“今天天气不错”这六个字。
    4. 关键点:因为卡片已经包含了所有“运气”的信息,作家不需要等待上一个字写完,就能直接预测后面的字。

简单总结:以前是“写完一个,猜下一个”;现在是“拿到剧本(随机种子),一口气把整段戏演完”。

3. 如何训练这位“新作家”?

既然要让他能一口气写完,怎么教他呢?论文提出了两种方法:

  • 方法一:模仿大师(蒸馏)

    • 找一位写得很好的“老作家”(现有的大模型)。
    • 让老作家写一段话,同时记录下他当时心里用的“命运卡片”(也就是他当时是怎么随机选词的)。
    • 把“老作家写的字”和“对应的命运卡片”一起喂给“新作家”。
    • 新作家学习:“哦,原来当卡片是 A 时,老作家会写‘天’;当卡片是 B 时,他会写‘地’。”
    • 这样,新作家就能学会在拿到卡片后,直接输出整段话。
  • 方法二:自我修炼(无师自通)

    • 如果没有老作家,新作家也可以自己练。他先随机抽一张卡片,然后尝试根据卡片写出字。如果写错了,就调整自己的“笔法”,直到他能完美匹配卡片和文字。

4. 如果写错了怎么办?(纠错机制)

你可能会问:“如果新作家一口气写了 10 个字,结果第 3 个字就写错了怎么办?”

  • 比喻:就像你让一个实习生一口气把报告写完,他可能前面写得很顺,后面开始胡编乱造。
  • 解决方案:论文提出了一种**“部分二次解码”**(Partial Quadratic Decoding)的策略。
    • 实习生(新模型)一口气写出几个候选版本。
    • 主编(老模型/验证器)快速检查。
    • 如果实习生写对了前 5 个字,主编就接受这 5 个字,并直接跳过这 5 个字的思考过程,直接让实习生接着写第 6 个字。
    • 通过这种“边写边检查,写对的就保留”的方式,既利用了并行速度,又保证了最终结果的准确性。

5. 实际效果有多好?

  • 速度提升:在测试中,这项技术让生成速度提升了 2.4 倍
  • 比喻:以前老作家写一句话要 10 秒钟,现在用了 PTP,他只需要 4 秒钟就能写出同样质量的一句话。
  • 质量:生成的文字和原来的老作家一模一样,没有因为求快而变得胡言乱语。

总结

这篇论文的核心思想就是:打破“必须一个字一个字写”的规矩。

它通过引入一个“随机种子”作为输入,让模型能够一次性预测多个相互关联的词。这就像是从“单脚跳”变成了“短跑冲刺”,在不牺牲质量的前提下,极大地提高了大语言模型的响应速度,让未来的 AI 聊天、写代码、做任务变得更加流畅和实时。