Beyond Scattered Acceptance: Fast and Coherent Inference for DLMs via Longest Stable Prefixes

本文提出了无需训练且与模型无关的“最长稳定前缀”(LSP)调度器,通过以原子方式吸收连续的稳定前缀来替代传统的碎片化接受机制,从而在保持生成质量的同时将扩散语言模型的推理速度提升高达 3.4 倍。

Pengxiang Li, Joey Tsai, Hongwei Xue, Kunyu Shi, Shilin Yan

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要解决了一个关于AI 写文章速度的有趣问题。

想象一下,Diffusion Language Models(扩散语言模型,简称 DLM)就像是一个拥有“上帝视角”的超级作家。和传统的 AI(像是一个只能一个词一个词往后写的“线性作家”)不同,这个超级作家可以一次性看到整篇文章的草稿,然后同时修改所有的词。理论上,这应该快得像闪电一样。

但是,现实很骨感。 为什么这个“超级作家”在实际操作中还是慢吞吞的呢?

🚧 核心问题:碎片化的“修修补补”

以前的方法(论文里叫“分散接受”)是这样的:
作家写了一大段草稿,然后开始检查。他发现第 3 个词很稳,就把它“定稿”;第 5 个词也很稳,也“定稿”;但第 4 个词还在犹豫,第 6 个词也不确定。
于是,定稿的词像散落在沙滩上的贝壳,中间夹杂着很多还没定稿的“空白区”。

这就带来了两个大麻烦:

  1. 修修补补太累: 因为定稿的词是断断续续的,AI 每次修改中间那个不确定的词时,都要回头去重新审视两边已经定稿的词,生怕改错了。这就像你在拼拼图,但拼好的碎片是散开的,每拼一块都要把周围几块都重新拿起来看一遍,效率极低。
  2. 内存“堵车”: 在电脑内存里,这些定稿的词被切成了很多小碎片。电脑读取内存时,最喜欢连续的一大块数据(像读一整本书),最讨厌这种东一块西一块的数据(像读散落的纸片)。这种“碎片化”让电脑硬件跑不起来。

✨ 解决方案:LSP(最长稳定前缀)

这篇论文提出了一个叫 LSP(最长稳定前缀) 的新方法。它的核心理念可以比喻为:“与其捡散落的贝壳,不如直接盖好一整面墙。”

LSP 的工作方式是这样的:

  1. 一次看全: AI 还是像以前一样,一次性看整段草稿。
  2. 寻找“最稳的一段”: 它不挑散落的词,而是从最左边开始,寻找连续的一串它非常有把握的词。
  3. 智能“断句”: 如果这一串词正好在“句号”或“逗号”后面结束,那就太好了,直接定稿!如果正好断在“半句话”中间,AI 会稍微往后多读几个字,直到找到一个自然的断句点(比如标点符号),然后再定稿。
  4. 整块推进: 这样,每次定稿都是一整块连续的内容(比如“今天天气很好。”),而不是散落的“今天”、“很”、“好”。

🌟 为什么这招这么管用?(三个比喻)

  1. 像“推土机”而不是“蚂蚁搬家”:

    • 旧方法像蚂蚁搬家,搬一块石头(定一个词),再搬一块,中间全是空隙,路很难走。
    • LSP像推土机,推平一大片土地(定一大段话),然后继续推下一片。路是连续的,走得飞快。
  2. 给电脑内存“铺平大道”:

    • 因为 LSP 定稿的内容是连续的,电脑内存里就可以把这部分数据整齐地存成一排。电脑读取时就像在高速公路上开车,风驰电掣。
    • 旧方法的数据是碎片的,电脑读取时就像在满是坑洼的乡间小路上跳来跳去,速度自然慢。
  3. 减少“返工”:

    • 因为 LSP 总是从最左边开始,并且会停在自然的断句点(比如句号),它定下来的内容通常逻辑很通顺。
    • 这就意味着,后面还没写的部分,不需要频繁地回头去修改前面已经写好的部分。就像盖房子,地基打好了(前缀定稿了),上面盖楼就稳了,不用老是拆了重盖。

📊 效果如何?

论文在数学题、写代码、多语言写作等任务上做了测试。

  • 速度提升: 最快提升了 3.4 倍!这意味着原来要 10 秒生成的文章,现在 3 秒就能搞定。
  • 质量没降: 生成的文章质量不仅没变差,有时候因为逻辑更连贯,反而更好了。

总结

简单来说,这篇论文告诉我们要想发挥扩散模型(DLM)的“超能力”,不能只盯着单个词看,而要像盖房子一样,先稳稳地盖好一整面墙(连续的前缀),再盖下一面墙

这种方法不需要重新训练模型,也不需要复杂的数学公式,只是换了一种更聪明的“定稿”策略,就让 AI 写东西的速度和效率发生了质的飞跃。