AdaBlock-dLLM: Semantic-Aware Diffusion LLM Inference via Adaptive Block Size

本文针对扩散大语言模型(dLLM)中固定块大小半自回归解码存在的延迟开销与过早解码错误问题,提出了一种无需训练且即插即用的 AdaBlock-dLLM 方法,通过利用解码过程中的置信度波动带动态调整块大小以对齐语义步骤,在保持相同吞吐量的情况下显著提升了生成准确率。

Guanxi Lu, Hao Mark Chen, Yuto Karashima, Zhican Wang, Daichi Fujiki, Hongxiang Fan

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 AdaBlock-dLLM 的新方法,旨在让基于“扩散”的大语言模型(dLLM)变得更聪明、更快速。

为了让你轻松理解,我们可以把大语言模型生成文字的过程想象成在黑暗中拼一幅巨大的拼图

1. 背景:扩散模型是如何“拼图”的?

传统的语言模型(像现在的 ChatGPT)是像写文章一样,一个字一个字地往后写(自回归)。这就像你拼拼图,必须先把左上角拼好,才能拼右上角,速度比较慢。

而这篇论文研究的扩散模型(dLLM),更像是先蒙住所有拼图,然后一步步把蒙布揭开。它一开始把所有字都变成"[MASK]"(蒙布),然后每次尝试揭开一部分,直到所有字都清晰可见。

  • 优势:因为它可以一次性揭开很多块(并行处理),所以理论上速度极快。
  • 现状:为了加快速度,现在的做法通常是**“分块揭开”**。比如,规定每次必须揭开 16 个字或 32 个字(固定块大小),把这 16 个字当成一个小组,必须等这组全部确定后,才能去揭下一组。

2. 问题:固定的“块”太死板了

论文发现,这种**“固定块大小”**的方法有两个大毛病,就像你强行规定每次必须吃 16 口饭,不管这 16 口里有没有好吃的:

  • 毛病一:好词被“饿”着了(Late Decoding Overhead)

    • 比喻:假设你正在揭开拼图,第 1 块到第 10 块已经非常清晰了(高置信度),但因为你规定“必须凑齐 16 块才揭下一组”,第 11 块明明已经很清楚,却非要等到第 16 块凑齐了才能被确认。
    • 后果:明明可以马上确定的好词,被硬生生拖慢了,浪费了计算时间。
  • 毛病二:烂词被“硬塞”进嘴里(Premature Decoding Error)

    • 比喻:假设你规定每次必须吃 16 口。前 10 口很香,但第 11 口和第 12 口其实还没熟(低置信度,模型很犹豫)。为了凑够 16 口,你被迫把这两口没熟的也吞下去。
    • 后果:因为吞了没熟的(错误的词),导致后面所有的拼图都拼错了,整个句子逻辑崩塌。

3. 解决方案:AdaBlock-dLLM(聪明的“自适应”策略)

作者提出了一种**“自适应块大小”**的方法,叫 AdaBlock-dLLM

  • 核心思想:不要死板地规定每次揭 16 块或 32 块,而是看“语义”说话
  • 比喻:想象你在读一本书,你不再数“我要读 16 个字”,而是读到一个句号(.)或者换行符(\n)就停下来
    • 如果模型发现“苹果”后面跟着一个句号,且模型对这个句号很有把握,那就立刻把这一句作为一个完整的“块”结束,不管这一句是 5 个字还是 20 个字。
    • 如果模型还在犹豫,还没遇到句号,那就继续往下读,直到遇到一个清晰的“语义边界”。

它是怎么做到的?

  1. 观察信心:模型会实时监测自己对每个字的“信心值”。
  2. 寻找边界:它会寻找那些代表“语义结束”的词(比如句号、逗号、换行符)。
  3. 动态调整
    • 如果模型对某个句号很有信心,它就立刻把这一整句作为一个块结束(避免把没熟的词硬塞进去)。
    • 如果还没遇到句号,它就继续扩大范围,直到遇到下一个清晰的边界。

4. 效果:既快又准

通过这种“看情况办事”的策略,AdaBlock-dLLM 带来了两个好处:

  1. 更准:不再强行把没把握的词吞下去,减少了错误,特别是在做数学题或写代码时,准确率提升了最高 5.3%
  2. 更快:不再浪费时间去处理那些明明已经很清楚、却被强行推迟的词,减少了不必要的计算。

5. 总结

这就好比以前是“按固定步数走路”(不管前面是平地还是悬崖,都走 16 步),结果容易掉坑或者走冤枉路。
现在是“按路标走路”(看到路口就转弯,看到终点就停下)。

AdaBlock-dLLM 不需要重新训练模型(即插即用),就像给现有的模型装了一个**“智能导航仪”**,让它知道什么时候该停下来确认,什么时候该继续前进,从而在保持速度的同时,让生成的内容更准确、更符合逻辑。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →