Skip to the Good Part: Representation Structure & Inference-Time Layer Skipping in Diffusion vs. Autoregressive LLMs

该论文首次对比分析了扩散语言模型与自回归模型在表征结构上的差异,发现扩散目标导致更深层的层次化抽象和早期层冗余,并据此提出了一种无需架构修改的推理时层跳过方法,使扩散模型在保持高性能的同时显著降低了计算成本。

Raghavv Goel, Risheek Garrepalli, Sudhanshu Agrawal, Chris Lott, Mingu Lee, Fatih Porikli

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给大语言模型(LLM)做了一次深度的"CT 扫描”,发现了一个非常有趣的现象:不同的训练方式,会让模型的大脑结构变得完全不同,甚至直接决定了它能不能“偷懒”工作。

为了让你轻松理解,我们把大模型想象成一个正在写长篇小说的作家,把“推理过程”(生成文字)想象成写书的过程

1. 两种不同的写作流派

论文对比了两种主要的写作(训练)流派:

  • 自回归模型 (AR 模型,如 Qwen2.5):像“单行线”的作家

    • 工作方式:这种作家必须一个字一个字地写。写完“今天”,才能写“天气”,写完“天气”才能写“很好”。他不能回头修改前面的字,只能基于前面写好的内容,预测下一个字是什么。
    • 大脑结构:因为必须步步为营,他的每一层大脑(神经网络层)都紧密相连,像一条锁链。每一层都在做非常精细的“接力赛”,前一层没做完,后一层没法开始。
    • 特点:这种结构非常紧密,没有太多废话。如果你强行让他跳过某一步(跳过某层),整个故事逻辑就会崩塌,就像接力赛少了一棒,后面的人直接摔倒了。
  • 扩散模型 (dLLM,如 LLaDA):像“先画草图再精修”的画家

    • 工作方式:这种模型一开始看到的是一团乱麻(全是噪点),它的工作是反复修改。它先看到整篇文章的轮廓(粗稿),然后一遍遍去噪、细化,直到变成清晰的文字。它可以看到整篇文章的全局,而不是只盯着下一个字。
    • 大脑结构:这种模型的大脑结构是分层级的。
      • 早期层:像是在画草图,主要定大方向。有趣的是,早期的几层画出来的草图其实都差不多(高度冗余),就像你画了 5 张草图,其实都在表达同一个“大概轮廓”。
      • 晚期层:像是在精修细节,把草图变成精美的画作。
    • 特点:因为早期层都在做重复的“定大方向”工作,所以早期的几层其实是可以被“跳过”的,只要保留后面的精修层,画出来的画依然很完美。

2. 核心发现:出身决定命运(初始化偏见)

论文还发现了一个非常有趣的“遗传”现象:

  • Dream-7B 模型:这是一个原本用“单行线”方式训练(AR)的模型,后来被强行改造成“先画草图”方式(扩散)训练。
  • 结果:尽管它接受了新的训练,但它的大脑结构依然保留了“单行线”作家的习惯。它依然像 AR 模型一样,每一层都紧密咬合,没有产生那种“早期冗余”的结构。
  • 比喻:这就像让一个习惯用右手写字的人,强行教他用左手写字。虽然练了很久,但他骨子里的肌肉记忆(大脑结构)还是右手那一套,改不掉。这说明初始的训练方式对模型的影响是根深蒂固的

3. 解决方案:聪明的“偷懒”技巧(层跳过)

基于上述发现,作者们发明了一个推理时的“偷懒”技巧

  • 对于“画家”(原生扩散模型 LLaDA)
    • 既然早期的几层都在画相似的草图,那我们在推理时,直接跳过前 6 层,直接从第 7 层开始精修。
    • 效果:计算量(FLOPs)减少了近 19%,但写出来的文章质量依然保持在 90% 以上。这就像画家直接跳过前 5 张废草图,直接画第 6 张,结果画得一样好,还省了时间。
  • 对于“作家”(AR 模型)
    • 如果你让他跳过任何一层,故事就讲不通了,质量会断崖式下跌。
    • 结论:AR 模型不能这么“偷懒”,因为它们没有多余的冗余。

4. 为什么这很重要?(现实意义)

  • 省钱省电:大模型运行非常耗电。如果能跳过近 20% 的计算步骤而不影响质量,意味着我们可以用更便宜的显卡、更少的电力来运行强大的 AI。
  • 不需要改硬件:这个方法不需要修改模型结构,也不需要特殊的缓存技术,就像给现有的电脑装了一个“智能跳过”插件,直接就能用。
  • 未来的启示:如果你想让 AI 变得更快、更灵活,从一开始就用“扩散”的方式训练它,而不是把“单行线”的模型强行转行。因为“出身”决定了它能不能学会“偷懒”。

总结

这篇论文告诉我们:

  1. 扩散模型(dLLM) 的大脑结构天生带有“冗余”,像是一层层重复的草图,这让我们可以安全地跳过早期步骤,大幅提速。
  2. 自回归模型(AR) 的大脑结构像精密的齿轮,环环相扣,不能跳过,否则就会坏掉。
  3. 如果你把一个 AR 模型强行改成扩散模型,它改不掉原来的“齿轮”习惯,依然无法享受“偷懒”带来的速度红利。

简单来说,选对“出生方式”,AI 才能学会如何高效地“摸鱼”(跳过冗余计算)!