Skip to the Good Part: Representation Structure & Inference-Time Layer Skipping in Diffusion vs. Autoregressive LLMs

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给大语言模型（LLM）做了一次深度的"CT 扫描”，发现了一个非常有趣的现象：不同的训练方式，会让模型的大脑结构变得完全不同，甚至直接决定了它能不能“偷懒”工作。

为了让你轻松理解，我们把大模型想象成一个正在写长篇小说的作家，把“推理过程”（生成文字）想象成写书的过程。

1. 两种不同的写作流派

论文对比了两种主要的写作（训练）流派：

自回归模型 (AR 模型，如 Qwen2.5)：像“单行线”的作家
- 工作方式：这种作家必须一个字一个字地写。写完“今天”，才能写“天气”，写完“天气”才能写“很好”。他不能回头修改前面的字，只能基于前面写好的内容，预测下一个字是什么。
- 大脑结构：因为必须步步为营，他的每一层大脑（神经网络层）都紧密相连，像一条锁链。每一层都在做非常精细的“接力赛”，前一层没做完，后一层没法开始。
- 特点：这种结构非常紧密，没有太多废话。如果你强行让他跳过某一步（跳过某层），整个故事逻辑就会崩塌，就像接力赛少了一棒，后面的人直接摔倒了。
扩散模型 (dLLM，如 LLaDA)：像“先画草图再精修”的画家
- 工作方式：这种模型一开始看到的是一团乱麻（全是噪点），它的工作是反复修改。它先看到整篇文章的轮廓（粗稿），然后一遍遍去噪、细化，直到变成清晰的文字。它可以看到整篇文章的全局，而不是只盯着下一个字。
- 大脑结构：这种模型的大脑结构是分层级的。
  - 早期层：像是在画草图，主要定大方向。有趣的是，早期的几层画出来的草图其实都差不多（高度冗余），就像你画了 5 张草图，其实都在表达同一个“大概轮廓”。
  - 晚期层：像是在精修细节，把草图变成精美的画作。
- 特点：因为早期层都在做重复的“定大方向”工作，所以早期的几层其实是可以被“跳过”的，只要保留后面的精修层，画出来的画依然很完美。

2. 核心发现：出身决定命运（初始化偏见）

论文还发现了一个非常有趣的“遗传”现象：

Dream-7B 模型：这是一个原本用“单行线”方式训练（AR）的模型，后来被强行改造成“先画草图”方式（扩散）训练。
结果：尽管它接受了新的训练，但它的大脑结构依然保留了“单行线”作家的习惯。它依然像 AR 模型一样，每一层都紧密咬合，没有产生那种“早期冗余”的结构。
比喻：这就像让一个习惯用右手写字的人，强行教他用左手写字。虽然练了很久，但他骨子里的肌肉记忆（大脑结构）还是右手那一套，改不掉。这说明初始的训练方式对模型的影响是根深蒂固的。

3. 解决方案：聪明的“偷懒”技巧（层跳过）

基于上述发现，作者们发明了一个推理时的“偷懒”技巧：

对于“画家”（原生扩散模型 LLaDA）：
- 既然早期的几层都在画相似的草图，那我们在推理时，直接跳过前 6 层，直接从第 7 层开始精修。
- 效果：计算量（FLOPs）减少了近 19%，但写出来的文章质量依然保持在 90% 以上。这就像画家直接跳过前 5 张废草图，直接画第 6 张，结果画得一样好，还省了时间。
对于“作家”（AR 模型）：
- 如果你让他跳过任何一层，故事就讲不通了，质量会断崖式下跌。
- 结论：AR 模型不能这么“偷懒”，因为它们没有多余的冗余。

4. 为什么这很重要？（现实意义）

省钱省电：大模型运行非常耗电。如果能跳过近 20% 的计算步骤而不影响质量，意味着我们可以用更便宜的显卡、更少的电力来运行强大的 AI。
不需要改硬件：这个方法不需要修改模型结构，也不需要特殊的缓存技术，就像给现有的电脑装了一个“智能跳过”插件，直接就能用。
未来的启示：如果你想让 AI 变得更快、更灵活，从一开始就用“扩散”的方式训练它，而不是把“单行线”的模型强行转行。因为“出身”决定了它能不能学会“偷懒”。

总结

这篇论文告诉我们：

扩散模型（dLLM） 的大脑结构天生带有“冗余”，像是一层层重复的草图，这让我们可以安全地跳过早期步骤，大幅提速。
自回归模型（AR） 的大脑结构像精密的齿轮，环环相扣，不能跳过，否则就会坏掉。
如果你把一个 AR 模型强行改成扩散模型，它改不掉原来的“齿轮”习惯，依然无法享受“偷懒”带来的速度红利。

简单来说，选对“出生方式”，AI 才能学会如何高效地“摸鱼”（跳过冗余计算）！

Each language version is independently generated for its own context, not a direct translation.

论文技术总结：扩散语言模型中的表示结构与推理时层跳过

1. 研究背景与问题 (Problem)

背景：自回归（AR）语言模型通过从左到右的增量预测构建表示，而扩散语言模型（dLLMs）则通过全序列去噪进行训练。尽管近期 dLLMs 在性能上已能与 AR 模型媲美，但**扩散目标是否从根本上重塑了模型内部的表示结构（尤其是跨深度的抽象方式）**尚不明确。
核心问题：
1. 扩散训练是否导致了与 AR 训练不同的内部表示冗余模式？
2. 这种表示结构的差异能否被利用，以实现无需架构修改或 KV 缓存共享的推理加速？
3. 基于 AR 模型初始化并微调为扩散模型的混合架构（如 Dream-7B），其内部表示是更接近原生扩散模型还是保留 AR 特性？

2. 方法论 (Methodology)

作者提出了一套系统的分析框架，并设计了一种新的推理加速策略：

对比模型家族：
1. 原生扩散模型 (Native dLLM)：LLaDA (8B)。
2. 原生自回归模型 (Native AR)：Qwen2.5 (7B)。
3. AR 初始化的扩散模型 (AR-initialized dLLM)：Dream-7B (基于 Qwen2.5 初始化并微调)。
表示分析 (Representational Analysis)：
- 层间相似度 (Layer-wise Similarity)：计算序列中所有 token 在相邻层 ( $h_\ell$ 与 $h_{\ell+1}$ ) 之间的余弦相似度。
- Token 间动态 (Token-wise Dynamics)：分析不同去噪步骤/生成步骤下的表示变化，特别关注“近期偏差”（Recency Bias，即新 token 是否引起表示的剧烈变化）。
- 幅度演化：检查隐藏状态的 $\ell_2$ 范数，以排除余弦相似度因幅度坍缩而产生的伪影。
推理时层跳过策略 (Inference-Time Layer Skipping)：
- 静态、任务无关：基于训练时的相似度分析预先确定可跳过的层，无需推理时动态路由或微调。
- 机制：识别连续高相似度（>0.95）的层，在推理时直接跳过这些 Transformer 块，将上一层的隐藏状态直接传递给下一层。
- 约束：避免跳过相邻层以维持表示的连续性（防止性能崩塌）。
- 正交性：该方法不依赖 KV 缓存共享，可与现有的缓存优化技术结合。

3. 关键发现与贡献 (Key Contributions & Findings)

A. 表示结构的根本差异

原生扩散模型 (LLaDA)：表现出分层抽象 (Hierarchical Abstraction)。
- 早期层冗余：前 40-60% 的层具有极高的层间相似度（>0.95），建立了粗略的全局表示。
- 低近期偏差：表示在整个序列中平滑过渡，不随新 token 的加入而剧烈波动。
- 粗到细 (Coarse-to-fine)：早期层处理全局上下文，后期层进行精细修正。
自回归模型 (Qwen2.5)：表现出紧密耦合 (Tightly Coupled)。
- 深度依赖：每一层都进行增量式的 token-by-token 细化，层间相似度较低。
- 强近期偏差：每个新 token 都会导致所有层的表示发生显著变化。
AR 初始化的扩散模型 (Dream-7B)：
- 初始化偏差 (Initialization Bias)：尽管经过扩散训练，Dream-7B 的表示结构（包括层间相似度和近期偏差模式）仍高度接近其 AR 初始化模型 (Qwen2.5)，而非原生扩散模型。这表明预训练的 AR 表示结构具有极强的正则化作用，难以被扩散目标完全覆盖。

B. 推理时层跳过效果

原生扩散模型 (LLaDA)：对层跳过具有极高的鲁棒性。
- 跳过 6 层（减少 18.75% FLOPs）后，在 GSM8K、MATH-500、HumanEval 等任务上仍保留了 88% - 102% 的性能。
- 即使跳过 8 层（25% FLOPs 减少），性能依然保持在 60% 以上。
自回归与混合模型：表现出脆弱性 (Brittleness)。
- Qwen2.5 仅跳过 2 层（7.14% FLOPs 减少），性能即大幅下降（保留率降至 35%-75%）。
- Dream-7B 虽然经过扩散微调，但在层跳过测试中表现与 Qwen2.5 类似，证明其内部缺乏原生扩散模型那种可利用的冗余。

4. 实验结果 (Results)

效率与性能权衡：
- LLaDA：实现了 18.75% 的 FLOPs 减少，同时性能损失极小（<10%）。
- Qwen2.5：在同等跳过比例下性能崩溃。
- Dream-7B：表现介于两者之间但更接近 AR 模型，仅能容忍少量层跳过（2-4 层）。
层分布：被跳过的层主要集中在网络的前 40-60%（早期层），这与“早期层建立冗余粗略表示”的假设一致。
连续跳过敏感性：允许跳过连续层会导致性能急剧下降（如 LLaDA 在 GSM8K 上从 91.8% 降至 75.3%），因此算法强制要求跳过非相邻层。

5. 意义与影响 (Significance)

理论贡献：
- 首次系统性地揭示了训练目标（扩散 vs. AR）如何塑造 LLM 的内部几何结构。
- 证明了初始化偏差在模型适应新目标时的持久性：即使经过扩散微调，AR 初始化的模型仍保留 AR 的表示特征。
- 阐明了扩散模型之所以能进行高效推理，是因为其训练目标诱导了全局表示冗余和分层抽象，而非仅仅是并行解码的优势。
实践价值：
- 提出了一种无需架构修改、无需 KV 缓存共享的静态层跳过方法，为 dLLMs 提供了显著的推理加速（FLOPs 减少）。
- 为模型开发者提供了选择：若追求极致的推理效率，原生扩散模型是更好的选择；若使用 AR 初始化微调扩散模型，需意识到其内部冗余较少，难以通过简单的层剪枝获得加速。
未来方向：动态跳过策略、与 KV 缓存技术的结合、以及多模态扩散架构的探索。

总结

该论文通过深入的表示分析发现，原生扩散语言模型（如 LLaDA）具有独特的“早期层冗余、后期层精炼”的分层表示结构，这使得它们能够通过跳过早期层来大幅降低计算成本而不牺牲性能。相反，自回归模型及其衍生的混合模型由于缺乏这种冗余且对增量更新高度敏感，无法通过简单的层跳过实现加速。这一发现不仅揭示了训练目标对模型内部结构的深刻影响，也为扩散模型的实用化部署提供了高效的优化路径。

Skip to the Good Part: Representation Structure & Inference-Time Layer Skipping in Diffusion vs. Autoregressive LLMs

1. 两种不同的写作流派

2. 核心发现：出身决定命运（初始化偏见）

3. 解决方案：聪明的“偷懒”技巧（层跳过）

4. 为什么这很重要？（现实意义）

总结

论文技术总结：扩散语言模型中的表示结构与推理时层跳过

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

3. 关键发现与贡献 (Key Contributions & Findings)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

总结

类似论文

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models