原作者： Chien Van Nguyen, Chaitra Hegde, Van Cuong Pham, Ryan A. Rossi, Franck Dernoncourt, Thien Huu Nguyen

发布于 2026-05-14✓ Author reviewed ⓘ

📖 1 分钟阅读☕ 轻松阅读

查看于 arXiv ↗PDF ↗

CC BY 4.0

原作者： Chien Van Nguyen, Chaitra Hegde, Van Cuong Pham, Ryan A. Rossi, Franck Dernoncourt, Thien Huu Nguyen

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性，请参阅原始论文。阅读完整免责声明

想象一下，你正在尝试撰写一个长篇且复杂的故事。你有两种方法，但两者都存在一个重大缺陷：

“逐字写作”的作家（自回归模型）： 这位作家极其聪明且精准。他们在写下每一个字之前都会仔细思考，确保故事逻辑完美。然而，他们速度很慢。他们必须写完一个字，查阅笔记，思考下一个字，然后写下它。他们无法加快速度，因为害怕犯错。
“批量写作”的作家（扩散模型）： 这位作家试图一次性写完整个段落。他们非常快！但由于他们同时猜测多个单词而没有仔细检查每一个，他们经常犯逻辑错误、偏离情节，或者写出毫无意义的文字。

Orthrus 是一个新框架，它结合了两者的优点。它创建了一个“双声”系统，让你能够一次性写完整个段落，同时不失去谨慎作家那样的精准度。

以下是其工作原理，使用一个简单的类比：

“建筑师与建筑工”类比

将 AI 模型想象成一个建筑工地，那里有两名工人：建筑师和建筑工。

建筑师（冻结的大语言模型）： 这是原始、经过高度训练且超级聪明的模型。他们是专家，确切知道建筑物应该是什么样子。他们是“冻结”的，意味着在此过程中他们不会改变主意或学习新事物；他们只提供完美的蓝图。
建筑工（扩散模块）： 这是团队中新加入的一名轻量级工人。他们的工作是快速铺设砖块（token）。

他们如何协同工作：

设定场景（预填充）： 首先，建筑师阅读整个提示（指令），并构建一个完美、高保真的“记忆地图”（称为KV 缓存）。这张地图包含了构建故事其余部分所需的所有上下文。
并行冲刺（生成）： 不是由建筑师一块砖一块砖地铺设，建筑工查看建筑师的地图，并尝试一次性铺设一整排砖块（例如 32 块）。
安全检查（共识）： 这是神奇之处。在建筑工的工作被接受之前，建筑师会立即检查建筑工的这一批成果。
- 如果建筑工根据建筑师的完美逻辑猜对了下一个词，建筑师会说：“太棒了！保留它！”
- 如果建筑工猜错了，建筑师会说：“不行，那不对”，并立即修正那个特定的词。
- 该过程对下一批重复进行。

为什么这很重要？

无内存浪费： 通常，如果有两个模型在工作，你需要两套内存笔记。Orthrus 很聪明，因为建筑工和建筑师共享完全相同的记忆地图。建筑工不需要制作自己的笔记；他们只需查看建筑师的。这节省了巨大的计算机内存。
无质量损失： 因为建筑师（原始智能模型）对每个词拥有最终决定权，所以故事的质量与建筑师逐字撰写时一样好。不存在“漂移”或质量下降。
巨大速度提升： 通过让建筑工一次性铺设 32 块砖，并仅进行即时检查，Orthrus 比缓慢的逐字方法快高达 7.8 倍。

结果

该论文在解决数学问题（MATH-500）、编写代码和回答逻辑谜题等困难任务上测试了这种方法。

速度： 它比标准模型快得多。
准确性： 它与原始缓慢模型的准确性一样高。
效率： 它仅需训练模型参数的一小部分（约 16%），使其成本低廉且易于添加到现有 AI 系统中。

简而言之，Orthrus 就像雇佣了一位速读者，能瞬间猜出故事的接下来 30 个词，但旁边站着一位严格的编辑，会立即纠正任何错误。其结果是，故事以闪电般的速度写成，同时保持完全准确。

技术摘要：Orthrus——通过双视图扩散实现内存高效的并行令牌生成

1. 问题陈述

自回归（AR）大语言模型（LLM）目前因其高保真生成能力和强大的推理能力而主导自然语言处理领域。然而，它们在解码阶段存在根本性的低效问题：令牌生成是严格串行的。虽然预填充阶段可以并行处理提示，但生成阶段需要 $N$ 次独立的前向传播才能生成 $N$ 个令牌。这种串行依赖导致了内存带宽瓶颈，造成硬件利用率低下和高推理延迟。

相反，扩散语言模型（DLM）通过同时去噪令牌块，提供了原生的并行生成能力。然而，现有的 DLM 面临重大障碍：

性能下降：由于“条件漂移”（即条件独立性假设违反了严格的因果依赖关系），它们通常在复杂推理任务中表现不如同等规模的 AR 模型。
训练成本：实现基线连贯性通常需要海量训练数据集（例如数千亿个令牌）或持续预训练。
架构差异：将预训练的 AR 模型适配到扩散框架中往往会改变基础权重，破坏原始模型的精确预测分布，并无法匹配其推理能力。

核心挑战在于，如何在不过度牺牲任何一方的前提下，统一 AR 模型的高保真因果条件与扩散模型的并行解码速度。

2. 方法论：Orthrus 架构

Orthrus 提出了一种双架构框架，在单个 Transformer 中统一了这些范式。Orthrus 并非替换 AR 骨干网络，而是将一个轻量级、可训练的扩散模块增强到一个冻结的预训练 AR 模型之上。

2.1 统一的双视图注意力

该架构引入了两条在共享键值（KV）缓存上运行的不同注意力路径：

冻结的 AR 头（蓝色路径）：此路径保持严格冻结。其唯一功能是在预填充阶段处理上下文，以构建高保真、因果性的 KV 表示（ $K_{AR}, V_{AR}$ ）。它充当精确预测分布的“教师”。
可训练的扩散头（红色路径）：一个轻量级模块（从 AR 对应部分初始化）被注入到 AR 注意力头旁边。它专为高速并行生成而设计。

2.2 训练：双遍块掩码

训练的重点在于使扩散视图的并行预测与冻结 AR 模型的精确目标分布保持一致。

数据构建：对于序列，随机选择长度为 $K$ 的块。块的第一个令牌被保留为可见的“锚点”，随后的 $K-1$ 个令牌被替换为 <mask> 令牌。
注意力机制：扩散头使用专门的块掩码（ $M_{diff}$ $M_{d i f f}$ ）处理这些被破坏的块。该掩码强制执行两条规则：
1. 因果上下文：块中的位置以因果方式关注块锚点之前的干净 AR 上下文。
2. 双向块：同一掩码块内的位置彼此双向关注，从而实现并行上下文聚合。
目标：扩散头最小化与冻结 AR 头完整预测分布的前向 KL 散度。梯度仅通过扩散模块流动，AR 骨干网络保持不变。

2.3 推理：通过模型内共识实现精确分布匹配

Orthrus 通过共识机制实现并行生成，且无分布漂移：

并行投影：扩散头接收当前锚点令牌和 $K-1$ 个掩码，在单次前向传播中处理它们，同时投影出 $K$ 个候选令牌。
结构验证：投影出的块立即被路由至冻结的 AR 头。由于 AR 头看到了完全填充的块，它可以在单次传播中计算所有 $K$ 个位置的精确目标概率。
共识与提交：架构执行严格的从左到右评估。仅当投影令牌与冻结 AR 头的贪婪预测匹配时，该令牌才会被接受。如果在索引 $j$ 处出现分歧，系统将提交同步的前缀直到 $j-1$ ，追加精确的 AR 修正令牌，并截断缓存。这保证了无损推理，确保输出严格匹配基础模型的预测分布。

3. 主要贡献

新颖的双架构框架：Orthrus 将并行扩散模块嵌入到标准 AR Transformer 中，允许两种视图在共享 KV 缓存上运行，零冗余历史 KV 缓存存储。
无损推理保证：通过采用模型内共识机制，Orthrus 保留了基础 LLM 的精确预测分布，确保了严格无损的生成，其表现优于以往的扩散适配方法。
显著的推理加速：通过原生利用扩散头进行并行令牌生成，Orthrus 打破了串行瓶颈，实现了高达 7.8 倍的加速。
极致的参数和内存效率：集成过程轻量级。并行能力仅通过微调约 16% 的总模型参数注入，使用少于 10 亿个令牌（在单个 8xH200 节点上运行不到 24 小时）。

4. 实验结果

作者在 Qwen3 模型系列（17 亿、40 亿和 80 亿参数）上评估了 Orthrus，涵盖了数学推理（GSM8K、MATH-500、AIME）和代码生成（HumanEval、MBPP）基准测试。

效率：Orthrus 在 80 亿参数模型上实现了平均 每次前向传播令牌数（TPF） 为 5.39，根据任务和温度设置的不同，加速比范围从 3.07 倍到 7.83 倍不等。
准确性：与导致性能下降的适配方法不同，Orthrus 达到了基础 Qwen3-8B 模型的精确零样本准确性。例如，在 MATH-500 上，Orthrus 达到了 86.2% 的准确率，而 Fast-dLLM-v2 等最先进的扩散适配方法则下降了 11.1 个百分点（75.1% 对比 86.2% 的基线）。
与推测性解码的比较：与外部推测性解码方法（EAGLE-3、DFlash）相比，Orthrus 实现了显著更高的平均接受长度（MATH-500 上为 11.7，而 DFlash 为 7.9，EAGLE-3 为 3.5），因为它不需要为草稿模型维护单独的冗余 KV 缓存。

5. 意义与主张

本文声称，Orthrus 从根本上调和了自回归生成保真度与基于扩散的并行性之间的权衡。

结构统一：通过将并行生成与串行约束解耦，并将其建立在冻结的高保真 AR 表示之上，Orthrus 消除了困扰其他扩散方法的“分布漂移”。
可扩展性与即插即用：该框架被呈现为一种高度可扩展的解决方案，可以无缝适配任何高质量现有的开源 AR 模型，从而在不牺牲精英推理能力的情况下解锁并行吞吐量。
生产可行性：凭借 $O(1)$ 的内存缓存开销和最小的参数增加，Orthrus 提供了一条实用且内存高效的高吞吐量 LLM 部署路径，避免了从头重新训练大规模扩散模型的计算成本。

作者总结道，Orthrus 提供了严格无损的推理加速，为并行生成保真度树立了新的最先进水平。

Orthrus: Memory-Efficient Parallel Token Generation via Dual-View Diffusion