ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

本文提出了 ReFusion,一种将序列重组融入因果注意力框架的新型掩码扩散模型,通过引入槽级并行解码与自回归填充相结合的策略,在实现 KV 缓存复用和降低学习复杂度的同时,显著提升了推理速度并超越了传统自回归模型的性能。

Jia-Nan Li, Jian Guan, Wei Wu, Chongxuan Li

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 REFUSION 的新型人工智能模型。为了让你轻松理解,我们可以把生成文本(比如写文章、写代码)想象成**“在黑暗中拼图”**。

1. 现有的两种“拼图”方式及其痛点

在 REFUSION 出现之前,主要有两种拼图方法:

  • 方法 A: autoregressive 模型(自回归模型,ARM)

    • 比喻:就像**“按顺序念经”**。你必须先念第一个字,才能念第二个字;念完第二个,才能念第三个。
    • 优点:念出来的句子通常很通顺,逻辑连贯。
    • 缺点太慢了。因为必须一个字一个字地念,不能并行。就像一个人搬砖,一次只能搬一块,效率低。
  • 方法 B:Masked Diffusion 模型(掩码扩散模型,MDM)

    • 比喻:就像**“蒙眼猜词”**。把整张图(或整句话)都遮住,然后模型试图一次性猜出所有被遮住的词。
    • 优点!因为它可以并行猜测,一次猜好几个词。
    • 缺点
      1. 容易“精神分裂”:因为它是同时猜所有词,经常会出现逻辑不通的情况。比如它可能同时猜出“立刻”和“马上”,结果拼成了一句怪话“立刻马上”(虽然意思对,但语法乱了),或者猜出“红色的苹果”和“绿色的香蕉”混在一起。
      2. 无法“缓存”记忆:传统的自回归模型在生成时,会把之前生成的内容记在“缓存”里,下次直接用,不用重算。但扩散模型因为要重新看整个上下文,每次都要把之前的内容重算一遍,导致算力浪费巨大,速度其实并没有想象中那么快

2. REFUSION 的绝招:把“拼图”变成“填格子”

REFUSION 发明了一种聪明的新玩法,它结合了上述两种方法的优点,核心思想可以概括为:“分块处理,先选后填,动态排序”

核心比喻:装修房子

想象你要装修一套大房子(生成一段长文本):

  1. 分块(Slots)
    传统的扩散模型试图一次性决定所有房间的装修方案,容易顾此失彼。
    REFUSION 把房子分成一个个**“房间”(Slots)**。比如客厅、卧室、厨房。

  2. 先选哪个房间(Diffusion-based Selection)
    模型先快速扫一眼,判断哪个房间最容易装修(比如“厨房”的布局很明确,容易猜)。它利用扩散模型的能力,并行地选出几个最容易确定的房间。

    • 这就解决了“慢”的问题,因为它可以一次处理多个房间。
  3. 按顺序填房间(Autoregressive Infilling)
    一旦选定了“厨房”,模型就在这个房间里,按顺序把瓷砖一块块铺好(先铺左边,再铺右边)。

    • 这就解决了“乱”的问题,因为在一个小房间里,按顺序铺砖能保证逻辑通顺。
  4. 动态排序与缓存复用(Sequence Reorganization & KV Cache)
    这是 REFUSION 最天才的地方!
    当“厨房”装修好后,它不会把“厨房”放在原来的位置不动,而是把刚装修好的“厨房”直接搬到队伍的最前面,排在还没装修的“卧室”和“客厅”前面。

    • 为什么这么做? 这样,模型在装修下一个房间时,可以直接利用“厨房”已经算好的数据(KV Cache),不用重新计算
    • 比喻:就像你搬砖,每搬完一块,就把这块砖放在手边最顺手的地方,下次直接拿,不用每次都跑回仓库去搬。这极大地提高了速度。

3. 为什么它这么强?

  • 既快又好:它像扩散模型一样可以“多线并行”(一次选几个房间),又像自回归模型一样“按部就班”(在一个房间里按顺序填),所以既没有逻辑混乱,又保留了速度优势。
  • 省内存:因为它把修好的房间都移到前面,可以重复利用之前的计算结果(KV Cache),不像以前的扩散模型那样每次都从头算起。
  • 学习更容易:以前模型要面对“所有词怎么排列组合”的无限可能(太难学了)。现在它只需要面对“哪个房间先修”的排列组合(容易多了),大大降低了学习难度。

4. 实验结果:碾压对手

论文在 7 个不同的测试(包括数学、代码生成、逻辑推理)中进行了测试:

  • 速度:比以前的扩散模型快了 18 倍 以上。
  • 质量:比最强的自回归模型(如 Qwen3-8B)在某些任务上还要好,而且速度快了 2.3 倍
  • 结论:它打破了“快”和“好”不可兼得的魔咒。

总结

REFUSION 就像是一个超级高效的装修队
它不再死板地按顺序一间一间修(太慢),也不再盲目地同时瞎猜所有房间(太乱)。
而是先挑容易的几间一起开工,每间内部按顺序精细施工,修好一间就把它移到最前面以便复用成果

这种“分而治之、动态重组”的策略,让 AI 写文章、写代码变得既快又准,是人工智能生成领域的一次重大突破。