CoDAR: Continuous Diffusion Language Models are More Powerful Than You Think

该论文指出连续扩散语言模型性能受限的主要瓶颈在于将去噪嵌入投影为离散 token 的“分词”过程,并提出了 CoDAR 框架,通过结合连续扩散与上下文自回归解码器来优化这一过程,从而显著提升了生成质量并使其竞争力媲美强基线离散扩散模型。

Junzhe Shen, Jieru Zhao, Ziwei He, Zhouhan Lin

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 CODAR 的新方法,旨在解决当前人工智能在生成文本时遇到的一个核心难题:如何让“连续”的数学模型更好地生成“离散”的文字

为了让你轻松理解,我们可以把生成文本的过程想象成**“从一团模糊的泥巴里捏出完美的陶器”**。

1. 背景:为什么现在的“泥巴”不好捏?

在人工智能领域,生成图片(如 Midjourney)通常很成功,因为它们处理的是连续的像素(颜色是渐变的)。但生成文字(如写小说)很困难,因为文字是离散的(非 A 即 B,没有中间状态)。

  • 传统方法(离散扩散): 像是在玩“猜词游戏”。模型直接猜下一个字是“猫”还是“狗”。这很直接,但有时候不够灵活,像是一个个硬邦邦的积木。
  • 连续扩散方法(本文之前的尝试): 像是在玩“橡皮泥”。模型先生成一团连续的、模糊的“语义泥巴”(向量),然后试图把这团泥巴强行“拍扁”成具体的字。

问题出在哪?
论文发现,之前的连续方法之所以效果不好,是因为最后一步**“拍扁”**(把模糊的泥巴变成具体的字)太粗糙了。

  • 旧做法: 就像是一个**“单兵作战的翻译官”**。它看着泥巴的某一块,就独立地猜:“这块泥巴像‘猫’字,那就写‘猫’。”它不管上下文,也不管前后文是否通顺。结果就是:虽然单个字可能猜对了,但连起来读起来前言不搭后语,或者充满了重复的废话。

2. CODAR 的解决方案:两个阶段的“大师级”合作

CODAR 提出了一种**“两步走”**的策略,把“捏泥巴”和“刻字”分开,让各自最擅长的人来做。

第一阶段:连续扩散(捏泥巴)

  • 角色: 一位**“抽象艺术家”**。
  • 任务: 他不管具体的字是什么,只负责在“语义空间”里把一团混乱的噪声,慢慢塑造成一个连贯的、有逻辑的“思想流”(连续的向量序列)。
  • 比喻: 就像画家先在画布上铺好底色,勾勒出山川河流的大致轮廓和光影,这时候还没有具体的细节,但整体意境是对的。

第二阶段:上下文自回归解码(刻字)

  • 角色: 一位**“精通语法的雕刻大师”**(这就是论文的核心创新)。
  • 任务: 这位大师看着艺术家画好的“思想流”,结合上下文(前面写了什么,后面要写什么),把模糊的轮廓精准地“雕刻”成具体的文字。
  • 比喻: 就像雕刻家看着大致的石料,不仅看这一块像什么,还看整块石头的纹理,决定这里刻“猫”,那里刻“狗”,确保整篇文章读起来通顺、有逻辑。

关键点: 这个“雕刻大师”是一个Transformer 解码器(也就是现在大模型常用的那种架构),它非常擅长理解上下文。它不再孤立地看每个点,而是**“顾全大局”**地做决定。

3. 为什么这很厉害?(核心发现)

论文通过实验发现了一个惊人的事实:

  1. 之前的瓶颈是“拍扁”的方式不对: 以前大家试图用一个简单的线性层(单兵翻译官)直接把泥巴变字,这就像试图用一把钝刀去雕刻精细的玉器,当然刻不好。
  2. CODAR 打破了僵局: 只要把“雕刻”的工作交给擅长上下文的“大师”,连续扩散模型生成的“泥巴”质量就瞬间上来了。
  3. 灵活的“旋钮”: CODAR 还有一个神奇的**“温度旋钮”**。
    • 拧低温度: 雕刻大师变得非常谨慎,只选最确定的字。生成的文章非常通顺、流畅,但可能有点保守。
    • 拧高温度: 雕刻大师变得更有创意,敢于尝试不同的组合。生成的文章更多样、更有趣,虽然偶尔可能有点小瑕疵。
    • 结果: 你可以在“通顺”和“多样”之间自由滑动,找到完美的平衡点。

4. 实验结果:真的好用吗?

作者在两个著名的数据集(LM1B 和 OpenWebText)上做了测试:

  • 对比旧方法: CODAR 生成的文本质量远超之前的“连续扩散”方法。
  • 对比离散方法: 它甚至能和目前最强的“离散扩散”模型(如 MDLM, SEDD)掰手腕。
  • 速度优势: 配合高级的数学求解器,CODAR 在生成速度很快(步数很少)的时候,依然能保持高质量,这比很多传统方法都要快且好。

总结

这篇论文告诉我们:连续扩散模型其实非常强大,潜力巨大,只是以前我们“最后一公里”的解码方式太笨了。

CODAR 就像给这位强大的“抽象艺术家”配了一位顶级的“雕刻大师”。

  • 艺术家负责在连续的空间里构建完美的逻辑流。
  • 雕刻大师负责结合上下文,把逻辑流精准地变成通顺的文字。

这种方法不仅让连续模型变得好用,还提供了一个简单的调节机制,让我们能像调节收音机一样,在“流畅”和“创意”之间自由切换。这证明了连续生成和离散语言模型不是死对头,而是可以完美互补的搭档。