Path Planning for Masked Diffusion Model Sampling

该论文提出了一种名为“路径规划”(Path Planning, P2)的新型推理采样策略,通过将生成步骤分解为规划与去噪两个子阶段,使掩码扩散模型能够迭代优化已生成的令牌,从而在理论上扩展了证据下界,并在蛋白质、RNA、数学推理、故事生成及代码生成等多个领域实现了显著的性能提升。

Fred Zhangzhi Peng, Zachary Bezemek, Sawan Patel, Jarrid Rector-Brooks, Sherwood Yao, Avishek Joey Bose, Alexander Tong, Pranam Chatterjee

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为**“路径规划”(Path Planning,简称 P2)的新方法,用来让一种叫做“掩码扩散语言模型”(MDM)**的 AI 生成更高质量的内容。

为了让你轻松理解,我们可以把 AI 生成文本、蛋白质或 RNA 的过程,想象成**“在黑暗中拼一幅巨大的拼图”**。

1. 背景:现在的 AI 是怎么“拼图”的?

想象一下,你面前有一幅被打乱且被黑布(掩码)完全盖住的拼图。AI 的任务是把这些黑布一块块揭开,露出下面的图案,直到整幅画完整。

  • 传统的做法(自回归模型): 就像你从左到右,一块接一块地拼。拼好第一块,再拼第二块。这种方法很稳,但如果第一块拼错了,后面所有的块都会跟着错,而且一旦拼错,很难回头去改(就像写文章时,写错了一个字,后面整段可能都要重写)。
  • 目前的扩散模型(MDM): 这种方法更灵活,它可以同时揭开很多块黑布。但是,它有一个致命的弱点:它一旦揭开了一块黑布,露出了一个图案,就永远固定在那里了
    • 比喻: 想象你在黑暗中猜词。如果你猜错了第一个字,比如把“苹果”猜成了“苹果树”,在传统的扩散模型里,这个“树”字就定死了,后面的推理都会基于这个错误的“树”字进行,导致最后生成的句子逻辑不通。它没有“反悔”的机会。

2. 核心创新:P2 是什么?

这篇论文提出的 P2(路径规划) 就像给这个拼图过程加了一个**“聪明的规划师”**。

这个规划师的工作分为两步:

  1. 规划(Planning): 在揭开下一块黑布之前,规划师会先看看现在的局面。它会问:“哪一块黑布应该先揭开?还有,刚才已经揭开的那些块里,有没有哪一块看起来不对劲,需要重新盖回去(重掩码)并重新猜?"
  2. 去噪(Denoising): 根据规划师的指令,AI 去揭开黑布,或者把猜错的块重新盖住,再重新猜。

简单说:P2 让 AI 拥有了“反悔权”和“全局视野”。 它不再是一条道走到黑,而是可以边走边看,发现走错了就回头修正。

3. 三种“规划师”的形态

论文里提到了三种让 AI 学会“规划”的方法:

  • 自我规划(Self-Planning): AI 自己当自己的规划师。它利用自己刚才猜出来的结果,自信地判断:“我觉得刚才那个字可能猜错了,我要改一下。”
  • BERT 规划(BERT-Planning): 请一个经验丰富的“老前辈”(比如已经训练好的 BERT 模型)来当规划师。这个老前辈虽然不直接负责生成,但它很擅长判断上下文是否通顺,能告诉 AI 哪里需要改。
  • 训练规划(Trained-Planning): 专门训练一个小模型来当规划师,让它学会如何指导主模型进行最优的修改。

4. 效果如何?(用数据说话)

这个方法在多个领域都取得了惊人的效果,就像给 AI 装上了“纠错眼镜”:

  • 蛋白质设计(生物领域):
    • 比喻: 就像让 AI 设计一种新的药物分子。以前 AI 设计的分子结构经常是“散架”的(不可折叠)。
    • 结果: 用了 P2 后,设计出的蛋白质结构可折叠性提升了 22%。这意味着 AI 设计的药物分子更稳定、更像真的生物分子了。
  • 数学推理:
    • 比喻: 做数学题时,如果第一步算错了,后面全错。
    • 结果: P2 让 AI 在数学题上的正确率提升了,甚至一个较小的模型(11 亿参数)在数学题上能打败更大的传统模型(70 亿参数的 Llama)。
  • 写故事和写代码:
    • 比喻: 写代码时,如果变量名写错了,整个程序跑不通。
    • 结果: 在写代码任务中,通过率(Pass@1)提升了 33%。写故事时,内容的连贯性和质量也大幅提升。

5. 总结:为什么这很重要?

以前的 AI 生成就像**“蒙眼走路”,一旦走偏了很难回头。
这篇论文的 P2 方法,就像是给 AI 配了一个
“导航仪”和“倒车雷达”**。

  • 它允许 AI 在生成过程中动态调整策略
  • 它允许 AI修正之前的错误(重掩码)。
  • 它让 AI 生成的内容(无论是文字、代码还是蛋白质)更加准确、连贯和高质量

一句话总结: 这篇论文教 AI 学会了“三思而后行”和“知错就改”,让它在生成复杂内容时,不再是一次性赌运气,而是通过精心的“路径规划”,一步步逼近完美的答案。