Rooted Absorbed Prefix Trajectory Balance with Submodular Replay for GFlowNet Training

该论文提出了结合根吸收前缀轨迹平衡(RapTB)目标与子模重放策略(SubM)的 GFlowNet 训练方法,旨在通过增强早期前缀的信用分配和缓解重放分布偏移,有效解决大语言模型生成中的模式崩溃问题,从而在分子生成等任务中显著提升优化性能、多样性及有效性。

Xi Wang, Wenbo Lu, Shengjie Wang

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要解决了一个让大型语言模型(LLM)在“创造”东西时容易犯傻的问题。我们可以把这篇论文想象成在教一个非常有才华但有点急躁的厨师(语言模型)如何既做出美味佳肴,又保证菜单丰富多样

1. 背景:厨师的困境(模式坍塌)

想象你雇佣了一位天才厨师,你的目标是让他根据“美味程度”(奖励)来随机做各种菜。

  • 理想情况:他应该做很多种不同的菜(红烧肉、清蒸鱼、宫保鸡丁),而且每种做得越好吃,做出来的概率就越高。
  • 现实问题:这位厨师很快变得“懒惰”且“偏执”。
    1. 前缀坍塌(Prefix Collapse):不管做什么菜,他前几口总是用完全一样的调料(比如每道菜开头都先放巨量的盐)。结果就是,虽然菜名不同,但前几口味道一模一样,缺乏真正的多样性。
    2. 长度偏见(Length Bias):他要么只敢做极短的菜(比如只放一片叶子),要么就疯狂堆料做到盘子装不下,完全失去了对“适量”的把控。

为什么会这样?

  • 反馈太慢:只有等整道菜做完尝了一口,才知道好不好吃。厨师在刚开始放盐的时候,根本不知道后面会发生什么,所以早期的决策很盲目。
  • 记忆偏差:厨师只记得以前做过的、得分最高的那几道菜,反复练习这几道,导致他忘了其他菜怎么做,最后只会做那几道“爆款”。

2. 解决方案一:RapTB(给厨师的“实时导航”)

为了解决“反馈太慢”的问题,作者提出了 RapTB

  • 以前的做法(TB):只有等菜做完,告诉厨师“这道菜 90 分”。厨师只能凭感觉猜刚才哪一步放盐是对的。
  • RapTB 的做法
    • 根节点锚定:就像给厨师装了一个GPS 导航。不管菜做到哪一步,系统都会告诉他:“如果你现在停手,这道菜大概能得多少分”。
    • 吸收后缀奖励:这是最巧妙的地方。系统会看厨师后面做了什么(比如后面加了糖,味道变好了),然后把这个“好消息”倒推回来告诉前面的步骤:“嘿,刚才你放的那勺盐,因为后面加了糖,所以其实是个好决定!”
    • 效果:厨师不再需要等到最后才知道对错,他在做菜的过程中就能不断获得“实时反馈”,知道每一步该往哪个方向努力,从而避免了开头就乱加料(前缀坍塌)。

3. 解决方案二:SubM(给厨师的“精选菜单库”)

为了解决“记忆偏差”和“只会做爆款”的问题,作者提出了 SubM

  • 以前的做法(普通回放):厨师的“错题本”(经验回放池)里,只存着以前得分最高的菜。结果全是红烧肉,没有别的。
  • SubM 的做法
    • 这是一个智能选菜员。它不仅仅看菜好不好吃(奖励),还要看菜够不够多(多样性),以及菜的长短是不是都有(长度覆盖)
    • 它使用一种叫“子模函数”的数学魔法,确保选出来的菜单里:既有最好吃的,又有各种不同风味的,还有长菜、短菜、中等长度的菜。
    • 效果:厨师的“错题本”里不再只有红烧肉,而是有了满汉全席的雏形。这强迫厨师去探索更多未知的领域,而不是死磕那几道旧菜。

4. 总结:1+1 > 2

这篇论文的核心思想就是双管齐下

  1. RapTB 就像给厨师配了实时导航,让他每一步都知道方向,不再盲目乱走,解决了“开头就乱”和“长短失控”的问题。
  2. SubM 就像给厨师配了精选菜单库,强迫他接触各种各样的食材和做法,解决了“只会做一种菜”的僵化问题。

实验结果
在生成分子(像设计新药)和算术题(像解数学题)的任务中,这套组合拳让模型:

  • 更聪明:生成的东西质量更高(更像好药、更像正确答案)。
  • 更多样:能想出更多种不同的解法,而不是只会一种。
  • 更稳定:不会突然“发疯”只生成很短或很长的东西。

一句话总结
这就好比教一个学生做题,以前是等考完试才给分数(导致学生乱猜),现在是每做一步就提示下一步的得分潜力(RapTB),并且强迫他复习各种类型的题目而不是只刷难题(SubM),最终让他既考得高分,又真正学会了举一反三。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →