Controlling Exploration-Exploitation in GFlowNets via Markov Chain Perspectives

本文通过建立 GFlowNet 目标与马尔可夫链可逆性之间的等价关系,揭示了其探索 - 利用权衡受限的根源,并提出了通过可调参数α\alpha灵活控制混合策略的α\alpha-GFN 框架,从而显著提升了模式发现能力。

Lin Chen, Samuel Drapeau, Fanghao Shao, Xuekai Zhu, Bo Xue, Yunchong Song, Mathieu Laurière, Zhouhan Lin

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“如何更聪明地寻找宝藏”**的故事,主角是一种叫做 GFlowNet(生成流网络)的人工智能技术。

为了让你轻松理解,我们可以把训练 AI 的过程想象成在一个巨大的、充满迷宫的岛屿上寻找隐藏的宝藏

1. 背景:什么是 GFlowNet?

想象你是一位探险家(AI),你的任务是探索一个巨大的岛屿(数据空间)。岛上有很多宝藏(高奖励的样本,比如能治病的分子、完美的代码或有趣的句子),但宝藏分布不均,有的地方宝藏多,有的地方是死胡同。

  • 传统方法(MCMC): 就像是一个醉汉在岛上乱走,虽然最终也能找到宝藏,但效率很低,容易在原地打转。
  • GFlowNet: 这是一个更聪明的探险家。它不仅能走,还能学习地图。它通过不断尝试,学会如何以“找到宝藏的概率”来生成路径。如果某个地方宝藏多,它就多去几次;如果宝藏少,它就少去几次。

2. 问题:旧方法的“死板”

在以前的 GFlowNet 训练中,有一个隐含的规则:“向前看”和“向后看”必须各占 50% 的权重。

  • 向前看(Forward Policy): 决定下一步往哪走(探索新地方)。
  • 向后看(Backward Policy): 回想刚才的路是怎么来的(利用已知信息)。

旧方法的比喻:
想象你在开车。以前的规则强制要求:你必须把油门(向前探索)和刹车(向后确认)踩得一样用力,永远保持 50:50 的比例。

  • 如果前面是平坦的高速公路(容易找到的普通宝藏),你不需要那么用力踩刹车,但规则强迫你踩。
  • 如果前面是崎岖的深山(很难找到的稀有宝藏),你需要猛踩油门去探索,但规则强迫你还要分一半力气去踩刹车。

结果: 这种“五五开”的僵化规则,让探险家无法灵活应对。有时候它太保守(不敢深入),有时候又太鲁莽(忽略细节),导致它很难发现那些稀有但价值极高的宝藏(也就是论文里说的“模式发现”能力不足)。

3. 核心突破:引入“调节旋钮” α\alpha

这篇论文提出了一种新方法,叫 α\alpha-GFN

核心思想:
我们不再强制“油门”和“刹车”各占一半。我们加了一个调节旋钮 α\alpha

  • 你可以把 α\alpha 调大(比如 0.9):意味着90% 的力气用来向前探索,10% 用来回顾。这时候 AI 变得非常激进,像猎犬一样疯狂嗅探新区域,适合在刚开始训练时发现更多未知的宝藏
  • 你可以把 α\alpha 调小(比如 0.1):意味着90% 的力气用来回顾和确认,10% 用来探索。这时候 AI 变得非常谨慎,专注于把已知的路走稳,适合在训练后期精修策略

论文的理论贡献:
作者发现,GFlowNet 其实和一种叫**“马尔可夫链”**的数学理论(就像研究随机游走)有着深刻的联系。

  • 以前的方法相当于让 AI 在“随机游走”中保持一种完全对称的状态。
  • 新的 α\alpha-GFN 打破了这种对称,允许 AI 根据训练阶段,灵活调整“探索”和“利用”的比例。

4. 训练策略:像“登山”一样分阶段

既然 α\alpha 这么重要,那应该一直设为 0.9 吗?不,那样太鲁莽,容易掉进坑里。
论文设计了一个**“两阶段登山法”**:

  1. 第一阶段(疯狂探索期):α\alpha 设得很高(比如 0.9)。这时候 AI 像个不知疲倦的探险家,到处乱跑,目的是把地图上所有可能有宝藏的角落都找一遍。哪怕走错路也没关系,先发现宝藏在哪里。
  2. 第二阶段(精修收敛期): 慢慢把 α\alpha 调回 0.5(或者接近 0.5)。这时候 AI 开始**“回头看”**,把刚才发现的路整理好,确保每一步都走得稳,最终生成完美的地图。

5. 实验结果:真的有用吗?

作者在三个不同的领域做了测试,效果非常惊人:

  • 集合生成(Set Generation): 就像让 AI 组合不同的积木。旧方法可能只能拼出几种常见的形状,新方法能拼出几十倍更多独特且完美的形状。
  • 比特序列(Bit Sequence): 就像解谜题。新方法发现了更多隐藏的解题模式。
  • 分子生成(Molecule Generation): 这是最实用的。在寻找新药分子时,新方法发现的有效药物分子数量是旧方法的 10 倍!这意味着它能帮科学家更快地找到治愈疾病的新药。

总结

这篇论文就像给 AI 探险家发了一把**“万能钥匙”**。

以前的 AI 被一条死板的规则(50:50)束缚住了手脚,只能在固定的节奏下寻找宝藏。
现在的 α\alpha-GFN 给了 AI 一个可调节的油门和刹车,让它知道:

  • 刚开始时,要大胆探索(多踩油门),不要怕走弯路,目的是发现更多新宝藏
  • 后期时,要稳健收敛(多踩刹车),把路走直,确保拿到宝藏

这种灵活的控制,让 AI 在寻找复杂、稀有解决方案(如新药、新材料)时,变得既聪明又高效,发现了以前根本发现不了的东西。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →