Evaluating GFlowNet from partial episodes for stable and flexible policy-based training

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种让计算机更聪明、更稳定地学习“如何创造新事物”的新方法。为了让你轻松理解，我们可以把这项技术想象成教一个机器人画家画出一幅完美的风景画。

1. 背景：机器人在玩“搭积木”游戏

想象一下，你有一个机器人，它面前有一堆积木（比如分子、基因序列或贝叶斯网络结构）。它的任务是把这些积木搭成各种形状，并且搭得越像“完美风景”（高奖励），它得到的分数就越高。

但是，积木的种类多到天文数字（比如 $10^{35}$ 种搭法），机器人不可能把所有形状都试一遍。它需要学会一种“直觉”（策略），直接画出那些高分的形状。

这就是 GFlowNet（生成流网络） 要做的事情：它像一个探险家，在巨大的迷宫（有向无环图 DAG）里寻找宝藏。

2. 旧方法的困境：两个“老师”在吵架

以前，训练这个机器人主要有两种“老师”：

价值派老师（Value-based）： 这位老师很务实。他不管机器人怎么想，只盯着每一步的“流量”（Flow）。他告诉机器人：“如果你走这条路，流量应该等于那条路的流量。”这就像在修水管，确保水流平衡。这种方法很稳，但有时候不够灵活，很难处理复杂的“反向思考”。
策略派老师（Policy-based）： 这位老师更像教练。他直接教机器人：“你应该往左走，因为那样得分高。”他需要评估机器人现在的水平（评估函数 $V$ $V$ ），然后纠正它。
- 问题出在这里： 策略派老师虽然灵活，但他很难准确判断机器人到底“差多远”。就像教练很难精确计算一个运动员和奥运冠军之间的具体差距，导致训练时容易走弯路，甚至学偏了。

3. 新发现：把“水管平衡”变成“评分尺”

这篇论文的核心突破在于，作者发现**“水管平衡”和“评分尺”其实是同一回事**。

以前的认知： 我们以为“流量平衡”（Value-based）和“策略评估”（Policy-based）是两码事。
现在的发现： 作者证明，如果你让“流量”保持平衡，它自然就变成了一把精准的尺子，能准确测量出机器人现在的策略和完美策略之间到底差了多少（即“散度”）。

比喻：
想象你在玩一个“找宝藏”的游戏。

旧方法（策略派）： 教练凭感觉喊：“你离宝藏还差得远呢，往左走！”（教练可能喊错了，导致机器人乱跑）。
新方法（Sub-EB）： 作者发现，只要保证“水流”在每一个路口都平衡（像水管一样），这个“水流平衡”本身就会自动变成一张精准的地图。这张地图不仅能告诉机器人“往哪走”，还能精确地告诉它“你现在的路线和完美路线差了多少分”。

4. 核心创新：Sub-EB（子轨迹评估平衡）

作者提出了一个叫 Sub-EB 的新目标。

什么是“子轨迹”？ 机器人画画的每一步（比如先画个圆，再画个方块）就是一个“子轨迹”。
Sub-EB 的作用： 它不再只盯着最后画完的整幅画，而是盯着每一个中间步骤。它要求：无论机器人走到哪一步，它“当前状态的价值”加上“未来可能得到的奖励”，必须和“反向推导回来的价值”完美平衡。

这就好比：
以前教练只会在画完画后打分。现在，Sub-EB 让教练在机器人每一笔落下的时候，都立刻检查这一笔是否符合“完美画作”的流量逻辑。如果不符合，立刻纠正。

5. 带来的两大好处

A. 训练更稳、更快（Stable & Flexible）

因为有了这把“精准尺子”，机器人不再瞎猜。实验证明，用 Sub-EB 训练的机器人，收敛速度更快，而且不会像以前那样容易“学傻了”或者“走火入魔”。它就像是一个有了 GPS 导航的司机，既知道目的地，又知道每一步该怎么开。

B. 可以“抄作业”了（Offline Training）

这是最酷的一点。以前的策略派方法必须让机器人自己实时去试错（在线学习），不能看别人的作业。
但 Sub-EB 非常灵活，它允许机器人直接看别人的“作业本”（离线数据）。

比喻： 以前机器人必须自己在迷宫里撞墙才能学会。现在，Sub-EB 允许机器人先读一本“前人走过的路”的书（离线数据），然后结合自己的策略去优化。这让它在处理像“设计新药分子”这种昂贵、不能随便乱试的任务时，变得非常高效。

6. 实际效果：真的有用吗？

作者在几个领域做了测试：

超网格（Hypergrids）： 就像在巨大的迷宫里找宝藏，新方法找得又快又准。
生物分子设计： 比如设计新的蛋白质或药物分子。新方法能更快找到那些能治病的“完美分子”。
贝叶斯网络学习： 帮助科学家理清复杂的因果关系。

结论：
这篇论文就像给 GFlowNet 这个“天才机器人”装上了一个**“智能导航仪”。它把原本复杂的数学平衡问题，转化成了机器人能听懂的“精准评分”，让机器人不仅能自己摸索**，还能借鉴经验，从而在巨大的创意空间里，更高效、更稳定地创造出我们想要的东西（无论是新药、新代码还是新结构）。

一句话总结：
作者发现了一种新魔法，让 AI 在创造新事物时，既能像水管工一样保证每一步都“流量平衡”，又能像教练一样精准评估自己的水平，从而学得更快、更稳，还能直接参考前人的经验。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《EVALUATING GFLOWNET FROM PARTIAL EPISODES FOR STABLE AND FLEXIBLE POLICY-BASED TRAINING》（基于部分片段评估 GFlowNet 以实现稳定且灵活的基于策略的训练）的详细技术总结。

1. 研究背景与问题 (Problem)

GFlowNet 简介：
生成流网络（Generative Flow Networks, GFlowNets）旨在从组合空间（如图、字符串等）中采样，使得采样到的对象 $x$ 的概率与其得分函数 $R(x)$ 成正比（即 $P(x) \propto R(x)$ ）。其核心思想是将生成过程建模为有向无环图（DAG）上的轨迹（Trajectories）。

现有方法的局限性：
GFlowNet 的训练主要分为两类：

基于价值的方法 (Value-based)： 如 Trajectory Balance (TB) 和 Sub-Trajectory Balance (Sub-TB)。它们通过匹配流（Flow）的平衡条件来训练，通常使用离线数据（Off-policy），但难以直接优化策略分布与目标分布之间的散度（如 KL 散度）。
基于策略的方法 (Policy-based)： 类似于强化学习中的 Actor-Critic 框架。它引入一个评估函数 $V(s)$ $V (s)$ 来近似前向策略 $\pi_F$ $π_{F}$ 与后向策略 $\pi_B$ $π_{B}$ 在子轨迹上的 KL 散度，并利用该评估函数更新策略。
- 核心挑战： 在基于策略的方法中，如何可靠地学习评估函数 $V(s)$ 是一个未解决的难题。现有的方法（如 Niu et al., 2024 提出的 $\lambda$ $λ$ -TD 目标）存在以下问题：
  - 评估函数的估计可能不稳定，导致策略训练波动。
  - 通常要求后向策略 $\pi_B$ 固定，难以实现参数化的后向策略联合优化。
  - 难以直接整合离线数据收集技术（Off-policy data collection），限制了探索效率。

2. 方法论 (Methodology)

本文提出了一种新的训练框架，通过建立流函数 $F(s)$ 与评估函数 $V(s)$ 之间的理论联系，提出了**子轨迹评估平衡（Subtrajectory Evaluation Balance, Sub-EB）**条件。

2.1 理论核心：Sub-EB 条件

作者证明了对于任意固定的前向策略 $\pi_F$ ，满足流平衡条件的状态流函数 $F(s)$ 的解，恰好等于该策略在状态 $s$ 处的真实 KL 散度（即真实的评估函数 $V^\dagger(s)$ ）。

基于此，作者提出了 Sub-EB 条件：
对于任意子轨迹 $\tau_{i:j}$ （从状态 $s_i$ 到 $s_j$ ），学习到的评估函数 $V$ 应满足：
$\mathbb{E}_{P_F(\tau_{i:j})} \left[ \log \left( P_F(\tau_{i:j}|s_i) \exp V(s_i) \right) \right] = \mathbb{E}_{P_F(\tau_{i:j})} \left[ \log \left( P_B(\tau_{i:j}|s_j) \exp V(s_j) \right) \right]$
其中 $P_B$ 是后向轨迹分布。该条件直观地要求：学习到的两个状态间的散度差值，必须匹配这两个状态间子轨迹的真实散度差值。

2.2 优化目标：Sub-EB 目标函数

为了学习评估函数 $V(\cdot; \phi)$ ，作者定义了最小化子轨迹不平衡度的目标函数：
$L_V(\phi) := \mathbb{E}_{P_F(\tau)} \left[ \sum_{\tau_{i:j}} w_{j-i} (\delta_V(\tau_{i:j}; \phi))^2 \right]$
其中 $\delta_V$ 是 Sub-EB 条件的对数残差， $w_{j-i}$ 是子轨迹长度的权重系数。

优势： 与传统的 $\lambda$ -TD 目标相比，Sub-EB 利用了子轨迹（Partial Episodes）作为基本单位，不仅利用了从 $s_i$ 开始的信息，还利用了结束于 $s_j$ 的信息，从而提供了更平衡、更可靠的梯度估计。

2.3 扩展特性

参数化后向策略 (Parameterized Backward Policy)：
Sub-EB 目标允许 $\pi_B$ 与 $V$ 进行联合更新，无需像传统方法那样将 $\pi_B$ 固定或采用复杂的双阶段算法。这使得后向策略可以在优化过程中动态适应。
离线策略训练 (Offline Policy-Based Training)：
通过引入反向评估函数 $W$ 和对应的反向 Sub-EB 条件，作者提出了一个离线训练工作流（Algorithm 2）。该方法允许使用与当前策略 $\pi_F$ 不同的数据收集策略 $\pi_D$ （例如包含局部搜索的探索策略），从而将离线数据收集技术无缝集成到基于策略的训练中，解决了传统基于策略方法必须在线（On-policy）训练的局限。

3. 主要贡献 (Key Contributions)

理论桥梁： 首次建立了状态流函数 $F(s)$ 与评估函数 $V(s)$ 之间的严格数学联系，证明了流平衡条件隐含了评估函数的最优性条件。
Sub-EB 目标： 提出了基于子轨迹的评估平衡（Sub-EB）目标，用于可靠地学习评估函数 $V$ 。该目标比现有的 $\lambda$ -TD 目标更稳定，收敛更快。
灵活性与扩展性：
- 支持参数化后向策略的联合优化，简化了训练流程。
- 提出了离线策略训练方案，使得基于策略的方法能够利用离线数据增强探索能力。
广泛的实证验证： 在合成数据（Hypergrid）和真实世界任务（生物序列设计、分子序列设计、贝叶斯网络结构学习）上进行了全面实验，证明了 Sub-EB 在稳定性、收敛速度和最终性能上的优越性。

4. 实验结果 (Results)

作者在多个基准测试中对比了 Sub-EB 与现有方法（Sub-TB, CV, RL/ $\lambda$ -TD, Q-Much 等）：

Hypergrid (超网格) 任务：
- 在 $256 \times 256$ 和 $128 \times 128 \times 128$ 等高维网格上，Sub-EB 显著提高了策略梯度方法的稳定性和收敛速度。
- Sub-EB 在最终性能上优于 Sub-TB 和 CV，且收敛曲线更平滑。
- 消融实验表明，Sub-EB 能很好地适应参数化的后向策略（Sub-EB-P 表现最佳）。
序列设计任务 (生物/分子)：
- 在 SIX6, PHO4, QM9, sEH 等数据集上，Sub-EB 在分布建模（DTV, DJSD, MA 指标）和模式发现（Mode Number）方面均表现出色。
- 验证了 Sub-EB 能够成功整合离线采样技术（Sub-EB-B），在保持分布建模能力的同时，显著提升了高奖励模式的发现速度。
贝叶斯网络结构学习 (BN Structure Learning)：
- 在 5、10、15 个节点的大规模组合空间任务中，Sub-EB 获得了最高的平均奖励，并且收敛速度明显快于 Sub-TB 和 Q-Much。
- 在多样性（Diversity）和流一致性（FCS）指标上，Sub-EB 也表现优异，证明了其在大规模组合空间中的有效性。
分子图设计：
- 在 LogP 和 JNK3 任务中，Sub-EB 实现了最高的平均奖励和最快的收敛，同时保持了合理的分子多样性。

5. 意义与结论 (Significance)

理论突破： 本文填补了基于价值（流平衡）和基于策略（KL 散度最小化）两种 GFlowNet 训练范式之间的理论空白，证明了两者在本质上是相通的。
解决稳定性难题： 提出的 Sub-EB 目标解决了基于策略方法中评估函数学习不稳定的核心痛点，使得策略梯度方法在 GFlowNet 训练中更加可靠。
提升灵活性： 通过支持参数化后向策略和离线数据利用，Sub-EB 极大地扩展了 GFlowNet 的应用场景，使其能够处理更复杂的探索 - 利用权衡问题，特别是在奖励稀疏或组合空间巨大的任务中。
实际应用价值： 实验结果表明，该方法在药物发现（分子设计）、生物序列优化和因果推断（BN 结构学习）等实际科学问题中具有显著优势，为 GFlowNet 的进一步应用奠定了坚实基础。

总结： 该论文通过提出 Sub-EB 目标，不仅从理论上统一了流平衡与策略评估，还从工程上提供了一种更稳定、更灵活的 GFlowNet 训练方案，显著提升了模型在复杂组合优化任务中的表现。