Evaluating GFlowNet from partial episodes for stable and flexible policy-based training

Each language version is independently generated for its own context, not a direct translation.

De Kern: Een Nieuwe Manier om "Slimme" Creatieve Machines te Trainen

Stel je voor dat je een kunstenaar hebt die miljoenen verschillende schilderijen kan maken. Je wilt dat deze kunstenaar niet willekeurige vlekken maakt, maar schilderijen die lijken op de meesterwerken van Van Gogh of Rembrandt. Het probleem is dat er zoveel mogelijk schilderijen zijn dat je ze niet allemaal kunt bekijken om te zien welke goed zijn.

Dit is precies het probleem dat GFlowNets (Generative Flow Networks) proberen op te lossen. Het zijn AI-modellen die leren hoe ze complexe dingen (zoals nieuwe medicijnen, chemische structuren of logische netwerken) moeten "ontwerpen" door stap voor stap te bouwen, net als een LEGO-set.

Het artikel introduceert een nieuwe methode om deze AI te trainen, genaamd Sub-EB. Laten we kijken hoe het werkt met een paar verhalen.

1. Het Probleem: De Verloren Kompasnaald

In de oude manier van trainen (de "waarde-gebaseerde" methode), kreeg de AI een soort scorebord. Als ze een goede stap zette, kregen ze punten. Maar dit scorebord was vaak onbetrouwbaar of te traag om te updaten.

In de nieuwere manier (de "beleid-gebaseerde" methode), heeft de AI een Coach (een evaluatiefunctie). Deze Coach kijkt naar de stappen die de AI maakt en zegt: "Je bent hier al een beetje afgedwaald van het ideale pad." De AI luistert dan naar de Coach en past haar strategie aan.

Het probleem: De Coach was vaak onzeker. Hij wist niet precies hoe ver de AI van het doel verwijderd was, vooral als de AI halverwege een traject zat. Het was alsof je een speler in een doolhof een coach geeft die alleen maar kan gissen naar de uitgang, in plaats van de kaart te kunnen lezen.

2. De Oplossing: De "Sub-EB" (De Perfecte Coach)

De auteurs van dit paper hebben ontdekt dat er een wiskundig verband is tussen de stroom van water door een systeem en de kwaliteit van de coach.

De Oude Methode (Sub-TB): Stel je voor dat je water door een complex systeem van buizen laat stromen. De oude methode keek alleen naar de druk op specifieke knooppunten om te zien of het water goed stroomde. Dit werkte, maar was soms rommelig en onstabiel.
De Nieuwe Methode (Sub-EB): De auteurs zeggen: "Wacht even, als we kijken naar de stroom door delen van het traject (niet alleen het eindpunt), kunnen we een perfecte coach bouwen."

Ze hebben een nieuwe regel bedacht (de Sub-EB-voorwaarde). Deze regel zorgt ervoor dat de Coach precies weet hoe ver de AI afwijkt van het perfecte pad, zelfs als de AI nog halverwege is.

De Analogie van de Bergbeklimmer:

Oude Coach: Zegt: "Je bent nu op hoogte 500 meter. Je doel is 1000 meter. Je bent ongeveer halverwege." (Onzeker, want je weet niet of je op de juiste route zit).
Nieuwe Coach (Sub-EB): Zegt: "Kijk naar het pad dat je hebt bewandeld en het pad dat nog komt. Op basis van de stroom van de wind en de rotsen, weet ik precies hoeveel 'energie' je nog nodig hebt en of je op de juiste route zit."

3. Waarom is dit zo belangrijk? (De Voordelen)

De nieuwe methode heeft drie grote voordelen, die het paper met echte experimenten bewijst:

A. Stabielere Lering (Minder "Gedoe")

Soms leren AI-modellen heel snel, maar dan beginnen ze te trillen en vallen ze terug. Met de nieuwe Sub-EB-methode is de leercurve veel rustiger. Het is alsof je een auto rijdt met een nieuwe stuurbekrachtiging die je niet laat schudden op oneffen wegen. De AI convergeert (vindt het antwoord) sneller en betrouwbaarder.

B. Flexibeler (Meer Opties)

In het verleden mocht de "Rückwärts-Politicus" (de achteruit-kijkende strategie) niet veranderen tijdens het trainen. Het was als een speler die alleen vooruit mag kijken, maar nooit mag terugkijken om zijn fouten te corrigeren.
Met Sub-EB mag de AI terugkijken en aanpassen. Ze kunnen een "achterwaartse coach" hebben die meebeweegt met de AI. Dit maakt het trainen veel flexibeler en krachtiger.

C. Werken met Oude Data (Offline Leren)

Stel je voor dat je een chef-kok wilt trainen.

Online leren: De kok moet elke dag zelf ingrediënten kopen en koken. Dit is duur en langzaam.
Offline leren: De kok kijkt naar oude recepten en foto's van gerechten die anderen al hebben gemaakt.
De oude methoden konden hier moeilijk mee. De nieuwe Sub-EB-methode maakt het mogelijk om de AI te trainen op bestaande datasets (zoals oude chemische formules of bestaande netwerken) zonder dat ze alles zelf hoeven te "proberen". Dit bespaart tijd en geld.

4. Wat hebben ze getest?

De auteurs hebben hun methode getest op verschillende moeilijke taken:

Hypergrid: Een soort virtueel doolhof waar de AI de kortste weg moet vinden naar de beste plekken.
Biologische Sequenties: Het ontwerpen van nieuwe DNA-reeksen of medicijnmoleculen. Hier is het doel om nieuwe, werkende medicijnen te vinden die nog nooit bestaan hebben.
Bayesiaanse Netwerken: Het vinden van de beste manier om data te structureren (zoals het ontwerpen van de blauwdruk van een heel complex gebouw).

In al deze tests bleek dat de AI met de Sub-EB-methode:

Sneller leerde.
Betere oplossingen vond (hogere beloningen).
Een grotere verscheidenheid aan goede oplossingen vond (niet steeds hetzelfde antwoord).

Conclusie

Dit paper is als het vinden van een nieuwe, superieure GPS voor kunstmatige intelligentie die creatieve taken uitvoert.

Vroeger was de GPS soms onzeker en liet de auto vastlopen in een zijstraat. Met de nieuwe Sub-EB-methode heeft de AI een coach die precies weet hoe het systeem werkt, zelfs als het traject nog niet af is. Hierdoor kunnen we AI gebruiken om sneller en betrouwbaarder nieuwe medicijnen, materialen en complexe systemen te ontwerpen.

Het is een stap voorwaarts naar AI die niet alleen "raadt", maar echt "begrijpt" hoe ze complexe creatieve problemen moet oplossen.

Each language version is independently generated for its own context, not a direct translation.

Titel: Evaluating GFlowNet from Partial Episodes for Stable and Flexible Policy-Based Training

Auteurs: Puhua Niu, Shili Wu, Xiaoning Qian (Texas A&M University)
Publicatie: ICLR 2026

1. Probleemstelling

Generative Flow Networks (GFlowNets) zijn generatieve modellen ontworpen om combinatorische ruimtes (zoals grafen of strings) te doorzoeken met een kans evenredig aan een beloningsfunctie $R(x)$ . Het trainen van GFlowNets is uitdagend vanwege de enorme grootte van de zoekruimte en de noodzaak om de normalisatieconstante $Z^*$ te omzeilen.

Er zijn twee hoofdbenaderingen voor het trainen van GFlowNets:

Waarde-gebaseerde methoden (Value-based): Deze gebruiken "flow balance" voorwaarden (zoals Sub-Trajectory Balance, Sub-TB) om de stroom van trajecten te matchen. Ze zijn robuust maar vereisen vaak het ontwerpen van een specifieke data-verzamelingsbeleid ( $\pi_D$ ) voor off-policy training.
Beleid-gebaseerde methoden (Policy-based): Deze volgen een Actor-Critic-framework (vergelijkbaar met Reinforcement Learning) om de Kullback-Leibler (KL) divergentie tussen de voorwaartse en achterwaartse trajectieverdelingen te minimaliseren. De actor ( $\pi_F$ ) wordt bijgewerkt op basis van een criticus ( $V$ ), die de divergentie schat.

De kernuitdaging: Bij beleid-gebaseerde methoden is het betrouwbaar leren van de evaluatiefunctie $V(s)$ (de criticus) een groot probleem. Bestaande methoden (zoals $\lambda$ -TD) hebben vaak te maken met hoge variantie of bias, en vereisen vaak dat het achterwaartse beleid ( $\pi_B$ ) vaststaat. Dit beperkt de flexibiliteit en stabiliteit van het trainingsproces, vooral in complexe scenario's met offline data of parametrische achterwaartse beleidsfuncties.

2. Methodologie

De auteurs introduceren een nieuwe theoretische verbinding tussen de stroomfunctie $F(s)$ (gebruikt in waarde-gebaseerde methoden) en de evaluatiefunctie $V(s)$ (gebruikt in beleid-gebaseerde methoden).

Kernconcept: Sub-Trajectory Evaluation Balance (Sub-EB)
De auteurs tonen aan dat voor een vast voorwaarts beleid $\pi_F$ , de oplossing voor de flow-balansvergelijking exact overeenkomt met de ware KL-divergentie, en dus de ware evaluatiefunctie $V(s)$ . Hieruit leiden ze een nieuwe voorwaarde af: de Sub-EB conditie.

De Sub-EB Voorwaarde: Voor elke subtrajectie (gedeeltelijk episode) $\tau_{i:j}$ van staat $s_i$ naar $s_j$ , moet de verwachte logaritmische balans gelden:
$\mathbb{E}_{P_F(\tau_{i:j})} \left[ \log \left( P_F(\tau_{i:j}|s_i) \exp V(s_i) \right) \right] = \mathbb{E}_{P_F(\tau_{i:j})} \left[ \log \left( P_B(\tau_{i:j}|s_j) \exp V(s_j) \right) \right]$
Dit betekent dat het verschil in de geleerde divergentie tussen twee staten moet overeenkomen met de ware divergentie over het subtrajectie tussen die staten.
De Sub-EB Doelfunctie: Op basis van deze conditie wordt een nieuwe trainingsdoelstelling $L_V(\phi)$ gedefinieerd om de parametrische evaluatiefunctie $V$ te leren. In tegenstelling tot traditionele $\lambda$ -TD methoden die alleen kijken naar edge-wise mismatches en startpunten, gebruikt Sub-EB subtrajectie-wise mismatches. Dit omvat informatie van zowel voor als na het huidige tijdstip, wat leidt tot een meer gebalanceerd en betrouwbaar leren van $V$ .

Flexibiliteit en Offline Training:

Parametrische $\pi_B$ : De Sub-EB methode maakt het mogelijk om het achterwaartse beleid $\pi_B$ te parametriseren en gezamenlijk te updaten met $V$ , zonder dat een aparte "backward phase" nodig is.
Offline Training: De auteurs ontwikkelen een offline versie van de methode (Algorithm 2) die gebruik maakt van een data-verzamelingsbeleid $\pi_D \neq \pi_F$ . Dit wordt mogelijk gemaakt door een achterwaartse evaluatiefunctie $W$ te introduceren die voldoet aan een vergelijkbare Sub-EB conditie voor de achterwaartse richting.

3. Belangrijkste Bijdragen

Theoretische Link: Etableren van een fundamentele link tussen de flow-balanscondities (voor $F$ ) en de evaluatie-balanscondities (voor $V$ ). Ze bewijzen dat de Sub-EB conditie een voldoende en noodzakelijke voorwaarde is voor de ware evaluatiefunctie.
Sub-EB Doelstelling: Introductie van de Sub-EB objectief voor het betrouwbaar leren van de criticus $V$ in beleid-gebaseerde GFlowNet training. Deze methode overwint de beperkingen van $\lambda$ -TD door subtrajectie-informatie te benutten.
Verbeterde Flexibiliteit: De methode ondersteunt naadloos parametrische achterwaartse beleidsfuncties ( $\pi_B$ ) en maakt offline training mogelijk, wat de toepasbaarheid vergroot voor complexe real-world taken.
Uitgebreide Validatie: Experimenten op synthetische data (Hypergrids) en real-world taken (biologische sequentieontwerp, moleculair ontwerp, Bayesiaanse netwerken) tonen aan dat Sub-EB superieur is in stabiliteit, convergentiesnelheid en prestaties.

4. Resultaten

De auteurs hebben hun methode getest op diverse datasets en vergeleken met bestaande methoden zoals Sub-TB, Q-Much, en traditionele RL-methoden (RL met $\lambda$ -TD).

Hypergrids (Synthetisch):
- Op grote roosters (bijv. $256 \times 256$ en $128^3$ ) toonde Sub-EB een aanzienlijk betere stabiliteit en snellere convergentie dan de standaard RL-methode.
- Sub-EB presteerde consistent beter dan Sub-TB en CV (Control Variate) methoden, met name in de vroege fasen van training.
- De methode bleek robuust bij het gebruik van een parametrisch $\pi_B$ , wat bij andere methoden vaak leidt tot instabiliteit.
Sequentie- en Moleculair Ontwerp:
- Op datasets voor nucleotiden (SIX6, PHO4) en moleculen (QM9, sEH) leverde Sub-EB betere resultaten op voor zowel distributiemodellering (gemeten via Total Variation en Jensen-Shannon divergentie) als mode-discovery (het vinden van hoog-beloonde staten).
- De offline variant (Sub-EB-B) kon effectief worden gecombineerd met lokale zoektechnieken om de exploratie van hoog-beloonde gebieden te verbeteren, zonder de stabiliteit van de beleid-gebaseerde training te verliezen.
Bayesiaanse Netwerk Structuurleer:
- Op grote schaal (tot $15$ knopen, met een zoekruimte van $\approx 10^{35}$ ) behaalde Sub-EB de hoogste gemiddelde beloning en de snelste convergentie.
- Het behaalde een hoge diversiteit in de gegenereerde grafen, wat aantoont dat het niet vastloopt in lokale optima, in tegenstelling tot sommige andere methoden.

5. Betekenis en Conclusie

Dit werk is significant omdat het de kloof overbrugt tussen waarde-gebaseerde en beleid-gebaseerde benaderingen van GFlowNets. Door de flow-balans te vertalen naar een evaluatie-balans voor de criticus, bieden de auteurs een oplossing voor het lange-standing probleem van het betrouwbaar leren van $V(s)$ .

De Sub-EB methode biedt:

Stabiliteit: Minder gevoelig voor variantie in de schattingen, wat leidt tot soepelere training.
Flexibiliteit: Het maakt geavanceerde technieken mogelijk, zoals het gebruik van parametrische achterwaartse beleidsfuncties en offline data-verzameling, zonder de complexiteit van multi-fase algoritmen.
Schalbaarheid: Bewezen effectief op zeer grote combinatorische ruimtes, wat essentieel is voor toepassingen in wetenschap en engineering (zoals drug discovery en Bayesiaanse inferentie).

Kortom, Sub-EB stelt een nieuwe standaard voor beleid-gebaseerde GFlowNet training, waarbij de betrouwbaarheid en toepasbaarheid van deze modellen aanzienlijk worden verbeterd.