Learning Shortest Paths with Generative Flow Networks

Deze paper introduceert een nieuw leerframework dat Generative Flow Networks (GFlowNets) gebruikt om kortste paden in grafen te vinden door flow-regulering toe te passen, wat resulteert in concurrerende prestaties bij complexe problemen zoals het oplossen van de Rubik's Cube met een kleiner zoekbudget.

Nikita Morozov, Ian Maksimov, Daniil Tiapkin, Sergey Samsonov

Gepubliceerd 2026-03-03
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je in een gigantisch, compleet donker labyrint staat. Je doel is om de kortste weg te vinden naar de uitgang. Normaal gesproken zou je elke afslag moeten uitproberen, of een heel slimme kaart nodig hebben om te weten welke kant op te gaan. Dit is precies het probleem dat kunstmatige intelligentie vaak heeft bij complexe puzzels, zoals het oplossen van een Rubik's Cube of het plannen van routes voor robots.

Deze paper introduceert een nieuwe, slimme manier om dit op te lossen met een technologie die Generative Flow Networks (GFlowNets) heet. Laten we dit uitleggen met een paar leuke metaforen.

1. Het Probleem: Het Labyrint van de Rubik's Cube

Stel je een Rubik's Cube voor. Er zijn meer mogelijke combinaties dan er atomen in het heelal zijn. Als je probeert de kubus op te lossen, kun je elke draai maken, maar je kunt ook terug naar een eerdere stand gaan (je kunt een beweging ongedaan maken). Dit maakt het pad niet lineair; het is een web van kringen en lusjes.

Oude methoden proberen vaak een "kaart" te tekenen of te voorspellen hoe ver je nog van de uitgang bent. Maar in zo'n groot web is het moeilijk om de perfecte kaart te tekenen zonder het hele web eerst te verkennen.

2. De Oplossing: De "Stroom" van de Rivier

De auteurs van dit paper gebruiken een heel ander idee. In plaats van te kijken naar de afstand, kijken ze naar een rivier (de "flow").

  • De Rivier: Stel je voor dat er een rivier stroomt door je labyrint. De rivier begint bij de uitgang (de oplossing) en stroomt terug naar waar je nu bent.
  • De Regels: Normaal gesproken kan een rivier overal naartoe stromen, ook in kringen of doodlopende wegen. Maar de auteurs hebben een speciale regel bedacht: "De rivier moet zo kort mogelijk zijn."

Ze hebben bewezen dat als je deze regel streng toepast (de "stroom minimaliseert"), de rivier alleen de kortste, meest rechtstreekse weg neemt. Alle andere wegen, die langer zijn of in kringen lopen, drogen gewoon op. De rivier stroomt dan uitsluitend over het kortste pad.

3. Hoe werkt het in de praktijk? (De Omgekeerde Reis)

Dit is het meest creatieve deel van hun methode. Ze trainen de computer niet om van A naar B te gaan, maar van B naar A.

  • De Backward Policy (Terugwaartse Politie): De AI leert hoe je vanuit de oplossing (de opgeloste kubus) terug kunt gaan naar een willekeurige, rommelige stand. Maar niet zomaar terug: de AI leert om altijd de kortste weg terug te nemen.
  • De Forward Policy (Voorwaartse Politie): Dit is de tegenhanger. Als de AI weet hoe je terug moet gaan via de kortste weg, weet hij automatisch ook hoe je de kortste weg naar de oplossing vindt.

Het is alsof je een kaart tekent door te kijken hoe je vanuit de finish terugloopt naar de start, maar dan zo snel mogelijk. Als je die terugweg perfect kent, weet je ook de perfecte voorwaartse weg.

4. Waarom is dit zo slim? (De "Flow Regularization")

In de wiskunde van deze paper gebruiken ze iets dat "flow regularization" heet. In onze metafoor is dit als het geven van een beloning aan de rivier als hij kort blijft, en een boete als hij te lang duurt of in een kring loopt.

Door deze boete (de regularisatie) te maximaliseren, dwingen ze de AI om alle lange, inefficiënte paden te negeren. De AI leert dan vanzelf: "Ah, als ik hier die draai maak, kom ik in een lange lus terecht. Dat mag niet. Ik moet die andere draai kiezen om kort te blijven."

5. De Resultaten: Sneller en Slimmer

De auteurs hebben dit getest op twee dingen:

  1. Een simpele puzzel (Swap Puzzle): Waar je getallen moet sorteren door ze te verwisselen.
  2. Rubik's Cubes: Zowel de kleine 2x2x2 als de grote 3x3x3.

Wat bleek?

  • Hun methode vond oplossingen die net zo kort waren als de allerbeste methoden die er nu zijn.
  • Het grote voordeel: Ze hadden veel minder "rekenkracht" nodig om die oplossing te vinden. Terwijl andere methoden vaak heel veel mogelijke routes moeten uitproberen (zoals een zoektocht met een hele grote net), kon hun AI met een heel klein net (een kleine "beam search") al de perfecte route vinden.

Samenvattend

Stel je voor dat je een robot wilt leren een labyrint te doorlopen.

  • Oude manier: "Hier is een kaart, probeer elke weg uit en onthoud welke het snelst is." (Duur en traag).
  • Deze nieuwe manier: "Stel je voor dat je een rivier bent die vanuit de uitgang terugstroomt. Je mag alleen stromen als je de kortste weg neemt. Als je in een kring loopt, droog je op."

Door deze regel te volgen, leert de robot vanzelf de perfecte, kortste route, zonder dat hij het hele labyrint eerst hoeft te verkennen. Het is een elegante manier om de kunst van het "kortste pad vinden" te vertalen naar een wiskundige stroom die zichzelf optimaliseert.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →