Open-World Reinforcement Learning over Long Short-Term Imagination

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kind bent dat voor het eerst in een enorm, eindeloos bos wordt losgelaten. Je doel is om een hut te bouwen, maar je weet niet waar de bomen staan, waar je water kunt vinden of hoe je een bijl maakt. Je hebt geen kaart, geen instructieboekje en niemand om je te helpen. Je moet alles zelf ontdekken door te proberen, te vallen en weer op te staan.

Dit is precies wat een kunstmatige intelligentie (AI) moet doen in een spel als Minecraft. Het is een "open wereld": alles is mogelijk, maar het is ook overweldigend groot.

Deze paper introduceert een nieuwe manier om deze AI te trainen, genaamd LS-Imagine. Laten we het uitleggen met een paar simpele metaforen.

Het Probleem: De "Kortzichtige" Dromer

Stel je voor dat je een dromer bent die probeert een lange reis te plannen. De meeste AI's die we tot nu toe hebben, zijn als iemand die alleen maar naar de volgende stap kijkt.

Ze denken: "Als ik nu naar links ga, zie ik een boom." -> "Oké, ik ga naar links."
Ze denken: "Als ik nu naar rechts ga, zie ik een rivier." -> "Oké, ik ga naar rechts."

Ze zijn kortzichtig. Ze dromen slechts over wat er in de komende 15 seconden gebeurt. Als het doel (bijvoorbeeld: "bouw een hut") ver weg is, raken ze snel in de war. Ze rennen rondjes, proberen van alles, maar zien het grote plaatje niet. Ze zijn efficiënt in het dromen van de huidige situatie, maar slecht in het plannen van de toekomst.

De Oplossing: LS-Imagine (Lang-Kortetermijn Dromen)

LS-Imagine is als een slimme dromer die twee soorten dromen kan doen:

Korte dromen: Wat gebeurt er als ik nu één stap zet? (Net als de oude AI's).
Lange, "springende" dromen: Wat gebeurt er als ik direct naar die boom in de verte spring, alsof ik in een film een tijdsprong maak?

De kern van deze nieuwe methode is dat de AI niet alleen de kleine stapjes droomt, maar ook grote sprongen in haar verbeelding maakt. Ze kan zich voorstellen: "Als ik nu naar die berg loop, ben ik over 100 stappen bij de mijnen." Ze hoeft die 100 stappen niet één voor één te simuleren; ze springt er direct naartoe in haar hoofd.

Hoe werkt dit "Springen"? (De Magische Loupe)

Hoe weet de AI nu waar ze moet springen? Hier komt het slimme deel: De Affordance-kaart.

Stel je voor dat je door een wazig raam kijkt en je ziet ergens in de verte iets dat op een boom lijkt. Je weet niet zeker of het een boom is.

De oude AI zou willekeurig rondlopen.
De LS-Imagine AI pakt een magische loep. Ze zoomt in op verschillende plekken in het beeld. Ze kijkt heel dichtbij naar een stukje bos, dan naar een stukje rivier.

Terwijl ze inzoomt, vraagt ze zichzelf af: "Als ik hier naartoe zou gaan, zou ik dan dichter bij mijn doel komen?"

Als ze inzoomt op een boom en denkt: "Ja! Als ik daar ben, heb ik hout!", dan krijgt dat stukje van het beeld een hoog scorentje.
Als ze inzoomt op een rots en denkt: "Nee, daar is niets van belang", dan krijgt het een lage score.

De AI maakt hierdoor een kaartje (een "Affordance-kaart") waarop de plekken met de hoogste scores fel oplichten. Dit is haar kompas.

Het Proces in 3 Stappen

De Zoom-in: De AI kijkt naar het scherm, zoomt virtueel in op verschillende plekken (alsof ze met een loep door het landschap loopt) en vraagt zich af: "Is dit nuttig voor mijn opdracht?"
De Sprong: Als ze ziet dat er ergens een fel oplichtend punt is (bijvoorbeeld een boom ver weg), zegt ze: "Ik ga niet stap voor stap lopen. Ik spring in mijn verbeelding direct naar die boom." Ze simuleert de staat na die lange reis in één keer.
De Leerervaring: Omdat ze in één keer de lange reis heeft "gedroomd", leert ze veel sneller dat "naar die boom gaan" een goed idee is. Ze hoeft niet duizenden keren te vallen om te leren dat de boom ver weg is.

Waarom is dit zo goed?

In de echte wereld (en in Minecraft) zijn taken vaak moeilijk omdat het doel ver weg is.

Oude methode: "Ik loop, loop, loop... oh, ik ben nog steeds niet bij de boom. Misschien moet ik naar links? Of rechts?" (Dit kost veel tijd en energie).
Nieuwe methode (LS-Imagine): "Ik zie de boom ver weg. Ik spring er in mijn hoofd naartoe. Oké, nu weet ik dat ik in die richting moet gaan."

Dit maakt de AI veel slimmer in het plannen en veel sneller in het leren. Ze wordt niet meer "kortzichtig", maar kijkt ver vooruit, zonder dat ze de tussenliggende stappen hoeft te simuleren.

Conclusie

De auteurs van dit onderzoek hebben een manier bedacht om AI's te laten dromen over de lange termijn, terwijl ze toch de kleine details niet vergeten. Door te "zoomen" in hun verbeelding en grote sprongen te maken naar doelen, leren ze veel sneller hoe ze de open wereld kunnen doorzoeken.

Het is alsof je een kind leert lopen, maar in plaats van alleen te zeggen "zet één voet voor de andere", je ook zegt: "Kijk, daar is de ijskraam! Laten we daarheen springen in onze fantasie, zodat we weten dat we in die richting moeten lopen." Zo wordt de reis naar het doel veel efficiënter.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Het trainen van visuele reinforcement learning (RL) agenten in een hoogdimensionale open wereld (zoals Minecraft) brengt aanzienlijke uitdagingen met zich mee. Hoewel model-based RL (MBRL) methoden, zoals DreamerV3, de sample-efficiëntie hebben verbeterd door interactieve wereldmodellen te leren, blijken deze agenten vaak "kortzichtig" (short-sighted).

Korte horizon: Bestaande methoden trainen voornamelijk op korte snippets van verbeelde ervaringen (vaak slechts 15 tijdstappen).
Exploratie-efficiëntie: In een enorme staatruimte is het moeilijk om langdurige beloningen te bereiken zonder effectieve langetermijnplanning.
Onzekerheid: De agent heeft geen toegang tot de interne staten van de omgeving en moet werken met ruwe beelden, wat leidt tot aanzienlijke perceptuele onzekerheid.

De kernuitdaging is dus hoe men de exploratie-efficiëntie kan verbeteren over een enorme staatruimte, met name voor taken die langetermijnbeloningen vereisen.

Methodologie: LS-Imagine

Het paper introduceert LS-Imagine (Long Short-Term Imagination), een nieuwe MBRL-methode die de verbeeldingshorizon uitbreidt binnen een beperkt aantal statetransitiestappen. De kernidee is om de agent in staat te stellen gedrag te verkennen dat potentieel leidt tot veelbelovende langetermijnfeedback, zonder dat er continu één-stapsvoorspellingen hoeven te worden gedaan.

De architectuur bestaat uit de volgende sleutelcomponenten:

1. Affordance Maps en Intrinsieke Beloning

Om de exploratie te sturen, genereert het systeem affordance maps (kaarten die aangeven welke delen van een beeld relevant zijn voor een specifieke taak).

Virtuele Exploratie: In plaats van echte successvolle trajecten te wachten, simuleert het systeem een "zoom-in" op afzonderlijke beelden. Een schuivend kader scant het beeld en creëert virtuele videoframes die lijken op het naderen van een doel.
MineCLIP Integratie: Deze virtuele video's worden vergeleken met de tekstuele taakinstructie (bijv. "hak een boom") met behulp van het MineCLIP-model om correlatiescores te berekenen.
Snelheid: Omdat dit proces berekeningsintensief is, wordt een Multimodal U-Net getraind om deze affordance maps snel te genereren op basis van observaties en tekst.
Intrinsieke Beloning: Een intrinsieke beloningsfunctie wordt afgeleid van de affordance map. Deze beloning moedigt de agent aan om zich te bewegen naar gebieden met hoge relevantie voor de taak, waarbij het doel centraal in het beeld moet komen te staan.

2. Wereldmodel met "Jumping" (Springende) Transities

Het wereldmodel heeft twee takken: een kortetermijn-tak (standaard één-stapsvoorspelling) en een langetermijn-tak (voorspelling van een "springende" transitie).

Jumping Flag ( $j_t$ ): Het model bepaalt dynamisch of een "spring" nodig is. Dit gebeurt op basis van de kurtosis van de affordance map. Als er een duidelijk hoogwaardig doel op afstand is (hoge piek in de map), schakelt het model over naar een langetermijnvoorspelling.
Jumpy State Transities: In plaats van stap voor stap te simuleren, voorspelt het model direct een toekomstige staat ( $s_{t+H}$ ) die dicht bij het doel ligt. Het model voorspelt ook het aantal stappen ( $\Delta_t$ ) en de cumulatieve beloning ( $G_t$ ) die nodig zijn om deze sprong te maken.
Training: Het model wordt getraind op een mix van korte transities en deze "gesprongen" transities, waarbij de langetermijn-tak specifieke branches gebruikt om deze langere intervallen te modelleren.

3. Gedragslernen (Behavior Learning)

De agent gebruikt een Actor-Critic algoritme dat werkt op een gemengde reeks van verbeeldingen (kort- en langetermijn).

Gemengde Horizon: Tijdens het plannen in de "droom" (imagination) schakelt de agent dynamisch tussen korte stappen en lange sprongen, afhankelijk van de voorspelde jump flag.
Optimalisatie: De Actor wordt geoptimaliseerd om de totale beloning te maximaliseren. Belangrijk: tijdens een langetermijn-sprong (waarbij geen actie wordt uitgevoerd in de echte wereld) wordt de Actor-update tijdelijk genegeerd voor die specifieke stap, omdat er geen directe actie-afhankelijkheid is.

Belangrijkste Bijdragen

Nieuwe MBRL-methode: Een wereldmodel dat zowel directe als "springende" (jumpy) statetransities kan modelleren en benutten voor efficiëntere exploratie.
Lange-korte termijn wereldmodel: Een architectuur die specifiek is ontworpen om langdurige effecten van gedrag te simuleren zonder iteratieve één-stapsrollouts.
Affordance Map Generatie: Een innovatieve methode om taak-specifieke richtlijnen te genereren via beeldzoom-in en MineCLIP, wat leidt tot een nieuwe vorm van intrinsieke beloning.
Geïntegreerd Gedragslernen: Een verbeterde actor-critic methode die langetermijnwaarden direct integreert in de besluitvorming via een gemengd verbeeldingspad.

Resultaten

De methode is geëvalueerd in de MineDojo-benchmark, een uitdagende open-wereld omgeving met taken zoals "hout oogsten", "water verzamelen" en "ijzer mijnen".

Prestatie: LS-Imagine presteert significant beter dan state-of-the-art methoden zoals DreamerV3, VPT, STEVE-1 en Voyager.
Success Rate: De agent behaalde hogere successpercentages in alle geteste taken (bijv. 80,63% succes voor "hout oogsten" vs. 53,33% voor DreamerV3).
Efficiëntie: De agent voltooide taken met aanzienlijk minder stappen per episode, wat aantoont dat de exploratie efficiënter is.
MineCLIP Score: Agenten getraind met LS-Imagine behaalden hogere MineCLIP-scores, wat aangeeft dat ze sneller taak-relevante visuele doelen detecteren.
Ablatie-studies: Verwijdering van de langetermijnverbeelding of de intrinsieke beloning leidde tot een duidelijke prestatiedaling, wat de noodzaak van beide componenten bevestigt.

Betekenis en Impact

LS-Imagine biedt een doorbraak in het trainen van visuele RL-agenten voor open werelden. Door de beperking van "kortzichtigheid" in bestaande MBRL-methoden op te lossen, stelt het agenten in staat om strategisch te plannen over langere tijdshorizonten.

Generalisatie: De methode werkt puur op ruwe pixels en taakinstructies, zonder toegang tot interne game-API's, wat het zeer robuust maakt voor complexe, onvoorspelbare omgevingen.
Toekomstige Toepassingen: Hoewel de huidige focus ligt op 3D-navigatie (Minecraft), biedt de aanpak een blauwdruk voor het oplossen van problemen met schaarse beloningen in andere domeinen waar langdurige planning vereist is.
Beperkingen: De methode introduceert enige rekenkosten en is momenteel beperkt tot omgevingen waar het doel zichtbaar of afleidbaar is via visuele cues (niet geschikt voor statische camera's of zeer complexe mechanica zoals rijden).

Kortom, LS-Imagine combineert visuele waarneming, semantische begrip (via MineCLIP) en geavanceerde wereldmodellering om agenten "verder te laten kijken" dan de directe toekomst, wat essentieel is voor mensachtige intelligentie in open werelden.