Context and Diversity Matter: The Emergence of In-Context Learning in World Models

Each language version is independently generated for its own context, not a direct translation.

🌍 De Reis van de Slimme Reisgids: Waarom Context en Diversiteit Koning zijn

Stel je voor dat je een reisgids hebt die een stad moet verkennen. Er zijn twee manieren waarop deze gids zijn werk kan doen:

De "Boekjes-Gids" (De oude manier): Deze gids heeft een enorme stapel boeken over specifieke steden. Als hij in Amsterdam komt, pakt hij het boekje over Amsterdam. Komt hij in een stad die er niet in staat? Dan is hij verdwaald en kan hij niets voorspellen. Dit is hoe de meeste huidige AI-modellen werken: ze zijn getraind op specifieke situaties en falen als ze iets nieuws tegenkomen.
De "Levende Reisgids" (De nieuwe manier, zoals in dit paper): Deze gids heeft geen boeken. Hij kijkt gewoon om zich heen, leert van wat hij ziet, en past zich direct aan. Als hij in een nieuwe stad komt, zegt hij: "Ah, hier zijn de straten smal en de huizen hoog, dus ik moet voorzichtig zijn." Hij leert terwijl hij loopt.

Dit paper gaat over hoe we AI-modellen (zogenoemde Wereldmodellen) kunnen leren om die tweede, levende reisgids te worden. De auteurs noemen dit In-Context Learning (ICL).

🧠 Twee Manieren om te Leren: Herkennen vs. Leren

De onderzoekers ontdekten dat er twee manieren zijn waarop een AI een nieuwe omgeving kan begrijpen:

Omgevingsherkenning (Environment Recognition - ER):
- De Analogie: Stel je voor dat je een sleutelbos hebt. Je ziet een deur en denkt: "Ah, dit is de rode deur! Ik heb de rode sleutel." Je gebruikt je geheugen om te weten wat er achter die deur zit.
- Hoe het werkt: De AI kijkt naar de situatie en zegt: "Dit lijkt op situatie X die ik al heb gezien." Hij haalt zijn kennis over situatie X op.
- Het probleem: Als je in een situatie komt die op geen van je oude sleutels lijkt, faalt deze methode.
Omgevingsleren (Environment Learning - EL):
- De Analogie: Je hebt geen sleutelbos. Je loopt door de deur, voelt de muren, ruikt de lucht en zegt: "Oké, ik ben nu hier. Ik leer nu hoe deze specifieke kamer werkt." Je bouwt je kennis op terwijl je er bent.
- Hoe het werkt: De AI gebruikt de recente geschiedenis (de "context") om direct te begrijpen hoe de wereld werkt, zonder te zoeken naar een oude sleutel.
- Het voordeel: Dit werkt zelfs als je in een compleet nieuwe, vreemde wereld terechtkomt.

📏 De Belangrijkste Ontdekkingen

De onderzoekers hebben wiskundig bewezen en in experimenten getoond wat er nodig is om van de "Sleutelbos-methode" (ER) naar de "Levende Leraar-methode" (EL) te gaan:

1. Diversiteit is de Brandstof 🔥

Als je een AI alleen maar laat oefenen op 1 of 2 soorten muren (bijvoorbeeld alleen witte muren), zal hij nooit leren omgaan met een muur van glas of baksteen.

Vergelijking: Als je een kok alleen maar laat koken met aardappelen, wordt hij een aardappel-specialist. Als je hem laat koken met 100 verschillende groenten, leert hij de principes van koken.
Conclusie: Om EL (leren) te laten ontstaan, moet de AI getraind worden op een enorme verscheidenheid aan situaties.

2. De Context is de Lijst 📝

"Context" betekent hier: hoeveel informatie de AI heeft gezien net voor hij een voorspelling doet.

Vergelijking: Als je iemand vraagt om een verhaal te vervolgen, en je geeft hem alleen het woord "De...", kan hij niets zeggen. Geef je hem de eerste 100 pagina's van het boek, dan kan hij perfect voorspellen wat er gebeurt.
Conclusie: De AI heeft een lange "geheugenlijn" nodig. Hij moet veel stappen terug kunnen kijken om patronen te zien. Korte lijnen werken niet voor het leren van nieuwe, complexe wereldregels.

🏗️ De Oplossing: L2World

De auteurs hebben een nieuw model gebouwd, genaamd L2World.

Hoe het werkt: In plaats van zware, trage modellen die elke afbeelding tot in detail proberen te reconstrueren (wat veel rekenkracht kost), maakt L2World slimme, snelle voorspellingen. Het is als een gids die niet elke steen telt, maar wel weet dat als je linksaf slaat, je bij de markt komt.
Het resultaat: In tests met karretjes die op stokken balanceren (Cart-Pole) en robots die door labyrinten lopen, bleek L2World veel beter te zijn in het aanpassen aan nieuwe omgevingen dan bestaande modellen. Het kon zich aanpassen aan zwaartekracht die veranderde of muren die er anders uitzagen, zolang het maar genoeg variatie had gezien en genoeg context kon gebruiken.

🚀 Waarom is dit belangrijk?

Vroeger moesten we AI-modellen opnieuw trainen elke keer dat de wereld veranderde (bijvoorbeeld: een robot die in een fabriek werkt, moet opnieuw leren als de fabriek wordt verbouwd).

Met deze nieuwe inzichten kunnen we AI's bouwen die zichzelf aanpassen.

Stel je een zelfrijdende auto voor die nooit meer een "update" nodig heeft om in een nieuwe stad te rijden. Hij kijkt gewoon om zich heen, leert de verkeersregels van die stad in enkele minuten, en rijdt veilig.
Dit is de stap van "statische kennis" naar "levendige intelligentie".

Samenvatting in één zin

Om AI echt slim en aanpasbaar te maken, moeten we het niet alleen veel laten oefenen, maar het vooral veel verschillende dingen laten zien en het veel tijd en ruimte geven om de context te begrijpen, zodat het niet alleen herinnert, maar echt leert.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Traditionele wereldmodellen (world models) zijn statisch en geoptimaliseerd voor prestaties in zero-shot, few-shot of op het moment van training. Hoewel deze modellen effectief zijn in bekende omgevingen, falen ze vaak wanneer ze geconfronteerd worden met nieuwe, zeldzame of dynamisch veranderende configuraties. In tegenstelling tot biologische systemen (mensen en dieren), die via predictieve codering real-time aanpassingen kunnen maken op basis van waarnemingsfouten, vereisen statische modellen expliciete hertraining om zich aan te passen aan nieuwe omgevingen.

Er is een kloof in het onderzoek naar In-Context Learning (ICL) binnen wereldmodellen. Bestaand onderzoek richt zich voornamelijk op taakherkenning in taalmodellen of eenvoudige regressieproblemen. Het is onduidelijk hoe ICL werkt in complexe, dynamische omgevingen (zoals navigatie of robotbesturing) en welke factoren bepalen of een model leert door context (ICL) of door parametrische geheugenherinnering (In-Weight Learning, IWL).

Methodologie

De auteurs introduceren een theoretisch en empirisch raamwerk om ICL in wereldmodellen te analyseren en te stimuleren.

1. Theoretisch Kader: ER vs. EL
Op basis van de Bayesiaanse hypothese van ICL worden twee mechanismen onderscheiden:

Environment Recognition (ER): Het model gebruikt parametrisch geheugen om de huidige omgeving te identificeren als een van de tijdens het training gezien omgevingen. Het past vervolgens een statisch, omgevingsspecifiek model toe. Dit mechanisme heeft een fundamentele limiet: de fout blijft bestaan als de nieuwe omgeving niet exact overeenkomt met een getrainde omgeving (best-matching error).
Environment Learning (EL): Het model leert de dynamiek van de huidige omgeving direct uit de context (observaties en acties) zonder de omgeving te hoeven identificeren of parametrisch te herinneren. Dit mechanisme schaalbaar met de contextlengte ( $T$ ) en kan zich aanpassen aan volledig nieuwe omgevingen.

2. Theoretische Analyse
De auteurs leiden foutbovengrenzen af voor beide mechanismen. De analyse toont aan dat:

De fout van ER wordt gedomineerd door een niet-verdwijnende term (best-matching error) die afhangt van de diversiteit van de trainingsomgevingen.
De fout van EL daalt met $T^{-1/2}$ (waarbij $T$ de contextlengte is), maar hangt af van de complexiteit van de omgeving.
Conclusie: EL wordt de voorkeursmodus wanneer de omgevingen zeer divers zijn en de contextlengte lang genoeg is. ER domineert bij weinig diversiteit of overtraining op specifieke omgevingen.

3. Model Architectuur: L2World
Om deze theorie te testen, ontwikkelen de auteurs L2World, een wereldmodel ontworpen voor lange contexten:

Efficiëntie: In plaats van zware diffusion-modellen voor elke frame, gebruikt het een lichtgewicht VAE (Variational Autoencoder) om beelden te comprimeren naar een latente ruimte.
Attention Mechanisme: Het model maakt gebruik van Linear Attention lagen met gated slot attention. Dit zorgt voor schaalbaarheid bij lange sequenties (tot 10.000+ stappen) zonder de kwadratische complexiteit van standaard attention.
Training: Het model wordt getraind om de overgang van toestanden te voorspellen op basis van een lange context van eerdere observaties en acties, zonder expliciete reward-modellen.

Experimenten en Resultaten

De auteurs evalueren het model op twee benchmarks: Random Cart-Poles (continu controle) en Procedurally Generated Mazes (visuele navigatie, POMDP).

1. Invloed van Data Distributie (Cart-Pole)

Diversiteit is cruciaal: Modellen getraind op slechts 1 of 4 omgevingen vertonen ER-gedrag (ze falen in ongezette omgevingen). Modellen getraind op duizenden omgevingen (8K Envs) tonen duidelijk EL-gedrag en generaliseren uitstekend naar ongezette omgevingen.
Contextlengte: ICL vereist een lange context om te "leren". Modellen met lange context training presteren pas goed na een bepaalde drempelwaarde van $T$ (bijv. $T > 10$ ), wat bevestigt dat er een leerpunt is dat tijd kost.
Overtraining: Te veel training op een beperkt aantal omgevingen leidt tot over-reliance op IWL (parametrisch geheugen) en vermindert de generalisatiecapaciteit.

2. Navigatie en Generalisatie (Mazes & ProcTHOR)

Prestaties: L2World (getraind op 32K diverse mazes) behaalt state-of-the-art resultaten in het voorspellen van toekomstige frames over lange sequenties (tot 10.000 stappen), zowel in gezien als ongezette mazes.
Vergelijking: Het presteert significant beter dan baselines zoals Dreamer-v3 (LSTM-based) en NWM (Diffusion-based), die moeite hebben met lange sequenties en compound errors oplopen.
Transfer Learning: Een model dat is voorgeïmplementeerd op diverse mazes (EL-modus) transferreert beter naar de complexe ProcTHOR-omgevingen dan modellen die specifiek op ProcTHOR zijn getraind.
Context Sensitiviteit: EL-modellen zijn gevoeliger voor het verstoren van de context (shuffle van observaties) dan ER-modellen, wat bevestigt dat EL afhankelijk is van de sequentiële informatie in de context.

Kernbijdragen

Formalisatie van ICL in Wereldmodellen: Het paper definieert en onderscheidt twee mechanismen: Environment Recognition (ER) en Environment Learning (EL).
Theoretische Foutgrenzen: Afleiding van bovenste foutgrenzen die aantonen dat EL de voorkeur verdient bij hoge omgevingsdiversiteit en lange context, terwijl ER beperkt blijft door de "best-matching error".
L2World Architectuur: Introductie van een efficiënt wereldmodel met lineaire attention dat lange sequenties aankan en state-of-the-art prestaties levert in cross-environment adaptatie.
Empirische Validatie: Bewijs dat diversiteit in trainingsdata en lange contextlengte de sleutelfactoren zijn voor het activeren van echte in-context learning, in plaats van alleen statische parametrische herinnering.

Significantie

Dit werk is van groot belang voor de ontwikkeling van Embodied AI en autonome agenten. Het toont aan dat wereldmodellen niet statisch hoeven te zijn, maar zich dynamisch kunnen aanpassen aan nieuwe omgevingen door gebruik te maken van lange contexten en diverse trainingsdata. Dit benadert de biologische plasticiteit van leren en biedt een pad naar agenten die levenslang kunnen leren zonder constante hertraining. De bevindingen suggereren dat de toekomst van robuuste AI niet ligt in het vergroten van de modelgrootte alleen, maar in het optimaliseren van de data-diversiteit en de architectuur voor lange-termijn contextuele afhankelijkheid.