Contextual Latent World Models for Offline Meta Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

De Kern: Een slimme robot die "in één oogopslag" leert

Stel je voor dat je een robot wilt trainen om verschillende taken te doen, zoals een auto besturen, een bal gooien of een deur openen. Normaal gesproken moet je de robot voor elke taak opnieuw urenlang laten oefenen. Dat is duur en tijdrovend.

Offline Meta-Leren is de poging om een robot slim genoeg te maken om dit allemaal te leren van een grote stapel oude video's (data) die al zijn opgenomen, zonder dat de robot zelf nog hoeft te oefenen in de echte wereld.

Het probleem? Als je de robot een nieuwe taak geeft (bijvoorbeeld: "rij nu sneller" in plaats van "rij langzaam"), faalt hij vaak. Hij weet niet waarom de situatie anders is. Hij heeft geen "context" of "achtergrondkennis".

De Oplossing: De "Context-Latente Wereldmodellen" (SPC)

De auteurs van dit papier hebben een nieuwe methode bedacht, genaamd SPC. Om dit te begrijpen, gebruiken we een analogie met een grootmeester in schaken.

1. Het oude probleem: Alleen kijken, niet begrijpen

Stel je voor dat je een schaker bent die duizenden partijen heeft gezien. Als je een nieuwe partij begint, probeer je te onthouden: "Oh, deze opening lijkt op die ene partij van gisteren."

Hoe het nu vaak werkt: De robot probeert te onthouden hoe de beelden eruit zagen (de stukken op het bord). Maar als de tegenstander een ander type speler is (een andere "taak"), werkt dit niet goed. De robot ziet de beelden, maar begrijpt de regels van die specifieke speler niet.

2. De nieuwe methode: Het "Wereldmodel"

De auteurs zeggen: "Laten we de robot niet alleen de beelden laten onthouden, maar laten we hem een intern model van de wereld laten bouwen."

De Analogie van de Reisgids:
Stel je voor dat je in een vreemd land bent. Je hebt een kaart (de data).
- Oude methode: Je probeert elk straatje uit je hoofd te leren. Als je naar een nieuw stadje gaat, ben je verdwaald.
- Nieuwe methode (SPC): Je leert een reisgids (het context encoder) die je vertelt: "Ah, we zijn in een bergdorp. Hier is de weg steil en de wegen zijn smal."
- De robot leert nu niet alleen wat hij ziet, maar hoe de wereld werkt in dat specifieke dorp.

3. De Magie: "Tijdsconsistentie" (De tijdreis)

Dit is het belangrijkste nieuwe idee in het papier.
Stel je voor dat je een film kijkt. Als je een scène ziet, kun je voorspellen wat er in de volgende scène gebeurt.

De truc: De robot leert een latente wereld (een soort samenvatting van de werkelijkheid). Hij probeert niet om de originele beelden perfect na te tekenen (zoals een fotograaf), maar hij probeert te voorspellen: "Als ik nu deze actie doe, wat zal de volgende samenvatting van de wereld eruitzien?"

Als de robot dit goed doet, moet hij per definitie begrijpen wat de regels van de huidige taak zijn.

Als de taak is "rijden op ijs", dan is de "volgende wereldtoestand" na een bocht heel anders dan bij "rijden op asfalt".
Door te oefenen in het voorspellen van de toekomst (tijdconsistentie), leert de robot onbewust de onderliggende regels van de taak.

Waarom werkt dit beter?

De auteurs vergelijken hun methode met andere methoden die proberen de robot te laten "onderscheiden" tussen taken (zoals een leraar die zegt: "Dit is taak A, dit is taak B").

Andere methoden: Proberen de robot te leren: "Dit is een auto, dat is een boot." (Klassificatie).
Deze methode (SPC): Zegt: "Als je in een boot zit en je draait het roer, dan beweegt het schip langzaam. Als je in een auto zit, beweeg je snel. Voorspel de toekomst."

Door te focussen op het voorspellen van de toekomst, leert de robot automatisch de essentie van de taak. Het is alsof je een kind leert zwemmen niet door te zeggen "dit is water", maar door te zeggen "als je hier trapt, ga je omhoog".

De Resultaten in het Kort

De robot met deze nieuwe "reisgids" en "toekomstvoorspeller":

Leert sneller: Hij heeft minder voorbeelden nodig om een nieuwe taak te begrijpen.
Werkt beter op onbekende taken: Als je hem een taak geeft die hij nog nooit heeft gezien (maar wel lijkt op wat hij kent), past hij zich veel beter aan dan robots die alleen op oude methoden vertrouwen.
Begrijpt de dynamiek: Hij weet niet alleen wat er gebeurt, maar waarom het gebeurt (bijvoorbeeld: "deze robot is zwaarder" of "deze grond is glad").

Conclusie

In plaats van een robot te trainen om te "kijken" naar beelden, trainen ze hem om een intern model te bouwen van hoe de wereld werkt in verschillende situaties. Door te oefenen in het voorspellen van de toekomst, leert de robot vanzelf de "geheime regels" van elke nieuwe taak. Hierdoor wordt hij een echte allround speler die zich snel aanpast aan elke nieuwe uitdaging, zelfs zonder extra oefening in de echte wereld.

Each language version is independently generated for its own context, not a direct translation.

1. Probleemstelling

Het paper adresseert een fundamenteel probleem in Reinforcement Learning (RL): generalisatie. Een beleid (policy) dat is getraind op één taak, presteert vaak slecht wanneer het wordt toegepast op een gerelateerde maar onzichtbare taak.

Meta-RL lost dit op door te trainen op een distributie van taken, maar de meeste methoden vereisen online interactie, wat in de echte wereld duur of onhaalbaar is.
Offline Meta-RL (OMRL) probeert dit op te lossen door te leren van vaste datasets zonder extra omgeving-interactie.
De uitdaging: Bestaande context-gebaseerde OMRL-methoden gebruiken vaak contrastief leren om een "taakrepresentatie" (task representation) te leren uit transities. Dit leert echter voornamelijk om taken van elkaar te onderscheiden, maar faalt vaak om de onderliggende dynamica en beloningsfuncties van de taak te modelleren. Hierdoor zijn de geleerde representaties niet expressief genoeg voor goede generalisatie, vooral bij lange horizon taken.

2. Methodologie: SPC (Self-Predictive Contextual OMRL)

De auteurs introduceren SPC, een methode die context-encodering combineert met Latente Wereldmodellen (Latent World Models). In plaats van observaties te reconstrueren, leert het model voorspellende structuren in een latente ruimte.

Kerncomponenten:

Context Encoder ( $E_\theta$ ):
- Maakt een reeks transities (context) om naar een latente taakrepresentatie $z$ .
- Deze $z$ fungeert als een impliciete taak-ID zonder dat expliciete labels nodig zijn.
Discrete Latente Wereldmodel:
- Observatie-encoder: Maakt observaties $s_t$ om naar continue latente toestanden, die vervolgens worden gediskretiseerd via Finite Scalar Quantization (FSQ) naar discrete codes $c_t$ .
- Dynamica en Beloning: Een wereldmodel ( $D_\phi$ en $R_\phi$ ) voorspelt de volgende latente code $c_{t+1}$ en de beloning $r_t$ , geconditioneerd op de huidige actie $a_t$ , de huidige latente staat $c_t$ en de taakrepresentatie $z$ .
Trainingsdoelstellingen (Joint Training):
- Temporale Consistentie (Self-Predictive Loss): Het model wordt getraind om toekomstige latente toestanden en beloningen te voorspellen. Dit dwingt de context-encoder om een $z$ te leren dat essentieel is voor het voorspellen van de dynamica van die specifieke taak.
- Contrastief Leren (InfoNCE Loss): Wordt toegevoegd om ervoor te zorgen dat representaties van dezelfde taak dicht bij elkaar liggen en die van verschillende taken ver uit elkaar.
- Offline Policy Optimalisatie: Na het leren van de representaties wordt een beleid getraind met Implicit Q-Learning (IQL) in de latente ruimte, gebruikmakend van de discrete codes $c_t$ en de taakrepresentatie $z$ .

Belangrijkste Innovatie:

In tegenstelling tot eerdere werken die wereldmodellen en context-encoding los van elkaar trainen (of alleen reconstrueren), traint SPC ze gezamenlijk. De wereldmodel-loss (temporale consistentie) fungeert als een sterk zelftoezichtsignaal dat de context-encoder dwingt om de dynamische variatiefactoren van de taak te vangen, in plaats van alleen statistische verschillen.

3. Belangrijkste Bijdragen

Temporale Consistentie voor Taakinferentie: De auteurs tonen aan dat het afdwingen van latente temporale consistentie tijdens het coderen van de context leidt tot taakrepresentaties die taakvariatiefactoren effectiever vangen dan methoden gebaseerd op reconstructie.
Theoretische Analyse: Ze bieden een formele foutbound voor de waarde-schatting. Deze analyse toont aan dat nauwkeurige controle mogelijk is zonder observaties te reconstrueren, zolang de geleerde representaties $(c, z)$ voldoende informatie behouden voor voorspellende controle. De fout wordt opgesplitst in abstractie-fout, wereldmodel-fout en taakinferentie-fout.
Uitgebreide Empirische Evaluatie: De methode is getest op drie benchmarks: MuJoCo, Contextual DeepMind Control (DMC) en Meta-World. SPC overtreft state-of-the-art methoden (zoals FOCAL, DORA, CSRO, UNICORN) significant in few-shot en zero-shot generalisatie.

4. Resultaten

Generalisatie: SPC toont superieure prestaties bij het aanpassen aan onzichtbare taken (both in-distribution en out-of-distribution). Bijvoorbeeld, in Meta-World ML10 en ML45 bereikt SPC hogere succespercentages dan baselines.
Kwaliteit van Representatie:
- Disentanglement: Metingen (DCI, InfoMEC) tonen aan dat SPC taakvariatiefactoren (zoals snelheid en morfologie) beter ontkoppelt dan reconstructiemethoden.
- Robuustheid: SPC vermindert het fenomeen van "dormant neurons" (dode neuronen) en behoudt een hogere matrixrang, wat wijst op meer expressieve en diverse features.
Ablatie Studies:
- Het gebruik van een discrete latente ruimte met cross-entropy loss (in plaats van regressie) bleek cruciaal voor de prestaties.
- Het combineren van wereldmodel-loss en contrastief loss gaf de beste resultaten; alleen contrastief leren was onvoldoende voor taken waar de dynamica verschilt.
- SPC schaalt beter met modelgrootte dan bestaande methoden.

5. Significatie

Dit paper is significant omdat het een brug slaat tussen twee eerder gescheiden onderzoeksvelden: context-based offline meta-RL en self-predictive latent world models.

Het demonstreert dat voorspellende latent representaties voldoende zijn voor generalisatie in offline meta-RL, zonder de noodzaak van zware observatie-reconstructie.
Het biedt een principieel kader waarbij de taakrepresentatie niet alleen dient als een "label", maar als een noodzakelijke variabele om de onderliggende dynamica van de omgeving te modelleren.
De methode is computatie-efficiënt genoeg voor praktische toepassing en lost het probleem van generalisatie op in omgevingen waar online datacollectie onmogelijk is.

Kortom, SPC bewijst dat het gezamenlijk leren van een wereldmodel en een context-encoder via zelftoezicht (self-supervision) leidt tot robuustere, meer expressieve taakrepresentaties en superieure generalisatie in complexe, multi-taak omgevingen.