VPWEM: Non-Markovian Visuomotor Policy with Working and Episodic Memory

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt leren om een complexe taak uit te voeren, zoals een bord uit de afwasmachine halen en het op een tafel zetten. Dit klinkt simpel, maar voor een robot is het een nachtmerrie zonder geheugen.

De meeste huidige robots werken als een goudvis: ze zien alleen wat er nu voor hun neus gebeurt. Als ze een minuut geleden een rode beker hebben gezien, en die is nu uit beeld, is voor de robot alsof die beker nooit heeft bestaan. Ze vergeten alles wat niet direct in hun "kijkvenster" past. Dit heet een niet-Markoviaans probleem: je kunt de toekomst niet voorspellen als je de vergeten verleden niet kent.

De auteurs van dit paper, VPWEM, hebben een slimme oplossing bedacht die het menselijk brein nabootst. Ze noemen hun systeem VPWEM (Visuomotor Policy with Working and Episodic Memory). Laten we het uitleggen met een paar creatieve metaforen.

1. Het probleem: De "Goudvis" vs. De "Mens"

Stel je voor dat je een robot een spelletje "Schelpen en de Bal" laat spelen.

De robot (oude methode): De robot kijkt naar de tafel. Hij ziet drie lege schelpen. Hij weet niet welke schelp de bal bedekt, omdat die bal een seconde geleden onder een schelp zat die nu uit beeld is. De robot raakt in paniek en maakt een willekeurige gok. Hij faalt.
De mens: Jij ziet de drie schelpen, maar je onthoudt dat je de bal onder de middelste schelp hebt zien schuiven. Je gebruikt je geheugen om de juiste keuze te maken.

Het probleem is dat als je de robot gewoon "meer geheugen" geeft (bijvoorbeeld door hem te laten kijken naar de laatste 100 beelden), zijn brein (de computer) te traag wordt en te veel energie verbruikt. Het is alsof je probeert een heel boek in je hoofd te houden terwijl je tegelijkertijd een zware koffer draagt; je zakt eronder door.

2. De oplossing: Twee soorten geheugen

VPWEM lost dit op door twee soorten geheugen te creëren, net zoals wij mensen:

A. Werkgeheugen (Working Memory) – Het "Bordje op het aanrecht"

Dit is het korte-termijn geheugen. Stel je een klein bordje voor op het aanrecht waar je de laatste paar stappen noteert die je net hebt gedaan.

In het systeem is dit een schuifraam van de laatste paar beelden.
De robot kijkt hier direct naar om te weten wat er nu gebeurt.
Dit is snel en makkelijk, maar het is klein. Als er te veel gebeurt, vallen oude dingen eraf.

B. Episodisch Geheugen (Episodic Memory) – De "Samenvatting in een notendop"

Dit is het lange-termijn geheugen. In plaats van dat de robot elke oude foto van de afgelopen uur bewaart (wat te veel ruimte kost), gebruikt hij een slimme samenvatter.

Stel je voor dat je een dagboek bijhoudt. In plaats van elke seconde op te schrijven "ik ademde, ik ademde, ik ademde", schrijf je aan het einde van de dag: "Ik heb een rustige wandeling gemaakt."
VPWEM heeft een Compressor (een slimme AI-assistent). Zodra een beeld uit het korte-termijn venster valt, pakt deze compressor het, kijkt er naar, en verpakt de belangrijkste informatie in één klein, krachtig "geheugentje" (een token).
Deze "geheugentjes" worden opgeslagen in een Episodisch Geheugen. Het is alsof je een heel lang verhaal samenvat tot een paar kernwoorden die je altijd bij je draagt.

3. Hoe werkt het samen?

Wanneer de robot een beslissing moet nemen (bijvoorbeeld: "Welke schelp moet ik optillen?"), doet hij twee dingen tegelijk:

Hij kijkt naar het Bordje op het aanrecht (Werkgeheugen) om te zien wat er nu gebeurt.
Hij bladt door zijn Samenvattingen (Episodisch Geheugen) om te herinneren wat er eerder is gebeurd.

Door deze twee te combineren, kan de robot een taak uitvoeren die minutenlang duurt, zonder dat zijn computer "vol" raakt of te langzaam wordt.

4. Waarom is dit zo goed?

De onderzoekers hebben dit getest op robots die moeilijke taken moesten doen, zoals het onthouden van de kleur van een blokje dat lang geleden is gezien, of het navigeren door een keuken.

Resultaat: De robots met VPWEM waren 20% tot 50% succesvoller dan de beste robots van nu.
Efficiëntie: In plaats van dat de robot trager werd naarmate de taak langer duurde, bleef hij even snel. Het is alsof je een auto hebt die niet langzamer rijdt hoe meer bagage je meeneemt, omdat je slimme tassen hebt die alles in elkaar vouwen.

Samenvatting in één zin

VPWEM is een robotbrein dat niet alles onthoudt (want dat is te traag), maar wel een slimme samenvatting maakt van het verleden, zodat hij net zo goed kan plannen als een mens, maar zonder dat zijn computer vastloopt.

Het is de overgang van een robot die zegt: "Ik zie alleen wat er nu is," naar een robot die zegt: "Ik zie wat er nu is, en ik weet nog precies wat er een uur geleden gebeurde, dus ik weet wat ik moet doen."

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "VPWEM: Non-Markovian Visuomotor Policy with Working and Episodic Memory" in het Nederlands.

1. Het Probleem

Imitatielearning (leren door demonstratie) heeft grote successen geboekt in robotbesturing, maar de meeste bestaande visuele motorische beleidsplannen (policies) hebben een fundamenteel tekort: ze zijn Markoviaans of werken met zeer korte contextvensters (bijv. 2 tot 10 stappen).

Niet-Markoviaanse taken: Veel robottaken in de echte wereld vereisen langetermijngeheugen vanwege sensorbeperkingen, omgevingsstochasticiteit en complexe taken met meerdere subdoelen. Een beleidsplanning die alleen kijkt naar de huidige observatie of een korte geschiedenis, faalt hier vaak omdat het de lange-termijn tijdsafhankelijkheden niet kan vastleggen.
Beperkingen van huidige oplossingen:
- Het simpelweg vergroten van het contextvenster leidt tot kwadratische rekentijd ( $O(L^2)$ ) en hoge geheugeneisen, wat onhaalbaar is voor real-time systemen.
- Het conditioneren op een lange, ruwe geschiedenis zonder compressie leidt vaak tot "causale verwarring" (causal confusion) en het "copycat-probleem", waarbij de agent afhankelijk wordt van irrelevante variabelen in de geschiedenis en faalt bij distributieveranderingen.

2. Methodologie: VPWEM

De auteurs stellen VPWEM (Visuomotor Policy with Working and Episodic Memory) voor. Dit is een framework dat robotbeleid verrijkt met twee soorten geheugen, geïntegreerd in een Diffusion Policy (een populair model voor actiegeneratie).

A. Architectuur

Het framework bestaat uit drie hoofdcomponenten:

Werkgeheugen (Working Memory):
- Een glijdend venster van recente observatie-tokens (bijv. de laatste $L$ frames).
- Dit fungeert als kortetermijngeheugen voor directe context, vergelijkbaar met bestaande methoden, maar met een vast formaat om rekentijd te beperken.
Episodisch Geheugen (Episodic Memory):
- Dit is de kerninnovatie. Observaties die het werkgeheugen-venster verlaten, worden niet weggegooid, maar gecomprimeerd.
- Een Contextual Memory Compressor (gebaseerd op een Transformer-architectuur) verwerkt deze "out-of-window" tokens.
- Compressieproces: De compressor gebruikt een cache van historische observaties en een cache van samenvattende tokens. Via een zelf-attentie mechanisme (over samenvattingen) en kruis-attentie (over historische observaties) worden de lange geschiedenis-gegevens recursief omgezet in een vast aantal episodische memory tokens.
- Dit proces is analoog aan de rol van de hippocampus in het menselijk brein, die kortetermijngeheugen omzet in langetermijnopslag.
Actiegeneratie:
- De Diffusion Policy (de "denoiser") wordt getraind om acties te genereren op basis van beide geheugentypes: het werkgeheugen (kortetermijn) en het episodisch geheugen (langetermijn).
- Dit zorgt voor een conditionering op de volledige trajectgeschiedenis zonder dat de rekentijd exponentieel groeit.

B. Training en Inferentie

Training: Het model wordt getraind met een behavior cloning loss. De compressor en het beleid worden gezamenlijk geoptimaliseerd. Om overfitting te voorkomen en geheugen te besparen, worden gradients niet teruggepropageerd door de tijd via de cache; historische informatie wordt uitsluitend doorgegeven via de samenvattende tokens.
Inferentie: Tijdens het uitvoeren van taken worden nieuwe frames gecodeerd en in de cache geplaatst. Zodra een frame het venster verlaat, wordt het gecomprimeerd tot een episodisch token. Het beleid gebruikt vervolgens de huidige werkgeheugen-tokens en de samengevoegde episodische tokens om de volgende actie-chunk te voorspellen.

3. Belangrijkste Bijdragen

Nieuw Framework: VPWEM introduceert een Transformer-based contextuele geheugencompressor die historische tokens recursief comprimeert tot een vast aantal tokens, waardoor dynamische samenvattingen van het volledige traject mogelijk zijn.
Implementatie op Diffusion Policies: De methode is succesvol geïmplementeerd op bestaande Diffusion Policy baselines (DP en MaIL), waarbij de training- en inferentiepijplijnen zijn herontworpen om zowel kort- als langetermijncontext te benutten.
Empirisch Bewijs: Uitgebreide experimenten tonen aan dat het framework de prestaties aanzienlijk verbetert bij geheugenintensieve taken, terwijl het prestaties op Markoviaanse taken behoudt (gelijk aan baselines).

4. Resultaten

De auteurs hebben hun methode getest op drie benchmarks:

MIKASA (Geheugen-intensieve manipulatie):
- VPWEM presteerde meer dan 20% beter dan state-of-the-art baselines (inclusief Vision-Language-Action modellen zoals Octo, OpenVLA en MemoryVLA) op taken die geheugen vereisen (bijv. het onthouden van de positie van een bal onder een kopje).
MoMaRT (Mobiele manipulatie):
- Op deze benchmark met lange-horizont taken werd een gemiddelde verbetering van 5% behaald ten opzichte van baselines.
- Belangrijk: VPWEM behaalde een succespercentage van 58,3%, terwijl het vergroten van het contextvenster bij bestaande methoden (DP-PTP) leidde tot een daling van de prestaties en een enorme toename in rekentijd. VPWEM hield de rekentijd en het geheugengebruik laag.
Robomimic (Bijna Markoviaans):
- Op deze benchmark, waar geheugen minder kritiek is, presteerde VPWEM op gelijke hoogte met de baselines, wat aantoont dat de toegevoegde geheugenmodule geen negatieve impact heeft op eenvoudige taken.

Efficiëntie: In tegenstelling tot het simpelweg vergroten van het contextvenster (wat de inferentietijd en GPU-geheugen drastisch verhoogt), voegt VPWEM slechts een lichte overhead toe (ongeveer 2,24M extra parameters) terwijl het de prestaties verbetert.

5. Betekenis en Conclusie

VPWEM lost een cruciaal probleem op in robotlearning: hoe om te gaan met non-Markoviaanse taken zonder de rekenkosten onbeheersbaar te maken.

Biologische inspiratie: Het model nabootst het menselijke geheugensysteem (werkgeheugen + langetermijngeheugen) door irrelevante informatie te filteren en essentiële ervaringen te comprimeren.
Praktische toepasbaarheid: Het maakt het mogelijk voor robots om complexe, langdurige taken uit te voeren die vereisen dat ze informatie onthouden die lang geleden is waargenomen, zonder dat dit leidt tot overfitting of vertragingen.
Toekomst: De auteurs zien potentie voor uitbreiding naar andere beleidsarchitecturen, het toevoegen van reconstructiedoelstellingen en de implementatie op fysieke robotsystemen.

Kortom, VPWEM biedt een efficiënte en effectieve oplossing voor het langetermijngeheugenprobleem in imitatielearning, waardoor robots beter bestand zijn tegen complexe, real-world scenario's.