VPWEM: Non-Markovian Visuomotor Policy with Working and Episodic Memory

In dit artikel wordt VPWEM voorgesteld, een niet-Markoviaanse visuele beleidsmethode die werkgeheugen en een Transformer-gebaseerd episodisch geheugen combineert om robotmanipulatie taken met lange termijn geheugenvereisten efficiënter op te lossen dan bestaande methoden.

Yuheng Lei, Zhixuan Liang, Hongyuan Zhang, Ping Luo

Gepubliceerd 2026-03-06
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt leren om een complexe taak uit te voeren, zoals een bord uit de afwasmachine halen en het op een tafel zetten. Dit klinkt simpel, maar voor een robot is het een nachtmerrie zonder geheugen.

De meeste huidige robots werken als een goudvis: ze zien alleen wat er nu voor hun neus gebeurt. Als ze een minuut geleden een rode beker hebben gezien, en die is nu uit beeld, is voor de robot alsof die beker nooit heeft bestaan. Ze vergeten alles wat niet direct in hun "kijkvenster" past. Dit heet een niet-Markoviaans probleem: je kunt de toekomst niet voorspellen als je de vergeten verleden niet kent.

De auteurs van dit paper, VPWEM, hebben een slimme oplossing bedacht die het menselijk brein nabootst. Ze noemen hun systeem VPWEM (Visuomotor Policy with Working and Episodic Memory). Laten we het uitleggen met een paar creatieve metaforen.

1. Het probleem: De "Goudvis" vs. De "Mens"

Stel je voor dat je een robot een spelletje "Schelpen en de Bal" laat spelen.

  • De robot (oude methode): De robot kijkt naar de tafel. Hij ziet drie lege schelpen. Hij weet niet welke schelp de bal bedekt, omdat die bal een seconde geleden onder een schelp zat die nu uit beeld is. De robot raakt in paniek en maakt een willekeurige gok. Hij faalt.
  • De mens: Jij ziet de drie schelpen, maar je onthoudt dat je de bal onder de middelste schelp hebt zien schuiven. Je gebruikt je geheugen om de juiste keuze te maken.

Het probleem is dat als je de robot gewoon "meer geheugen" geeft (bijvoorbeeld door hem te laten kijken naar de laatste 100 beelden), zijn brein (de computer) te traag wordt en te veel energie verbruikt. Het is alsof je probeert een heel boek in je hoofd te houden terwijl je tegelijkertijd een zware koffer draagt; je zakt eronder door.

2. De oplossing: Twee soorten geheugen

VPWEM lost dit op door twee soorten geheugen te creëren, net zoals wij mensen:

A. Werkgeheugen (Working Memory) – Het "Bordje op het aanrecht"

Dit is het korte-termijn geheugen. Stel je een klein bordje voor op het aanrecht waar je de laatste paar stappen noteert die je net hebt gedaan.

  • In het systeem is dit een schuifraam van de laatste paar beelden.
  • De robot kijkt hier direct naar om te weten wat er nu gebeurt.
  • Dit is snel en makkelijk, maar het is klein. Als er te veel gebeurt, vallen oude dingen eraf.

B. Episodisch Geheugen (Episodic Memory) – De "Samenvatting in een notendop"

Dit is het lange-termijn geheugen. In plaats van dat de robot elke oude foto van de afgelopen uur bewaart (wat te veel ruimte kost), gebruikt hij een slimme samenvatter.

  • Stel je voor dat je een dagboek bijhoudt. In plaats van elke seconde op te schrijven "ik ademde, ik ademde, ik ademde", schrijf je aan het einde van de dag: "Ik heb een rustige wandeling gemaakt."
  • VPWEM heeft een Compressor (een slimme AI-assistent). Zodra een beeld uit het korte-termijn venster valt, pakt deze compressor het, kijkt er naar, en verpakt de belangrijkste informatie in één klein, krachtig "geheugentje" (een token).
  • Deze "geheugentjes" worden opgeslagen in een Episodisch Geheugen. Het is alsof je een heel lang verhaal samenvat tot een paar kernwoorden die je altijd bij je draagt.

3. Hoe werkt het samen?

Wanneer de robot een beslissing moet nemen (bijvoorbeeld: "Welke schelp moet ik optillen?"), doet hij twee dingen tegelijk:

  1. Hij kijkt naar het Bordje op het aanrecht (Werkgeheugen) om te zien wat er nu gebeurt.
  2. Hij bladt door zijn Samenvattingen (Episodisch Geheugen) om te herinneren wat er eerder is gebeurd.

Door deze twee te combineren, kan de robot een taak uitvoeren die minutenlang duurt, zonder dat zijn computer "vol" raakt of te langzaam wordt.

4. Waarom is dit zo goed?

De onderzoekers hebben dit getest op robots die moeilijke taken moesten doen, zoals het onthouden van de kleur van een blokje dat lang geleden is gezien, of het navigeren door een keuken.

  • Resultaat: De robots met VPWEM waren 20% tot 50% succesvoller dan de beste robots van nu.
  • Efficiëntie: In plaats van dat de robot trager werd naarmate de taak langer duurde, bleef hij even snel. Het is alsof je een auto hebt die niet langzamer rijdt hoe meer bagage je meeneemt, omdat je slimme tassen hebt die alles in elkaar vouwen.

Samenvatting in één zin

VPWEM is een robotbrein dat niet alles onthoudt (want dat is te traag), maar wel een slimme samenvatting maakt van het verleden, zodat hij net zo goed kan plannen als een mens, maar zonder dat zijn computer vastloopt.

Het is de overgang van een robot die zegt: "Ik zie alleen wat er nu is," naar een robot die zegt: "Ik zie wat er nu is, en ik weet nog precies wat er een uur geleden gebeurde, dus ik weet wat ik moet doen."