MEM: Multi-Scale Embodied Memory for Vision Language Action Models

Each language version is independently generated for its own context, not a direct translation.

Stel je een robot voor die net zo slim is als een mens, maar met een heel groot probleem: hij vergeet alles binnen een paar seconden. Als je hem vraagt om een hele keuken op te ruimen, begint hij misschien met het afwassen, maar na twee minuten vergeet hij dat hij de zeep al heeft gebruikt, of dat hij de kast al heeft dichtgedaan. Hij blijft in een cirkel ronddraaien, net als een hond die zijn eigen staart probeert te vangen.

Dit is het probleem dat de onderzoekers van Physical Intelligence (en universiteiten zoals Stanford en Berkeley) hebben opgelost met hun nieuwe uitvinding: MEM (Multi-Scale Embodied Memory).

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: Een brein dat te klein is

Stel je voor dat je een hele dag lang een recept moet volgen om een maaltijd te maken. Als je elke seconde die je hebt gezien (elke beweging van je hand, elk beeld van de pan) in je hoofd zou moeten onthouden, zou je brein exploderen. Dat is wat er gebeurt bij robots die proberen alles "in één keer" te onthouden. Ze worden te traag en vergeten de belangrijkste dingen.

2. De Oplossing: Twee soorten geheugen

MEM lost dit op door het geheugen van de robot te splitsen in twee heel verschillende soorten, net zoals wij mensen ook doen:

A. Het "Korte Termijn" Geheugen (De Video-herinnering)

Wat is het? Dit is als een korte video-clip die de robot net heeft gezien.
Waarom? Stel je voor dat je een glas pakt, maar je arm blokkeert even het zicht. Je vergeet niet waar het glas is; je "weet" gewoon dat het er nog is omdat je het net hebt gezien.
De analogie: Denk aan een filmrolletje van de laatste paar seconden. De robot kijkt naar deze filmrolletje om te zien: "Oh, mijn hand is net weggeschoven, ik moet de greep iets aanpassen." Dit helpt bij kleine, snelle aanpassingen en om te voorkomen dat de robot in de war raakt als hij iets niet meer ziet.
De truc: De onderzoekers hebben een slimme "video-compressor" bedacht. In plaats van duizenden losse foto's te sturen, verpakt de robot de video in een klein, efficiënt pakketje. Zo blijft de robot snel reageren, zelfs als hij 15 minuten aan het werk is.

B. Het "Lange Termijn" Geheugen (Het Dagboek)

Wat is het? Dit is geen video, maar een tekst-opsomming van wat er al gebeurd is.
Waarom? Als je een recept volgt, hoef je niet te onthouden hoe je de aardappel hebt gesneden (dat staat in het korte geheugen). Je moet alleen onthouden: "Ik heb de aardappel al gesneden en de melk erbij gedaan."
De analogie: Stel je voor dat de robot een dagboek bijhoudt. In plaats van de hele dag te beschrijven, schrijft hij alleen de belangrijkste momenten op: "Ik heb de pot op het fornuis gezet. Ik heb de aardappels gehaald. Ik heb de melk erbij gedaan."
De slimme kant: Als de robot een fout maakt (bijvoorbeeld: hij probeert de melk te pakken, maar mist), schrijft hij dat niet letterlijk op in het dagboek. Hij schrijft alleen op: "Ik heb de melk gepakt." Zodra het gelukt is, wordt de tekst bijgewerkt. Dit houdt het dagboek kort en overzichtelijk, zodat de robot niet verstrikt raakt in zijn eigen fouten.

3. Hoe werkt dit in de praktijk?

De robot (genaamd $\pi_0.6$ ) gebruikt dit dubbele systeem om hele complexe klusjes te klaren, zoals:

Een hele keuken opruimen: Hij moet onthouden welke kasten hij al heeft leeggemaakt, welke borden hij al heeft gewassen, en dat hij de zeep al heeft gebruikt.
Grilled Cheese maken: Hij moet weten hoe lang het brood al in de pan ligt (korte termijn) en dat hij eerst de boter moet smelten voordat hij het brood legt (lange termijn).

4. Waarom is dit zo speciaal?

Vroeger waren robots ofwel heel snel maar vergeetachtig, ofwel heel slim maar traag en verward.

De "Dagboek"-truc: De robot leert uit zijn fouten. Als hij een deur probeert open te maken en het lukt niet, kijkt hij in zijn korte-termijn geheugen: "Ah, ik heb de deur al geprobeerd te duwen, maar hij gaat open door te trekken." Hij past zijn strategie direct aan.
Snelheid: Door de video slim te comprimeren, kan de robot nog steeds in real-time reageren (binnen een paar honderste van een seconde), zelfs als hij 15 minuten lang bezig is geweest.

Samenvatting in één zin

MEM geeft robots een slim dagboek voor de grote stappen en een korte video-herinnering voor de kleine details, waardoor ze eindelijk klusjes kunnen doen die lang duren, zonder dat ze de draad kwijtraken of vastlopen in hun eigen fouten.

Het is alsof je een robot hebt die niet alleen heel goed kan kijken, maar ook heel goed kan onthouden wat hij gisteren heeft gedaan, zonder dat zijn hoofd volloopt.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "MEM: Multi-Scale Embodied Memory for Vision Language Action Models" in het Nederlands.

1. Het Probleem

Bestaande Vision Language Action (VLA) modellen voor robotica opereren vaak zonder geheugen of met zeer beperkt contextvenster. Ze reageren puur op de huidige observatie. Dit leidt tot fundamentele beperkingen bij complexe, real-world taken:

Langere horizon taken: Taken die minutenlang duren (zoals het koken van een maaltijd of het schoonmaken van een keuken) vereisen het onthouden van abstracte semantische concepten (bijv. "welke ingrediënten zijn al toegevoegd?"). Het invoeren van een lange reeks ruwe observaties (video) in het model is computationally onhaalbaar en leidt tot hoge latentie.
Deelobservabiliteit (Partial Observability): Robots ervaren vaak zelf-occlusie (hun eigen arm blokkeert het zicht) of moeten kortetermijngeheugen gebruiken om te weten waar een object was voordat het werd geblokkeerd.
Aanpassing in context: Zonder geheugen kan een robot niet leren van recente fouten binnen dezelfde sessie. Als een greep faalt, probeert de robot vaak dezelfde foutieve strategie opnieuw in plaats van de aanpak aan te passen.

Er is dus behoefte aan een geheugenarchitectuur die meerdere schalen van abstractie kan hanteren: van dichte, visuele informatie voor korte termijn tot gecomprimeerde, semantische informatie voor lange termijn.

2. Methodologie: Multi-Scale Embodied Memory (MEM)

De auteurs introduceren MEM, een hybride systeem dat twee verschillende modaliteiten combineert om langdurig geheugen mogelijk te maken binnen de strakke latentie-eisen van robotica. Het systeem is geïntegreerd in het $\pi_{0.6}$ VLA-model.

A. Architectuur

MEM splitst het beleidsprobleem op in een hoog-niveau beleid ( $\pi_{HL}$ ) en een laag-niveau beleid ( $\pi_{LL}$ ):

Taalgebaseerd Geheugen (Lange Termijn):
- Doel: Het onthouden van semantische gebeurtenissen over lange periodes (tot 15 minuten).
- Implementatie: Een taalgebaseerde samenvatting ( $m_t$ ) wordt bijgehouden. Het hoog-niveau beleid voorspelt niet alleen de volgende subtaak, maar update ook deze taalgeheugen-tekst op basis van de huidige observatie en de vorige samenvatting.
- Compressie: Een Large Language Model (LLM) wordt gebruikt tijdens het trainen om irrelevante details te verwijderen en de geheugen-tekst te comprimeren (bijv. "Ik heb drie kommen in de kast gezet" in plaats van de exacte kleur en positie van elke kom). Dit voorkomt train-inference distributieshift en houdt de context kort.
Video-encoder voor Dichte Visuele Geheugen (Korte Termijn):
- Doel: Het oplossen van zelf-occlusie, het begrijpen van dynamiek en het aanpassen van grijpstrategieën binnen enkele seconden.
- Implementatie: In plaats van elke frame afzonderlijk in te voeren (wat de latentie explodeert), gebruiken ze een efficiënte video-encoder.
- Techniek: De encoder is gebaseerd op Vision Transformers (ViT). Hij past een gescheiden aandachtsmechanisme toe:
  - Ruimtelijke aandacht binnen elke frame (standaard ViT).
  - Causale temporele aandacht over frames heen (elke 4e laag).
- Efficiëntie: De encoder comprimeert de tijd-dimensie door alleen de representatie van de huidige tijdstap door te geven aan de VLA-backbone, terwijl de temporale context al is verwerkt. Dit houdt het aantal tokens constant, ongeacht het aantal ingevoerde frames, en maakt real-time inferentie mogelijk.
Integratie in $\pi_{0.6}$ :
- Het model wordt vooraf getraind op een diverse dataset van robotdemonstraties, menselijke correcties, en internetvideo's.
- Propriocceptieve data (zoals gewrichtshoeken) wordt continu ingebed in plaats van als tekst, om token-gebruik te minimaliseren.

3. Belangrijkste Bijdragen

Multi-modale Geheugenarchitectuur: Het eerste systeem dat effectief korte-termijn visuele geheugen (via video-encoding) combineert met lange-termijn semantisch geheugen (via taal) voor robotbeleid.
Efficiënte Video-Encoder: Een nieuwe ViT-architectuur die temporale context verwerkt zonder de rekenkosten van het invoeren van lange videosequenties te verhogen, waardoor real-time inferentie (<300ms) mogelijk blijft.
In-Context Adaptatie: Het vermogen van het beleid om strategieën dynamisch aan te passen op basis van recente mislukkingen (gezien in het korte-termijn geheugen), zonder dat dit expliciet in de instructie staat.
Schalbaarheid naar Lange Horizons: Bewijs dat robots taken kunnen uitvoeren die tot 15 minuten duren, zoals het schoonmaken van een hele keuken of het bereiden van een maaltijd.

4. Resultaten

De auteurs evalueren MEM op diverse complexe taken en vergelijken het met state-of-the-art modellen (zoals $\pi_{0.6}$ zonder geheugen) en andere geheugenaanpakken (zoals "Pool Memory" of "Proprio Memory").

Lange-horizon taken: MEM slaagt in taken zoals "Keuken opruimen" en "Recept opzetten", waarbij het model tot 15 minuten aan geheugen nodig heeft. Zonder geheugen faalt het bestaande $\pi_{0.6}$ -model hier volledig.
Ablatiestudies:
- Zonder video-geheugen faalt de robot bij taken die dynamiek vereisen (bijv. weten hoe lang een bord al wordt gewassen).
- Zonder taalgeheugen faalt de robot bij semantische taken (bijv. weten welke ingrediënten al zijn gebruikt).
- "Naïeve" tekstgeheugen (zonder compressie) presteert slecht door distributieshift (het model ziet tijdens inferentie herhaalde fouten die niet voorkomen in de trainingsdata).
In-Context Adaptatie: MEM verbetert de succesrate aanzienlijk bij taken met onzekerheid, zoals het openen van een koelkast met onbekende scharnieren of het oppakken van dunne voorwerpen (chopsticks) op een onbekende hoogte. Het model past de grijphoogte of de openrichting aan na een eerste mislukking.
Vergelijking met andere methoden: MEM presteert superieur ten opzichte van "Pool Memory" (gemiddelde pooling van frames) en "Proprio Memory" (alleen robottoestand). MEM is de enige methode die goed presteert op zowel deelobservabiliteit, tellen, timing als ruimtelijk geheugen.
Pre-training belang: Het vooraf trainen van de video-encoder op een diverse dataset (robot + niet-robot video) is cruciaal. Modellen die pas tijdens de post-training geheugen leren, presteert significant slechter.

5. Significantie

Dit werk markeert een belangrijke stap in de evolutie van robotica van "reactieve" systemen naar "proactieve" systemen met langdurig geheugen.

Realiteit: Het toont aan dat robots complexe, meervoudige stappen-taken kunnen uitvoeren die vergelijkbaar zijn met menselijke dagelijkse activiteiten, zolang ze maar een vorm van "werkgeheugen" hebben.
Efficiëntie: Het oplost het fundamentele dilemma tussen lange context en inferentie-snelheid, wat essentieel is voor de inzetbaarheid van robots in de echte wereld.
Toekomst: Het legt de basis voor robots die continu kunnen leren en geheugen kunnen opbouwen over weken, maanden of jaren, in plaats van alleen binnen één sessie.

Kortom, MEM bewijst dat een slimme combinatie van visuele en taalkundige geheugenmechanismen, ondersteund door efficiënte architecturen, robots in staat stelt om complexe, langdurige taken in onvoorspelbare omgevingen te voltooien.