MEM: Multi-Scale Embodied Memory for Vision Language Action Models

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie wären ein Roboter, der zum ersten Mal in einer Küche steht. Ihr Chef gibt Ihnen eine Aufgabe: „Mach mir einen Grilled Cheese und räum danach die ganze Küche auf."

Ohne Gedächtnis wäre das für einen Roboter ein Albtraum. Er würde den Brotkasten öffnen, das Brot nehmen, aber fünf Minuten später vergessen, dass er schon Butter aufgetragen hat. Oder er würde das Brot in die Pfanne legen, aber nach 10 Minuten nicht mehr wissen, ob es schon fertig ist oder ob er es wenden muss. Er würde sich im Kreis drehen, wie ein Hund, der versucht, seinen eigenen Schwanz zu fangen.

Das ist das Problem, das die Forscher von Physical Intelligence mit ihrer neuen Erfindung MEM (Multi-Scale Embodied Memory) lösen wollen.

Hier ist die Erklärung, wie MEM funktioniert, ganz einfach und mit ein paar bildhaften Vergleichen:

1. Das Problem: Ein Gehirn mit zu wenig Platz

Bisherige Roboter-Modelle (die sogenannten VLA-Modelle) haben ein kurzes Gedächtnis. Sie können sich nur an das erinnern, was sie gerade sehen. Wenn sie etwas tun, das 15 Minuten dauert (wie Kochen und Aufräumen), verlieren sie den Faden. Sie können nicht gleichzeitig an die Details denken (wie greife ich den Löffel?) und an den großen Plan (welcher Schritt im Rezept ist als Nächstes?).

2. Die Lösung: Zwei verschiedene Art von Notizblöcke

MEM gibt dem Roboter zwei verschiedene „Gedächtnis-Tools", die perfekt zusammenarbeiten. Man kann sich das wie einen Koch vorstellen, der zwei Notizblöcke benutzt:

A. Das Kurzzeit-Gedächtnis: Der „Video-Notizblock"

Was es ist: Ein effizienter Video-Encoder, der sich an die letzten paar Sekunden erinnert.
Die Analogie: Stellen Sie sich vor, Sie greifen nach einem Glas, das hinter einem anderen Glas versteckt ist. Sie brauchen sich nicht an das zu erinnern, was vor einer Stunde passierte. Sie brauchen nur zu wissen: „Moment, mein Arm hat das Glas vor 2 Sekunden verdeckt."
Wie MEM es macht: MEM nimmt die letzten Bilder (Video) und komprimiert sie wie einen schnellen, dichten Filmclip. Das hilft dem Roboter, Verdeckungen zu verstehen (wenn etwas vor der Kamera ist) und Fehler sofort zu korrigieren. Wenn er beim Greifen rutscht, sieht er im „Video-Gedächtnis", wie er es gerade versucht hat, und passt den Griff sofort an.

B. Das Langzeit-Gedächtnis: Der „Text-Zettel"

Was es ist: Ein sprachbasiertes System, das sich an die wichtigsten Ereignisse erinnert.
Die Analogie: Stellen Sie sich vor, Sie kochen ein komplexes Gericht. Sie müssen sich nicht an jeden einzelnen Millimeter erinnern, wie Sie die Kartoffel geschnitten haben. Sie müssen sich nur merken: „Ich habe die Kartoffeln schon in den Topf getan."
Wie MEM es macht: Anstatt tausende von Bildern über 15 Minuten zu speichern (was den Roboter verlangsamen würde), fasst MEM die Geschichte in einem kurzen Text zusammen.
- Statt: „Ich habe Bild 1 gesehen, dann Bild 2, dann habe ich die Tür geöffnet, dann Bild 3..."
- Schreibt MEM: „Ich habe die Kartoffeln, Milch und Butter geholt und den Topf vorbereitet."
- Wenn der Roboter einen Schritt wiederholt (weil er ihn vorher nicht geschafft hat), löscht MEM den Text über den gescheiterten Versuch und behält nur den Erfolg. So bleibt der Text kurz und übersichtlich.

3. Warum ist das so genial? (Die Magie der Kombination)

Stellen Sie sich vor, Sie spielen ein Videospiel mit einem Freund.

Der Video-Teil ist wie Ihr Auge: Er sieht sofort, wenn ein Gegner hinter einer Kiste hervorspringt, und Sie können blitzschnell ausweichen.
Der Text-Teil ist wie Ihr Quest-Log (Aufgabenliste): Er erinnert Sie daran, dass Sie noch 30 Minuten lang die Burg erobern müssen und dass Sie zuerst den Schlüssel im Keller finden müssen.

MEM verbindet diese beiden:

Es hält den Faden: Der Roboter kann Aufgaben lösen, die bis zu 15 Minuten dauern, wie das komplette Aufräumen einer Küche oder das Kochen eines komplexen Gerichts. Er weiß immer, wo er im Rezept steht.
Es lernt aus Fehlern: Wenn der Roboter versucht, einen Kühlschrank zu öffnen und scheitert, merkt er sich das im Kurzzeit-Gedächtnis. Beim nächsten Versuch sagt er sich: „Aha, ich habe gestern versucht, die Tür nach links zu drücken, das hat nicht geklappt. Ich versuche es jetzt nach rechts." Das nennt man Anpassung im Kontext.
Es ist schnell: Durch die cleveren Tricks (Video komprimieren, Text zusammenfassen) wird der Roboter nicht langsam. Er denkt schnell genug, um in Echtzeit zu agieren.

Zusammenfassung

Früher waren Roboter wie Amnesie-Patienten, die alle paar Sekunden vergaßen, was sie taten. MEM gibt ihnen ein Gehirn, das wie ein erfahrener Koch funktioniert: Es hat ein scharfes Auge für die unmittelbare Situation (Video) und einen klaren Kopf für den großen Plan (Text).

Dadurch können Roboter jetzt komplexe Dinge tun, die wir Menschen als selbstverständlich ansehen: Eine ganze Küche aufräumen, ein Rezept befolgen und dabei lernen, wie man Dinge besser macht, wenn es mal nicht klappt. Es ist ein riesiger Schritt hin zu Robotern, die wirklich mit uns in unserer Welt leben und arbeiten können.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „MEM: Multi-Scale Embodied Memory for Vision Language Action Models" auf Deutsch:

1. Problemstellung

Herkömmliche Vision-Language-Action (VLA) Modelle für Roboter agieren meist rein reaktiv basierend auf der aktuellen Beobachtung oder nutzen nur sehr kurze Historien. Dies führt zu erheblichen Einschränkungen bei komplexen, langfristigen Aufgaben (Long-Horizon Tasks) im realen Umfeld:

Skalierungsproblem: Das Einfügen einer vollständigen Sequenz aller vergangenen Beobachtungen in den Kontext eines Transformers ist rechnerisch nicht tragbar für Aufgaben, die über Minuten oder Stunden dauern.
Unterschiedliche Granularität: Roboter benötigen unterschiedliche Arten von Gedächtnis:
- Kurzfristig: Dichte visuelle Informationen, um Okklusionen (z. B. wenn der eigene Arm ein Objekt verdeckt) zu lösen und Manipulationsstrategien sofort anzupassen.
- Langfristig: Semantische, abstrahierte Informationen (z. B. „Schritt 3 des Rezepts wurde bereits ausgeführt"), die über lange Zeiträume gespeichert werden müssen, ohne den Kontext mit unnötigen Details zu überladen.
Partielle Beobachtbarkeit: Ohne Gedächtnis können Roboter Aufgaben nicht abschließen, bei denen sie den Status von Objekten oder Umgebungen über mehrere Schritte hinweg verfolgen müssen (z. B. „Habe ich das Geschirr schon gewaschen?").

2. Methodik: Multi-Scale Embodied Memory (MEM)

Das Paper stellt MEM vor, ein hybrides Gedächtnissystem, das zwei verschiedene Modalitäten kombiniert, um sowohl kurzfristige als auch langfristige Erinnerungen effizient zu verarbeiten. MEM ist in die Architektur des VLA-Modells $\pi_0.6$ integriert.

A. Architektur-Design

MEM faktorisiert die Aktionsvorhersage in zwei Ebenen:

Low-Level Policy ( $\pi_{LL}$ ): Verantwortlich für die direkte Aktionsgenerierung. Sie erhält:
- Das aktuelle Ziel ( $g$ ).
- Eine kurze Sequenz dichter Beobachtungen (Bilder/Propriozeption) der letzten $K$ Sekunden ( $K \ll T$ ).
- Eine Unteraufgaben-Anweisung ( $l_{t+1}$ ), die von der High-Level-Policy generiert wird.
High-Level Policy ( $\pi_{HL}$ ): Verantwortlich für die Planung und das Gedächtnis-Management. Sie erhält:
- Das Gesamtziel ( $g$ ).
- Die aktuellen Beobachtungen.
- Den aktuellen Sprachgedächtniszustand ( $m_t$ ).
- Sie generiert die nächste Unteraufgabe ( $l_{t+1}$ ) und aktualisiert das Sprachgedächtnis ( $m_{t+1}$ ).

B. Komponenten

Sprachgedächtnis (Long-Term Memory):
- Statt roher Daten wird ein komprimierter Textzusammenfassungszustand ( $m_t$ ) verwendet.
- Die High-Level-Policy lernt, relevante semantische Ereignisse zu extrahieren und irrelevante Details zu verwerfen (z. B. statt „Ich habe eine hellgrüne Schüssel..." nur „Ich habe drei Schüsseln in den Schrank gelegt").
- Dies verhindert Train-Inference-Distribution Shifts, da das Modell lernt, nur das Wesentliche zu speichern, auch wenn es während des Trainings oft nur einmalige erfolgreiche Demonstrationen sieht, während es beim Inferenzlauf oft wiederholt scheitern kann.
Video-Encoder (Short-Term Memory):
- Um dichte visuelle Informationen über mehrere Sekunden effizient zu verarbeiten, wird ein spezialisierter Video-Encoder verwendet.
- Technik: Er erweitert Vision Transformers (ViT) durch eine raum-zeitlich trennbare Aufmerksamkeit (Space-Time Separable Attention).
  - Räumliche Aufmerksamkeit wird innerhalb jedes Bildes berechnet.
  - Zeitliche Aufmerksamkeit wird kausal über die Zeitdimension hinweg berechnet (alle 4. Schicht).
- Effizienz: Anstatt alle Frames einzeln in das Hauptmodell zu füttern (was die Latenz explodieren lässt), komprimiert der Encoder die zeitliche Dimension. Er behält die Token-Anzahl für das Hauptmodell bei, ähnlich wie bei einem einzelnen Bild, integriert aber die zeitlichen Informationen.
- Initialisierung: Der Encoder kann mit Gewichten eines vortrainierten ViT initialisiert werden, ohne neue lernbare Parameter für die reine Bildverarbeitung hinzuzufügen.

3. Schlüsselbeiträge

Hybride Modalität: Erstmalige Kombination von dichter, video-basierter Kurzzeitgedächtnisverarbeitung mit komprimierter, text-basierter Langzeitgedächtnisverarbeitung in einem VLA.
Skalierbarkeit: Ermöglicht das Lösen von Aufgaben mit einem Gedächtnishorizont von bis zu 15 Minuten unter Einhaltung strenger Echtzeit-Latenzgrenzen (< 300 ms).
In-Context-Adaptation: Das System lernt, Manipulationsstrategien basierend auf kurzfristigen Fehlern anzupassen (z. B. Griffhöhe ändern, wenn ein Objekt nicht gegriffen werden konnte), ohne explizite Fehlerkorrektur-Objektive zu benötigen.
Effiziente Architektur: Der vorgeschlagene Video-Encoder überwindet die Rechenkosten, die normalerweise mit langen visuellen Kontexten verbunden sind.

4. Ergebnisse

Die Evaluation erfolgte auf dem $\pi_0.6$ -Modell mit einem vielfältigen Datensatz aus Roboterdemonstrationen, menschlichen Korrekturen und Internet-Videos.

Langfristige Aufgaben: MEM löst komplexe Szenarien wie das Aufräumen einer kompletten Küche oder das Zubereiten eines gegrillten Käsesandwichs (bis zu 15 Min. Dauer). Ohne Gedächtnis scheitern State-of-the-Art-Modelle ( $\pi_0.6$ ) an diesen Aufgaben.
Ablationsstudie:
- Nur Video-Gedächtnis reicht nicht für semantische Langzeitplanung.
- Nur Text-Gedächtnis (ohne Kompression) führt zu schlechter Performance durch Distribution Shifts.
- Die Kombination (MEM) ist essenziell für den Erfolg.
In-Context-Adaptation: MEM-Modelle passen ihre Strategien erfolgreich an (z. B. beim Öffnen von Kühlschränken mit unbekannter Öffnungsrichtung oder beim Greifen von Stäbchen auf unterschiedlichen Tischhöhen). Modelle ohne Gedächtnis wiederholen fehlerhafte Strategien.
Vergleich mit anderen Ansätzen: MEM übertrifft Ansätze wie „Pool Memory" (Durchschnittspooling aller Frames) oder „Proprio Memory" (nur Roboterzustände) signifikant, insbesondere bei Aufgaben mit partieller Beobachtbarkeit (z. B. Objekte in Schubladen finden, Zählen von Löffeln).
Generalisierung: MEM erreicht State-of-the-Art-Performance auch bei Aufgaben, die kein Gedächtnis erfordern, und degradiert nicht (im Gegensatz zu früheren Arbeiten, die oft Performance-Einbußen durch kausale Verwirrung meldeten).

5. Bedeutung und Ausblick

Das Paper demonstriert, dass effizientes Gedächtnismanagement der Schlüssel zur Skalierung von Robotern auf komplexe, reale Umgebungen ist.

Paradigmenwechsel: Statt rohe Datenströme zu speichern, wird eine intelligente, mehrskalige Repräsentation eingeführt, die semantische Abstraktion mit visueller Präzision verbindet.
Praktische Relevanz: MEM ermöglicht Robotern, Aufgaben zu bewältigen, die zuvor als zu komplex für end-to-end Lernansätze galten (z. B. komplette Haushaltsaufgaben).
Zukunft: Die Autoren sehen dies als ersten Schritt hin zu Robotern, die über Episoden hinaus lernen können (Wochen, Monate oder Jahre), was eine kontinuierliche Verbesserung im Einsatz (Deployment) ermöglicht.

Zusammenfassend stellt MEM einen Durchbruch dar, der die Lücke zwischen reaktiven Roboterkontrollen und autonomen Agenten mit langfristiger Planungsfähigkeit schließt, indem es die Stärken von Sprachmodellen (Abstraktion) und Video-Modellen (visuelle Details) synergistisch nutzt.