VPWEM: Non-Markovian Visuomotor Policy with Working and Episodic Memory

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du versuchst, einem Roboter beizubringen, wie man ein komplexes Puzzle löst oder einen Tisch in einer Küche aufräumt. Das Problem ist: Die meisten Roboter haben ein sehr kurzes Gedächtnis. Sie schauen sich nur das an, was gerade vor ihren Augen passiert, oder vielleicht noch die letzten paar Sekunden.

Wenn die Aufgabe aber kompliziert ist – zum Beispiel: „Ich habe vor 20 Sekunden einen roten Würfel unter einer Tasse versteckt, hol ihn jetzt heraus" – dann scheitern diese Roboter. Sie haben den roten Würfel „vergessen", weil er nicht mehr im aktuellen Bild ist.

Hier kommt die neue Methode VPWEM ins Spiel. Die Forscher von der Universität Hongkong haben eine Lösung entwickelt, die dem menschlichen Gehirn nachempfunden ist.

Hier ist die Erklärung in einfachen Worten mit ein paar anschaulichen Vergleichen:

1. Das Problem: Der „kurze Blick"

Die meisten aktuellen Roboter-Programme arbeiten wie jemand, der durch ein Schlitzfenster schaut. Sie sehen nur, was direkt vor dem Fenster ist (die letzten paar Bilder). Alles, was sich hinter dem Fenster bewegt hat, ist weg.

Das Ergebnis: Wenn eine Aufgabe lang ist oder Gedächtnis erfordert, wird der Roboter verwirrt. Er versucht, nur auf das zu reagieren, was er jetzt sieht, und ignoriert, was früher passiert ist.

2. Die Lösung: Zwei Arten von Gedächtnis

VPWEM gibt dem Roboter zwei verschiedene Gedächtnis-Systeme, genau wie wir Menschen:

A. Das Arbeitsgedächtnis (Working Memory) – Der „Notizblock auf dem Schreibtisch"

Das ist wie ein kleiner Stapel Zettel auf deinem Schreibtisch. Hier liegen die Dinge, die gerade wichtig sind: Was ich gerade sehe, was ich gerade greife.

Wie es funktioniert: Der Roboter behält die letzten paar Sekunden (z. B. die letzten 5 Bilder) im Kopf. Das ist schnell und einfach, aber der Stapel ist begrenzt. Wenn neue Bilder kommen, rutschen die alten vom Stapel.

B. Das episodische Gedächtnis (Episodic Memory) – Der „Weise Bibliothekar"

Das ist der geniale Teil. Wenn ein Bild vom „Notizblock" (Arbeitsgedächtnis) rutscht, wird es nicht einfach weggeworfen. Stattdessen schickt es einen Bibliothekar (einen speziellen KI-Algorithmus), der das Bild liest.

Der Trick: Der Bibliothekar fasst das Bild zusammen. Er schreibt nicht das ganze Bild ab, sondern nur die wichtigsten Punkte auf eine kleine Karteikarte.
- Beispiel: Statt das ganze Video von „Ich habe den Würfel unter die Tasse geschoben" zu speichern, schreibt er nur auf die Karte: „Rot, unter Tasse, Zeit 10:00".
Diese Karteikarten werden in einem Gedächtnis-Schrank (Episodic Memory) abgelegt. Der Schrank hat eine feste Größe, ist aber unendlich effizient, weil er nur die Zusammenfassungen enthält.

3. Wie der Roboter lernt: Der „Zusammenfassungs-Drucker"

In der Technik heißt dieser Bibliothekar Contextual Memory Compressor.

Stell dir vor, du hast einen riesigen Stapel Zeitungsartikel (die vergangenen Bilder).
Der Roboter kann nicht alle Artikel lesen, während er arbeitet.
Also läuft der Artikel durch einen Zusammenfassungs-Drucker. Dieser Drucker liest den Artikel und druckt nur eine halbe Seite mit den wichtigsten Fakten aus.
Diese halbe Seite wird in den Schrank gelegt.
Wenn der Roboter eine Entscheidung treffen muss, schaut er nicht nur auf den Notizblock (Arbeitsgedächtnis), sondern fragt auch den Schrank: „Habe ich das schon mal gesehen?" und zieht die passende Karteikarte hervor.

4. Warum ist das so gut?

Früher haben Roboter versucht, alles zu speichern. Das war wie ein Computer, der versucht, einen ganzen Film in den Arbeitsspeicher zu laden – das wird langsam und teuer. Oder sie haben einfach alles vergessen.

VPWEM macht es anders:

Effizienz: Der Roboter braucht nicht mehr Rechenleistung, auch wenn die Aufgabe länger wird. Er fasst die Vergangenheit einfach zusammen.
Fokus: Der Roboter lernt, was wirklich wichtig ist (der rote Würfel) und ignoriert unwichtiges Rauschen (die Farbe der Wand).
Erfolg: In Tests, bei denen Roboter Dinge merken mussten (wie das Verstecken von Objekten), war VPWEM über 20 % besser als die besten bisherigen Methoden.

Zusammenfassung in einem Satz

VPWEM ist wie ein Roboter, der nicht nur auf das schaut, was er gerade sieht, sondern der sich wie ein erfahrener Detektiv ein kurzes Notizbuch über die Vergangenheit macht, um auch bei langen und kniffligen Aufgaben den Überblick zu behalten, ohne dabei den Kopf (oder den Rechner) zu sprengen.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „VPWEM: Non-Markovian Visuomotor Policy with Working and Episodic Memory" auf Deutsch:

1. Problemstellung

Imitationslernen aus menschlichen Demonstrationen hat zwar große Erfolge in der Robotik erzielt, doch die meisten bestehenden visuellen motorischen Richtlinien (Visuomotor Policies) basieren auf Markov-Annahmen. Das bedeutet, sie treffen Entscheidungen ausschließlich basierend auf aktuellen Beobachtungen oder sehr kurzen Historien (z. B. die letzten 2–10 Frames).

Dies führt zu zwei Hauptproblemen bei nicht-Markovschen Aufgaben (Aufgaben, die langfristige Abhängigkeiten erfordern):

Begrenzte Speicherkapazität: Roboter scheitern an Aufgaben, die das Erinnern an frühere Zustände erfordern (z. B. „Wo war der Ball, bevor er verdeckt wurde?"), da frühere Informationen verworfen werden.
Skalierungsprobleme bei langen Kontexten: Ein naiver Ansatz, den Kontextfenster einfach zu vergrößern, führt zu quadratischem Rechenaufwand ( $O(L^2)$ ) durch Self-Attention-Mechanismen, hohen Speicherkosten und Überanpassung an irrelevante Korrelationen („Spurious Correlations" oder „Copycat-Problem"). Dies verletzt oft die Echtzeit-Anforderungen robotischer Systeme.

Das Ziel ist es, eine Policy zu entwickeln, die wie der menschliche Hippocampus funktioniert: Sie komprimiert langfristige Erfahrungen in ein kompaktes Langzeitgedächtnis, während kurzfristige Informationen im Arbeitsgedächtnis gehalten werden, ohne die Rechenkosten exponentiell zu erhöhen.

2. Methodik: VPWEM Framework

Das vorgeschlagene Framework VPWEM (Visuomotor Policy with Working and Episodic Memory) integriert ein kontextuelles Gedächtniskompressions-Modul in Diffusions-Policies. Der Ansatz besteht aus drei Hauptkomponenten:

A. Arbeitsgedächtnis (Working Memory)

Dies entspricht dem herkömmlichen Ansatz: Ein gleitendes Fenster der letzten $L$ Beobachtungen (z. B. RGB-D-Bilder, Propriozeption) wird als Arbeitsgedächtnis ( $w_t$ ) verwendet.
Diese Informationen werden direkt vom Encoder verarbeitet und dienen als kurzfristiger Kontext für die Aktionsgenerierung.

B. Episodisches Gedächtnis (Episodic Memory) & Kompressor

Beobachtungen, die das Arbeitsgedächtnis-Fenster verlassen, werden nicht verworfen, sondern in ein episodisches Gedächtnis überführt.
Ein Transformer-basierter Kontext-Gedächtniskompressor (Contextual Memory Compressor) verarbeitet diese „out-of-window"-Tokens rekursiv.
Funktionsweise des Kompressors:
- Er nutzt einen Cache für historische Beobachtungen ( $C_f$ ) und einen Cache für Zusammenfassungs-Tokens ( $C_q$ ).
- Durch Self-Attention auf den Zusammenfassungs-Tokens und Cross-Attention auf den historischen Beobachtungen kondensiert er die langfristige Historie in eine feste Anzahl von episodischen Gedächtnistokens ( $e_\tau$ ).
- Dieser Prozess ist trainierbar und lernt end-to-end, irrelevante Informationen herauszufiltern und nur taskspezifische Merkmale zu speichern.
Das Ergebnis ist eine kompakte Repräsentation der gesamten Trajektorie mit konstantem Speicherbedarf und Rechenaufwand pro Schritt.

C. Aktionsgenerierung (Action Generation)

Die Policy (basierend auf Diffusion-Modellen) wird sowohl vom Arbeitsgedächtnis ( $w_t$ ) als auch vom episodischen Gedächtnis ( $e_\tau$ ) konditioniert.
Während des Trainings wird die Historie stichprobenartig unterteilt, um den Kompressor zu trainieren, und die Gradienten werden so gestoppt (detach), dass der Kompressor nur über die Zusammenfassungs-Tokens mit der Policy interagiert, was den Speicherbedarf drastisch senkt.
Während der Inferenz werden neue Frames encodiert, der Cache aktualisiert und veraltete Frames komprimiert, bevor die nächste Aktions-Chunk vorhergesagt wird.

3. Hauptbeiträge

Neues Framework: Einführung einer nicht-Markovschen Policy, die ein Transformer-basiertes Kompressionsmodul nutzt, um die gesamte Trajektionshistorie in eine feste Anzahl von Gedächtnistokens zu verdichten.
Implementierung: Konkretisierung des Konzepts auf Diffusion-Policies (DP) und MaIL (Mamba Imitation Learning), wobei Trainings- und Inferenzpipelines neu gestaltet wurden, um sowohl kurz- als auch langfristigen Kontext zu nutzen.
Leistungssteigerung: Umfassende Experimente zeigen, dass VPWEM die Leistung bei speicherintensiven Aufgaben massiv verbessert, während es bei Markovschen Aufgaben mit dem Stand der Technik (SOTA) mithalten kann.

4. Ergebnisse

Die Methode wurde auf drei Benchmarks evaluiert:

MIKASA (Memory-intensive Manipulation):
- Auf Aufgaben wie ShellGameTouch (Ball unter Tassen merken) und RememberColor3 (Farbe merken) übertrifft VPWEM den SOTA (einschließlich Diffusion Policies und VLA-Modellen) um mehr als 20 %.
- Dies beweist, dass die komprimierte episodische Erinnerung entscheidende Informationen liefert, die reine Skalierung des Kontextfensters nicht leisten kann.
MoMaRT (Mobile Manipulation):
- Auf mobilen Manipulationsaufgaben (z. B. Tisch aufräumen, Geschirrspüler entladen) erzielt VPWEM eine durchschnittliche Verbesserung von 5 % gegenüber Baselines.
- Die Methode funktioniert sowohl auf Diffusion Policies als auch auf MaIL (Mamba-basiert) gut.
Robomimic (Fast Markovian):
- Auf klassischen, eher Markovschen Aufgaben (Square, Transport) erreicht VPWEM eine Leistung, die mit den Baselines gleichwertig ist, ohne dass die Performance leidet.
Effizienzanalyse:
- Im Vergleich zu Methoden, die den Kontext einfach vergrößern (z. B. DP-PTP mit 128 Frames), bleibt der Speicherbedarf und die Inferenzzeit von VPWEM nahezu konstant und niedrig, während die Erfolgsrate signifikant höher ist (58,3 % vs. ~40-50 % bei langen Kontexten ohne Kompression).

5. Bedeutung und Fazit

VPWEM adressiert das fundamentale Problem des „vergessenen Kontexts" in der robotischen Steuerung. Anstatt die Rechenlast durch längere Eingabesequenzen zu erhöhen, nutzt das Framework ein biologisch inspiriertes Gedächtnismodell (Arbeits- vs. Langzeitgedächtnis), um relevante Informationen effizient zu komprimieren.

Technische Innovation: Die Kombination aus einem lernbaren Kompressor und Diffusions-Policies ermöglicht es Robotern, langfristige Abhängigkeiten zu modellieren, ohne die Echtzeitfähigkeit zu gefährden.
Praktische Relevanz: Die Methode ist besonders für komplexe, langfristige Manipulationsaufgaben in realen Umgebungen geeignet, wo Sensordaten oft unvollständig sind und Erinnerungen an frühere Zustände notwendig sind.
Zukunftsperspektive: Das Framework ist modular und kann auf andere Policy-Architekturen erweitert werden, was einen vielversprechenden Weg für die nächste Generation von autonomen Robotern darstellt.