Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie wollen einem Roboter beibringen, wie man eine Tasse auf einen Tisch stellt oder einen Löffel benutzt, um Perlen zu sammeln. Normalerweise müsste man dem Roboter hunderte oder tausende Male genau zeigen, wie er seine Arme bewegen muss. Das ist extrem zeitaufwendig, teuer und funktioniert oft nur für diesen einen Roboter. Ein anderer Roboter mit einem anderen Arm könnte die gleichen Bewegungen nicht verstehen.

Die Forscher aus diesem Papier haben eine clevere Lösung gefunden, die man sich wie einen universellen "Bewegungs-Übersetzer" vorstellen kann. Hier ist die Idee, einfach erklärt:

1. Das Problem: Jeder Roboter spricht eine andere "Sprache"

Stellen Sie sich vor, Sie haben einen menschlichen Koch, einen Roboter-Arm und eine menschliche Hand. Wenn alle drei eine Tasse greifen, sehen ihre Bewegungen von außen fast gleich aus (die Tasse bewegt sich von A nach B). Aber intern "sprechen" sie unterschiedliche Sprachen:

Der Mensch denkt in Muskeln.
Roboter A denkt in Gelenkwinkeln.
Roboter B denkt in Koordinaten.

Wenn man einen Roboter nur mit Daten von einem anderen Roboter trainiert, ist das, als würde man versuchen, einem Deutschen Französisch beizubringen, indem man ihm nur Wörter auf Chinesisch gibt. Es passt nicht zusammen.

2. Die Lösung: "Optischer Fluss" als universelle Sprache

Die Autoren sagen: "Vergessen wir die internen Gelenkwinkel! Schauen wir uns nur an, was sich auf dem Bildschirm bewegt."

Sie nutzen etwas, das Optischer Fluss (Optical Flow) genannt wird. Das ist wie eine unsichtbare Strömung, die man auf einem Video sieht, wenn sich Dinge bewegen.

Die Analogie: Stellen Sie sich vor, Sie schauen einem Menschen beim Greifen einer Tasse zu. Sie sehen nicht die Muskeln, sondern nur, wie sich die Tasse und die Hand im Raum verschieben. Das ist der "optische Fluss".
Der Trick: Egal ob ein Mensch, ein Roboter mit zwei Armen oder ein Roboter mit einem langen Arm die Tasse greift – das Bild der Bewegung (der optische Fluss) sieht sehr ähnlich aus!

Das Team trainiert zuerst ein Weltmodell (eine Art KI-Gehirn), das nur diese visuellen Bewegungen versteht. Es lernt: "Wenn sich die Tasse so bewegt, ist das ein gutes Greifen." Da es nur auf Bildern basiert, ist es embodiment-agnostisch (körperunabhängig). Es macht keinen Unterschied, welcher Roboter die Bewegung ausführt.

3. Der Feinschliff: "Latente Policy Steering" (Das Lenken im Schatten)

Nachdem das Gehirn die allgemeinen Bewegungen gelernt hat, müssen wir es auf den konkreten Roboter anpassen, den wir wirklich haben. Aber wir haben nur wenige Beispiele (vielleicht nur 30 oder 50 Versuche) von diesem spezifischen Roboter.

Hier kommt der zweite Teil ins Spiel, den sie Latent Policy Steering nennen. Das klingt kompliziert, ist aber wie ein sehr erfahrener Trainer, der im Schatten steht:

Der Schüler (Die Basis-Policy): Der Roboter versucht, die Aufgabe zu lösen, basierend auf den wenigen Beispielen, die er hat. Er macht viele Vorschläge, wie er die Aufgabe lösen könnte.
Der Trainer (Das Weltmodell + Wertefunktion): Das vorher trainierte Weltmodell schaut sich diese Vorschläge an. Es simuliert im Kopf ("im latenten Raum"), was passieren würde, wenn der Roboter diesen Vorschlag ausführt.
- Frage des Trainers: "Wenn du das tust, kommst du dann in eine Situation, die wie die erfolgreichen Beispiele aussieht? Oder landest du in einem Chaos?"
Die Entscheidung: Der Trainer bewertet jeden Vorschlag. Er wählt nicht den ersten besten aus, sondern den, der am sichersten und erfolgreichsten aussieht. Er "lenkt" (steers) den Roboter zurück auf den richtigen Weg, bevor er einen Fehler macht.

4. Warum ist das so cool? (Die Ergebnisse)

Das Papier zeigt beeindruckende Ergebnisse:

Im echten Leben: Mit nur 30 bis 50 Versuchen des Ziel-Roboters konnte die Methode die Erfolgsrate um 70% steigern im Vergleich zu Robotern, die nur von Grund auf neu lernten.
Die Mischung: Es funktioniert sogar, wenn das Weltmodell mit Daten von Menschen (Videos) und anderen Robotern trainiert wurde, die ganz anders aussehen.
Der Vergleich: Andere Methoden, die versuchen, große Modelle direkt zu feinabstimmen, scheiterten oft, weil sie zu starr auf die "Sprache" des ursprünglichen Roboters festgelegt waren.

Zusammenfassung in einem Satz

Statt einem Roboter mühsam jede einzelne Gelenkbewegung beizubringen, lernen wir ihm erst, wie sich die Welt visuell verändert (durch optischen Fluss), und lassen ihn dann von einem erfahrenen "Geist" (dem Weltmodell) leiten, der ihm sagt, welche seiner Ideen am besten funktionieren werden, bevor er sie ausführt.

Es ist wie beim Autofahren: Statt jeden einzelnen Muskelzug beim Lenken zu lernen, schauen wir uns an, wie sich die Straße vor uns bewegt, und lassen einen erfahrenen Beifahrer uns sagen: "Nein, nicht so scharf abbiegen, da kommst du nicht durch – probier lieber diesen Weg!"

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Latent Policy Steering with Embodiment-Agnostic Pretrained World Models" auf Deutsch:

1. Problemstellung

Das Lernen visuomotorischer Robotik-Policies durch Imitationslernen (Behavior Cloning, BC) ist stark von der Größe und Qualität der Trainingsdaten abhängig. Ein zentrales Hindernis ist die Embodiment-Lücke: Daten, die von einem Roboter oder Menschen gesammelt wurden, lassen sich oft nicht direkt auf andere Roboter-Formen (Embodiments) übertragen, da sich die Aktionsräume (z. B. Gelenkwinkel vs. Endeffektor-Positionen) und die Propriozeption unterscheiden.

Herausforderung: Große, vortrainierte Modelle (wie VLA-Modelle) benötigen oft enorme Mengen an feingestimmten Daten für neue Aufgaben oder Embodiments, was in datenarmen Szenarien (Low-Data-Regime) ineffizient ist.
Ziel: Die Nutzung von verfügbaren, kostengünstigen Daten aus verschiedenen Quellen (Simulation, reale Roboter-Datensätze, menschliche Videos), um die Leistung einer Policy auf einem Ziel-Embodiment mit nur wenigen Demonstrationen zu verbessern.

2. Methodik

Die Autoren schlagen einen zweistufigen Ansatz vor, der auf einem Weltmodell (World Model, WM) und einer neuen Technik namens Latent Policy Steering (LPS) basiert.

A. Embodiment-Agnostische Aktionsrepräsentation (Optical Flow)

Um Daten verschiedener Embodiments vereinheitlichen zu können, wird Optischer Fluss (Optical Flow) als aktionsunabhängige Repräsentation eingeführt.

Idee: Ähnliche Fähigkeiten (z. B. einen Becher greifen) erzeugen über verschiedene Embodiments hinweg ähnliche visuelle Bewegungsmuster.
Umsetzung: Statt robott-spezifische Aktionen (wie Gelenkwinkel) zu verwenden, wird der optische Fluss als Eingabe für das Weltmodell während des Vortrainings genutzt. Ein convolution-basierter Encoder komprimiert den Fluss in einen Vektor, der die Dimension des Ziel-Aktionsraums annimmt. Dies zwingt das Netzwerk, relevante Bewegungsinformationen zu extrahieren und Embodiment-spezifisches Rauschen (z. B. Morphologie-Unterschiede) zu ignorieren.

B. Vortraining des Weltmodells (Pretraining)

Ein bildbasiertes Weltmodell (basierend auf Dreamer v3) wird mit dem optischen Fluss als Aktionsrepräsentation auf großen, gemischten Datensätzen (Simulation, reale Roboter, menschliche Videos) vortrainiert. Das Modell lernt die Dynamik der Umgebung, ist aber unabhängig vom spezifischen Roboter.

C. Feinabstimmung (Finetuning) auf das Ziel-Embodiment

Für einen spezifischen Ziel-Roboter mit einer kleinen Menge an Expertendemonstrationen (z. B. 30–100):

Policy-Training: Eine Basis-Policy (Diffusion Policy) wird von Grund auf mit den Ziel-Daten trainiert.
WM-Feinabstimmung: Das vortrainierte Weltmodell wird auf die Ziel-Daten angepasst. Dabei wird der optische Fluss-Encoder durch die tatsächlichen, normalisierten Roboter-Aktionen des Ziel-Embodiments ersetzt.
Lernens einer robusten Wertefunktion: Parallel zum WM wird eine Wertefunktion $V(s_t)$ $V (s_{t})$ trainiert. Diese ist entscheidend für die Robustheit:
- Sie wird nicht nur auf Expertendaten, sondern auch auf Zustände trainiert, die die Policy während der Inferenz wahrscheinlich besuchen wird (simuliert durch das WM).
- Ein zusätzlicher Strafterm (basierend auf der Ähnlichkeit der latenten Zustände zur Expertendatenverteilung) bestraft Abweichungen vom Expertendatensatz. Dies verhindert den Distribution Shift.

D. Latent Policy Steering (LPS) während der Inferenz

Während der Ausführung (Inferenz) wird die Policy nicht direkt ausgeführt. Stattdessen:

Die Basis-Policy generiert mehrere Kandidaten-Pläne (Folgen von Aktionen).
Das feinabgestimmte Weltmodell simuliert die zukünftigen latenten Zustände für jeden Plan.
Die Wertefunktion bewertet diese Pläne.
Der Plan mit dem höchsten erwarteten Wert wird ausgewählt und ausgeführt. Dies lenkt die Policy zurück in den Bereich der Expertendaten und verbessert die Entscheidungsfindung.

3. Wichtige Beiträge

Optical Flow als universelle Aktionsrepräsentation: Die Einführung von optischem Fluss ermöglicht es, Weltmodelle über verschiedene Embodiments (Roboter, Menschen) hinweg vorzutrainieren, ohne auf spezifische Aktuatoren angewiesen zu sein.
Latent Policy Steering (LPS): Ein neuer Ansatz, der ein vortrainiertes WM und eine robuste Wertefunktion nutzt, um die Inferenzzeit-Verteilungsschiebung (Distribution Shift) zu minimieren. Die Wertefunktion lernt, Abweichungen von der Expertendatenverteilung zu bestrafen, indem sie latente Zustandsähnlichkeiten nutzt.
Effizienz in Low-Data-Szenarien: Die Methode zeigt, dass ein Embodiment-agnostisches WM, das auf großen, heterogenen Datensätzen trainiert wurde, die Leistung einer Policy mit sehr wenigen Ziel-Demonstrationen signifikant steigern kann.

4. Ergebnisse

Die Methode wurde in Simulation (Robomimic-Benchmark) und in realen Weltexperimenten evaluiert.

Realwelt-Experimente (Franka Robot):
- LPS-mix* (mit gemischten Vortrainingsdaten) verbesserte die Basis-Policy (BC) um 70 % (bei 30–50 Demonstrationen) und 44 % (bei 60–100 Demonstrationen) im Vergleich zu einem reinen BC-Baseline.
- Im Vergleich zu einem vortrainierten, aber embodiment-abhängigen Modell (HPT), das auf 20+ Embodiments trainiert wurde, schnitt HPT bei wenigen Feinabstimmungsdaten schlecht ab, während LPS robust blieb.
- Erfolge bei komplexen Aufgaben: Werkzeuggebrauch (Löffel zum Schöpfen), Manipulation deformierbarer Objekte (Salat fegen, Handtuch falten).
Simulation (Robomimic):
- Über vier Aufgaben hinweg erzielte LPS-mix* eine durchschnittliche relative Verbesserung von 10,6 % gegenüber der reinen Behavior-Cloning-Policy bei 50 Demonstrationen.
- Besonders starke Verbesserungen wurden bei langfristigen, zweihändigen Aufgaben (Transport) beobachtet.
Ablationsstudien:
- Optical Flow vs. Endeffektor-Posen: Optical Flow als Vortrainings-Repräsentation führte zu besseren Ergebnissen als die Verwendung von Endeffektor-Posen (EEF), insbesondere bei der Nutzung menschlicher Daten.
- Rolle der Wertefunktion: Eine robuste Wertefunktion, die sowohl In-Distribution- als auch Out-of-Distribution-Zustände bestraft, ist entscheidend. Varianten ohne diese Strafe performten schlechter als das reine BC.
- Horizont: Die Methode funktioniert am besten bei mittleren Vorhersagehorizonten (bis 16 Schritte). Zu lange Horizonte führten zu verrauschten Belohnungssignalen.

5. Bedeutung und Fazit

Das Paper demonstriert einen vielversprechenden Weg, um die Datenknappheit im Robotik-Lernen zu überwinden. Durch die Entkopplung der Vortrainingsphase vom spezifischen Embodiment mittels optischem Fluss und die Nutzung von Weltmodellen zur Simulation und Bewertung von Aktionsplänen, können Roboter von riesigen, bereits existierenden Datensätzen profitieren.

Die Latent Policy Steering-Methode stellt sicher, dass die generierten Aktionen nicht nur auf der Basis-Policy basieren, sondern durch ein simuliertes Modell und eine Wertefunktion gegen Abweichungen von erfolgreichen Demonstrationen abgesichert sind. Dies ist ein signifikanter Fortschritt für die Generalisierung von Roboterpolicies auf neue Aufgaben und Umgebungen mit minimalem Aufwand an neuen Demonstrationen.

Limitationen: Optischer Fluss kann bei Okklusionen versagen und ist view-dependent (abhängig von der Kameraperspektive). Zukünftige Arbeiten sollen dies durch die Kombination mit Embodiment-spezifischen Details oder multi-view Daten adressieren.