Ego-Vision World Model for Humanoid Contact Planning

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich einen humanoiden Roboter vor, der wie ein Mensch durch eine chaotische, unordentliche Welt läuft. Bisher waren diese Roboter wie ängstliche Kinder: Sie haben alles versucht, Kollisionen zu vermeiden. Wenn sie eine Wand sahen, hielten sie sich fern. Wenn ein Ball auf sie zukam, duckten sie sich oder weichen aus.

Aber was, wenn der Roboter lernen könnte, die Welt nicht nur zu vermeiden, sondern sie zu nutzen? Was, wenn er sich wie ein geschickter Akrobat gegen eine Wand lehnen könnte, um das Gleichgewicht zu halten, oder einen Ball mit der Hand abfangen könnte, um sich zu schützen? Genau das ist das Ziel dieses Papers.

Hier ist die einfache Erklärung der Lösung, die die Forscher entwickelt haben, gemischt mit ein paar anschaulichen Vergleichen:

1. Das Problem: Der "Blinde" und der "Teure Lehrer"

Bisher gab es zwei Hauptprobleme beim Lernen solcher Fähigkeiten:

Die alte Methode (Optimierung): Das war wie ein Mathematiker, der versucht, jeden Schritt im Kopf auszurechnen. Das ist super genau, aber wenn die Realität ein bisschen verrückt spielt (z. B. rutschiger Boden), bricht die Rechnung zusammen.
Die neue Methode (Reinforcement Learning / RL): Das ist wie ein Kind, das durch ständiges Ausprobieren lernt. Es funktioniert, aber es braucht unmengen an Versuchen. Stellen Sie sich vor, ein Roboter müsste Millionen Mal gegen eine Wand laufen, um zu lernen, wie man sich daran festhält. Das dauert ewig und ist teuer.

2. Die Lösung: Der "Traum-Trainer" (Der Welt-Modell-Ansatz)

Die Forscher haben einen cleveren Trick angewendet. Statt den Roboter in der echten Welt tausende Male herumlaufen zu lassen, haben sie ihm einen internen Traum-Trainer gegeben.

Das Welt-Modell (Der Traum-Trainer):
Stellen Sie sich vor, der Roboter hat einen sehr klugen Freund im Kopf. Dieser Freund hat eine riesige Bibliothek mit Videos gesehen, die zufällig aufgenommen wurden (niemand hat dem Roboter gezeigt, wie man die Aufgaben macht; es war nur "Zufalls-Chaos").
Aus diesen zufälligen Videos lernt der Freund die Gesetze der Physik. Er versteht: "Wenn ich mich so bewege, passiert das." Er lernt nicht nur, wie die Bilder aussehen, sondern wie sich die Welt anfühlt (z. B. wenn ich gegen eine Wand drücke, passiert X).

Der Clou: Der Roboter trainiert nicht auf rohen Bildern (Pixel), sondern auf einer komprimierten Zusammenfassung (einem "Gedankenbild"). Das ist wie der Unterschied zwischen einem 4K-Film und einer schnellen Skizze, die das Wesentliche erfasst. Das macht das Lernen viel schneller.

3. Der Planer: Der "Glücksrad-Stratege"

Jetzt hat der Roboter dieses Welt-Modell. Aber wie nutzt er es, um eine Entscheidung zu treffen?

MPC (Model Predictive Control) mit Wert-Leitung:
Stellen Sie sich vor, der Roboter steht vor einer Aufgabe (z. B. "Fange den Ball"). Er hat einen Planungs-Horizont von nur 4 Sekunden.
In diesen 4 Sekunden simuliert er im Kopf 1024 verschiedene Szenarien gleichzeitig (wie ein Glücksrad, das 1024 Mal gedreht wird).
- Szenario A: Ich strecke die Hand aus. -> Der Traum-Trainer sagt: "Oh, der Ball trifft dich ins Gesicht." (Schlecht).
- Szenario B: Ich ducke mich und strecke die Hand zur Seite. -> Der Traum-Trainer sagt: "Super! Du fängst den Ball und bleibst stabil." (Gut).
Hier kommt die Wert-Funktion ins Spiel. Das ist wie ein interner Kompass, der jedem Szenario sofort eine Punktzahl gibt. Der Roboter sucht nicht nach dem perfekten Weg, sondern nach dem Weg mit den meisten Punkten. Er wählt den besten Zug, führt ihn aus, und dann beginnt der Prozess sofort von vorne (wie ein Navigator, der jede Sekunde die Route neu berechnet).

4. Die Ergebnisse: Vom Roboter zum Akrobaten

Das Team hat dieses System auf einem echten Roboter (Unitree G1) getestet. Die Ergebnisse waren beeindruckend:

Wand-Stütze: Wenn der Roboter einen Stoß bekommt, lehnt er sich nicht panisch zurück, sondern nutzt seine Hände, um sich gegen die Wand zu stemmen und das Gleichgewicht zu halten.
Ball-Blockade: Er fängt fliegende Objekte ab, anstatt sie auszuweichen.
Durch den Bogen: Er duckt sich geschickt unter niedrigen Hindernissen durch.

Warum ist das so besonders?

Kein Lehrer nötig: Der Roboter hat nie gesehen, wie man diese Aufgaben löst. Er hat nur aus zufälligen Daten gelernt.
Effizienz: Er hat viel weniger Daten benötigt als herkömmliche Methoden.
Allrounder: Ein einziges Modell kann alle diese Aufgaben gleichzeitig meistern. Es vergisst nicht, wie man einen Ball fängt, wenn es lernt, sich gegen eine Wand zu lehnen.

Zusammenfassung in einem Satz

Die Forscher haben einem Roboter einen internen Traum-Trainer gegeben, der aus zufälligen Videos lernt, wie die Welt funktioniert, und einen schnellen Planer, der im Kopf tausende Zukunfts-Szenarien durchspielt, um in Echtzeit die klügste Bewegung zu wählen – ganz ohne menschliche Anleitung oder Millionen von Fehlversuchen.

Das ist ein großer Schritt hin zu Robotern, die nicht nur vorsichtig sind, sondern kreativ und mutig mit ihrer Umgebung interagieren können, genau wie wir Menschen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Arbeit adressiert die Herausforderung, humanoide Roboter in der Lage zu versetzen, physische Kontakte aktiv zu nutzen (z. B. zum Ausbalancieren, Blockieren von Objekten oder Durchschlüpfen), anstatt sie lediglich zu vermeiden. Dies ist entscheidend für die Autonomie in unstrukturierten Umgebungen.

Bestehende Ansätze stoßen hier an Grenzen:

Optimierungsbasierte Planer: Haben Schwierigkeiten mit der Komplexität der Echtzeit-Kontaktplanung und sind empfindlich gegenüber Modellungenauigkeiten.
On-Policy Reinforcement Learning (RL): Ist extrem datenineffizient, besonders bei visuellen Eingaben, und hat Schwierigkeiten beim Multi-Task-Lernen.
Allgemeine Weltmodelle: Oft leiden sie unter kumulierenden Fehlern bei langen Vorhersagehorizonten oder können Kontaktzustände aus verrauschten, teilbeobachtbaren Sensordaten nicht zuverlässig inferieren.

2. Methodik

Das vorgeschlagene Framework kombiniert ein gelerntes Weltmodell mit einem sampling-basierten Model Predictive Control (MPC), das auf einem demonstriationsfreien Offline-Datensatz trainiert wird.

A. Datenkollektion und Low-Level-Controller

Ein Low-Level-Controller (trainiert via PPO in Simulation) führt Motorbefehle aus.
Ein Offline-Datensatz wird generiert, indem der Roboter in der Simulation zufällige Hoch-Level-Aktionen (Endeffektor-Position und Körperhöhe) ausführt.
Wichtig: Es werden keine menschlichen Demonstrationen verwendet. Die Daten bestehen aus Ego-Centric-Tiefenbildern (64x48 Pixel), Propriozeption und zufälligen Aktionen.

B. Das Ego-Vision Weltmodell

Das Modell lernt die Dynamik in einem komprimierten latenten Raum, anstatt rohe Pixel vorherzusagen, um Fehlerakkumulation zu vermeiden.

Architektur: Es nutzt ein rekurrentes neuronales Netz (RNN) für einen deterministischen latenten Zustand $h_t$ und einen stochastischen latenten Zustand $z_t$ für die Beobachtung.
Komponenten:
1. Encoder/Decoder: Rekonstruiert die Beobachtung $o_t$ aus dem latenten Raum.
2. Dynamik-Modell: Vorhersage des nächsten latenten Zustands.
3. Surrogat-Wertfunktion ( $\hat{Q}_t$ ): Schätzt den erwarteten kumulierten Ertrag (Return) direkt aus dem latenten Raum. Dies ist entscheidend, da Belohnungen für Kontakte oft spärlich sind.
4. Terminierungs-Prädiktor ( $\hat{d}_t$ ): Vorhersage der Wahrscheinlichkeit eines Ausfalls (z. B. Sturz).
Verlustfunktion: Besteht aus Rekonstruktionsverlust, Joint-Embedding Predictive Loss (für einen konsistenten latenten Raum) und einem Q-Loss (MSE gegen Monte-Carlo-Ziele).

C. Value-Guided Sampling MPC

Anstatt die Wertfunktion direkt als optimale Policy zu maximieren (was bei Offline-Daten und verrauschten Schätzungen instabil ist), wird sie als Heuristik für die Planung genutzt.

Prozess: Der MPC plant über einen Horizont von $N$ Schritten (Standard: $N=4$ ).
Sampling: Es werden $M=1024$ Kandidaten-Aktionssequenzen gesampelt.
Bewertung: Das Weltmodell simuliert diese Sequenzen im latenten Raum und bewertet sie mittels der Surrogat-Wertfunktion $\hat{Q}$ .
Optimierung: Die Cross-Entropy-Methode (CEM) wird verwendet, um die optimale Aktionssequenz zu finden. Nur die erste Aktion wird ausgeführt, gefolgt von einer Neuplanung (Receding Horizon), um auf Störungen zu reagieren.
Sicherheitsmechanismus: Wenn die Vorhersage für einen Sturz ( $\hat{d}_t$ ) einen Schwellenwert (0.9) überschreitet, wird der Wert der Sequenz auf Null gesetzt.

3. Hauptbeiträge

Skalierbares visuelles Weltmodell: Ein Modell, das dynamische Kontaktaufgaben vollständig auf einem demonstriationsfreien Offline-Datensatz lernt.
Planung von Pixeln mit Wert-Steuerung: Einführung eines MPC-Frameworks, das eine gelernte Surrogat-Wertfunktion nutzt, um die Planung zu leiten und so die Effizienz bei spärlichen Belohnungen zu erhöhen.
Agile Echtzeit-Kontaktplanung: Validierung auf einem physischen Humanoiden (Unitree G1), der ausschließlich auf Ego-Centric-Tiefenbilder und Propriozeption reagiert, um komplexe Kontaktmanöver durchzuführen.

4. Ergebnisse und Experimente

Die Methode wurde in Simulation und auf dem Unitree G1-Roboter getestet.

Aufgaben:
1. Support the Wall: Ausbalancieren durch Abstützen an einer Wand nach einer Störung.
2. Block the Ball: Abfangen eines fliegenden Balls mit den Händen.
3. Traverse the Arch: Durchschlüpfen eines niedrigen Bogens ohne Kopfkontakt.
Vergleich mit Baselines:
- Gegenüber PPO: Das vorgeschlagene Verfahren ist deutlich dateneffizienter (benötigt nur ~0,5M Schritte vs. deutlich mehr für PPO) und übertrifft PPO bei Aufgaben mit komplexen visuellen Perspektivenwechseln (z. B. Hocken und Durchschlüpfen).
- Gegenüber anderen Weltmodellen: Ein reines autoregressives Modell (ARWM) oder MPC mit reinen Belohnungen (Rew-MPC) oder TD-Zielen (TD-MPC) scheiterten oder performten schlechter. Die Surrogat-Wertfunktion erwies sich als robuster gegen Rauschen und Teilbeobachtbarkeit.
Multi-Task-Fähigkeit: Ein einzelnes Modell, das auf gemischten Daten aller Aufgaben trainiert wurde, erreichte vergleichbare oder bessere Leistungen als spezialisierte Single-Task-Modelle. Die t-SNE-Visualisierung zeigte, dass das Modell distincte Cluster für die Dynamik jeder Aufgabe im latenten Raum lernt.
Real-World-Validierung: Der Roboter führte die Aufgaben erfolgreich in Echtzeit (25 Hz) aus und zeigte Generalisierungsfähigkeit auf Out-of-Distribution-Szenarien (z. B. Blockieren eines unbekannten Kartons).

5. Bedeutung und Fazit

Die Arbeit demonstriert, dass humanoide Roboter durch die Kombination von Weltmodellen im latenten Raum und wertgesteuerter MPC effizient und robust komplexe Kontaktverhalten erlernen können, ohne auf teure Demonstrationen oder massive Online-Interaktion angewiesen zu sein.

Dies ist ein wichtiger Schritt hin zu autonomen Robotern, die nicht nur Kollisionen vermeiden, sondern physische Interaktionen strategisch nutzen, um in dynamischen, unstrukturierten Umgebungen zu agieren. Der Ansatz löst das Problem der spärlichen Belohnungen bei Kontaktaufgaben und ermöglicht eine skalierbare Multi-Task-Lernfähigkeit.