ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie möchten einem Roboter beibringen, wie ein menschlicher Diener zu sein. Er soll nicht nur laufen, sondern auch Koffer tragen, Tische verschieben und dabei nicht stolpern oder Dinge fallen lassen. Das ist die große Herausforderung für humanoide Roboter (Roboter mit menschlicher Gestalt).

Das Papier stellt ULTRA vor – eine Art „Super-Controller" für diese Roboter. Hier ist die Erklärung, wie das funktioniert, ohne technische Fachbegriffe, sondern mit ein paar anschaulichen Bildern:

1. Das Problem: Der Roboter ist wie ein starrer Schauspieler

Bisher waren Roboter wie Schauspieler, die nur eine einzige, fest eingeübte Rolle spielen konnten.

Das alte System: Wenn ein Roboter einen Koffer tragen sollte, musste er eine exakte Videobewegung (eine „Referenz") im Kopf haben. Solange das Video lief, war er perfekt. Aber sobald das Video stoppte oder der Koffer anders lag, wusste er nicht weiter. Er war wie ein Tänzer, der nur eine Choreografie beherrscht und bei einem falschen Schritt sofort zusammenbricht.
Das neue Ziel: Wir wollen einen Roboter, der nicht nur nach einem Skript tanzt, sondern versteht, was er tun soll (z. B. „Bringe den Koffer zum Tisch"), auch wenn er nicht genau weiß, wie er seine Beine bewegen muss.

2. Die Lösung: ULTRA – Der dreistufige Meisterplan

ULTRA löst das Problem in drei kreativen Schritten:

Schritt 1: Der „Physik-Übersetzer" (Neural Retargeting)

Stellen Sie sich vor, Sie haben einen Film von einem menschlichen Akrobat, der einen schweren Koffer trägt. Wenn Sie diesen Film einfach auf einen Roboter übertragen, sieht das oft albern aus: Der Roboter würde durch den Boden fallen oder seine Gelenke verdrehen, weil er schwerer ist und anders gebaut ist.

Die Magie von ULTRA: Das System nutzt einen „Physik-Übersetzer". Er nimmt die menschliche Bewegung und passt sie nicht nur optisch an, sondern simuliert dabei die Schwerkraft und die Reibung.
Die Analogie: Es ist wie ein Tanzlehrer, der nicht nur die Armbewegungen kopiert, sondern dem Roboter sagt: „Hey, du bist schwerer, also musst du deine Füße fester auf den Boden drücken, damit du nicht umkippst." So entstehen Millionen von realistischen Trainingsvideos, in denen der Roboter lernt, wie man Objekte greift, ohne zu fallen.

Schritt 2: Der „Privilegierte Lehrer" und der „Schüler" (Distillation)

Jetzt haben wir viele gute Trainingsvideos. Aber wie bringt man dem Roboter bei, sie auch ohne die perfekten Daten zu machen?

Der Lehrer (Teacher): Dieser Roboter-Controller hat „Götter-Augen". Er sieht alles perfekt: Wo ist der Koffer genau? Wie ist mein Gleichgewicht? Er lernt, die Bewegungen perfekt nachzumachen.
Der Schüler (Student): Dieser ist der Roboter in der echten Welt. Er hat nur eine Kamera auf dem Kopf (die oft unscharf ist) und eigene Sensoren. Er sieht nicht alles so klar wie der Lehrer.
Die Analogie: Stellen Sie sich einen Musiklehrer vor, der ein Klavierstück mit perfektem Gehör spielt (Lehrer). Der Schüler (Roboter) muss dasselbe Stück spielen, aber er hat nur ein schlechtes Mikrofon und muss das Lied aus dem Rauschen heraus hören. ULTRA „destilliert" das Wissen des Lehrers in den Schüler. Der Schüler lernt nicht nur die Noten, sondern das Gefühl für die Musik. Er lernt, auch wenn ihm die Noten fehlen (z. B. wenn die Kamera verdeckt ist), die richtige Melodie zu spielen.

Schritt 3: Der „All-in-One"-Modus

Das Geniale an ULTRA ist, dass es alles in einem kann.

Modus A (Dichte Referenz): Wenn Sie dem Roboter eine exakte Videobewegung geben, folgt er ihr wie ein Schatten (perfektes Nachahmen).
Modus B (Sparsame Ziele): Wenn Sie ihm nur sagen „Geh zum Tisch", plant er selbst, wie er dorthin kommt.
Modus C (Eigene Augen): Er kann sogar nur mit seiner eigenen Kamera (ohne externe Kameras) Objekte finden und tragen.

3. Warum ist das so wichtig? (Die Ergebnisse)

Die Forscher haben ULTRA auf einem echten Roboter (dem Unitree G1) getestet.

Das Ergebnis: Der Roboter konnte Dinge tragen, Koffer schleppen und auf Störungen reagieren. Wenn er stolperte, stand er wieder auf. Wenn der Koffer verrutschte, griff er neu zu.
Der Vergleich: Andere Systeme, die nur auf Videovorlagen angewiesen waren, scheiterten, sobald die Vorlage nicht mehr perfekt passte. ULTRA hingegen war wie ein erfahrener Kellner: Er weiß, wie man einen Tablett trägt, egal ob der Boden rutschig ist oder der Gast plötzlich steht.

Zusammenfassung in einem Satz

ULTRA ist wie ein genialer Tanzlehrer, der einem Roboter nicht nur eine Choreografie beibringt, sondern ihm das Gefühl für Balance und Bewegung gibt, sodass er jede Aufgabe meistern kann – egal ob er eine exakte Anleitung hat oder nur ein grobes Ziel im Kopf.

Es ist der Schritt vom „Roboter als Videospielet" zum „Roboter als eigenständigem Helfer".

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Realisierung einer autonomen und vielseitigen Ganzkörper-Lokomanipulation (Bewegung und Manipulation gleichzeitig) bleibt eine der größten Hürden für den praktischen Einsatz von Humanoid-Robotern. Bestehende Ansätze leiden unter drei wesentlichen Einschränkungen:

Datenmangel und Qualität: Retargeting (Übertragung menschlicher Bewegungen auf Roboter) erzeugt oft physikalisch inkonsistente Daten, insbesondere bei kontaktreichen Interaktionen.
Skalierbarkeit: Methoden können sich schwer auf große Repertoires an Fähigkeiten skalieren.
Abhängigkeit von Referenzen: Die meisten Controller verlassen sich auf das Nachverfolgen (Tracking) vordefinierter Bewegungsreferenzen, anstatt Verhalten aus Wahrnehmung und hochrangigen Aufgabenbeschreibungen zu generieren. Dies führt zu einem Trade-off zwischen Präzision (bei dichten Referenzen) und Flexibilität (bei spärlichen Zielen).

Das Ziel von ULTRA ist es, einen einheitlichen Controller zu schaffen, der nahtlos zwischen dichten Bewegungsreferenzen und spärlichen Aufgabenzielen (z. B. „hebe den Koffer") wechseln kann und dabei von präziser Motion-Capture-Daten bis hin zu verrauschten, egozentrischen visuellen Eingaben robust funktioniert.

2. Methodik

ULTRA folgt einem vierstufigen Trainingsparadigma, das physikgetriebenes Retargeting mit einem Lehrer-Schüler-Lernansatz (Teacher-Student Distillation) kombiniert:

A. Physikgetriebenes neuronales Retargeting (Stage 1)

Um die Lücke zwischen menschlichen Motion-Capture (MoCap)-Daten und der physischen Realität des Roboters zu schließen, wird ein RL-basiertes Retargeting eingeführt.

Im Gegensatz zu rein kinematischen Ansätzen, die bei Kontakten oft versagen, wird das Retargeting als Optimierungsproblem unter physikalischen Constraints (Dynamik, Kontakt, Gelenkgrenzen) formuliert.
Ein einzelnes Policy lernt, große MoCap-Datensätze in physikalisch plausible Ganzkörper-Rollouts für den Humanoiden (Unitree G1) zu übersetzen.
Zero-Shot Augmentation: Das System kann Trajektorien und Objekte skaliert werden, ohne das Modell neu zu trainieren, was den Datensatz erheblich erweitert.

B. Privilegierter Lehrer-Controller (Stage 2)

Ein privilegierter Lehrer-Controller ( $\pi_{teacher}$ ) wird trainiert, um die physikalisch korrekten Rollouts aus Stage 1 mit vollem Zustandszugang (Simulator-State) und dichten Referenztrajektorien nachzuverfolgen.

Dieser Lehrer lernt robuste, kontaktbewusste Korrekturen und dient als hochqualitative Supervision für den späteren Schüler.
Durch Domain Randomization und Störungsinjektion wird die Robustheit erhöht.

C. Multimodaler Schüler-Controller (Stage 3)

Der eigentliche ULTRA-Controller ist ein multimodaler Schüler ( $\pi_{student}$ ), der durch Distillation aus dem Lehrer gelernt wird.

Multimodale Eingabe & Availability Masking: Der Schüler erhält nur partielle Beobachtungen (Propriozeption, Zielvorgaben, Objektpose oder egozentrische Punktwolken). Ein „Availability Mask"-Mechanismus ermöglicht es dem Modell, während des Trainings zufällig fehlende Modalitäten zu ignorieren, was es robust gegenüber Sensorausfällen macht.
Latenter Skill-Bottleneck: Ein Variational Autoencoder-Ansatz komprimiert motorische Fähigkeiten in einen latenten Raum ( $z$ ). Ein Prior-Netzwerk sagt den latenten Vektor basierend auf den verfügbaren Eingaben voraus.
RL-Finetuning: Nach der Distillation wird der Schüler mit Reinforcement Learning (PPO) feinabgestimmt. Dabei werden Umgebungen genutzt, die das Erreichen von Zielen (Goal-Reaching) belohnen, anstatt nur Referenzen zu verfolgen. Dies erweitert den Zustandsraum und verbessert die Robustheit bei Out-of-Distribution-Szenarien.

D. Deployment (Stage 4)

Das trainierte Modell kann in verschiedenen Modi eingesetzt werden:

Dichtes Tracking: Bei Vorhandensein von Referenzen wird das Verhalten präzise nachverfolgt.
Zielgesteuerte Steuerung: Bei spärlichen Zielen (z. B. Tastaturbefehle) generiert das Modell die notwendigen Zwischenbewegungen autonom.
Visuelle Manipulation: Das System kann direkt aus egozentrischen Tiefenkameras (Punktwolken) agieren, ohne externe Motion-Capture-Systeme für den Objektszustand.

3. Schlüsselbeiträge

Physikgetriebenes Retargeting: Ein skalierbarer Algorithmus, der große MoCap-Datensätze in physikalisch konsistente Humanoid-Rollouts überführt, ohne pro-Trajektorie-Optimierung.
Einheitlicher Multimodaler Controller: Ein einziges Policy-Modell, das sowohl dichte Referenz-Tracking-Aufgaben als auch spärliche, zielbasierte Aufgaben bewältigt und dabei mit unterschiedlichen Sensorik-Modi (MoCap, Propriozeption, Tiefenkamera) umgehen kann.
Distillation mit RL-Finetuning: Eine Architektur, die die Stabilität des privilegierten Lehrers nutzt, aber durch RL-Finetuning die Fähigkeit entwickelt, in unvorhergesehenen Situationen (OOD) und unter partieller Beobachtbarkeit autonom zu handeln.
Sim-to-Real Transfer: Erfolgreiche Demonstration auf einem echten Unitree G1-Roboter, der komplexe Lokomanipulationsaufgaben (Heben, Tragen von Koffern) autonom ausführt.

4. Ergebnisse

Die Evaluation erfolgte in Simulation (IsaacGym, MuJoCo) und auf dem realen Unitree G1:

Retargeting-Qualität: ULTRA übertrifft Baselines (wie OmniRetarget, PHC) signifikant in Bezug auf physikalische Plausibilität, reduziert Fußrutschen (Foot Skating) und Kontaktverluste (Contact Floating) drastisch.
Tracking-Leistung: Der Schüler erreicht eine Tracking-Genauigkeit, die nahe an den privilegierten Lehrer herankommt, und ist dabei robuster gegen Rauschen und fehlende Sensordaten als direkte RL-Ansätze.
Zielverfolgung (Goal Following): Durch RL-Finetuning verbessert sich die Erfolgsrate bei Out-of-Distribution-Zielen (z. B. zufällige Objektverschiebungen) um das 2- bis 3-fache im Vergleich zu Modellen ohne Finetuning.
Real-World-Erfolg: Auf dem Unitree G1 konnte ULTRA sowohl dichte Referenzbewegungen als auch spärliche Zielbefehle (z. B. „Trage den Koffer zu Punkt X") erfolgreich ausführen. Die Erfolgsraten lagen bei ca. 73–90% für dichte Referenzen und 50–60% für spärliche Ziele unter egozentrischer Wahrnehmung.

5. Bedeutung und Ausblick

ULTRA adressiert einen zentralen Engpass in der Robotik: die Kluft zwischen dem Nachahmen von Referenzbewegungen und der autonomen Generierung von Verhalten basierend auf Wahrnehmung und Absicht.

Paradigmenwechsel: Es bewegt sich weg von reinen „Tracking-Systemen" hin zu einem einheitlichen, adaptiven Framework, das in unstrukturierten Umgebungen funktionieren kann.
Skalierbarkeit: Die Fähigkeit, große MoCap-Datensätze physikalisch korrekt zu nutzen und durch Augmentation zu erweitern, bietet einen skalierbaren Weg, um Humanoid-Robotern komplexe Interaktionsfähigkeiten beizubringen.
Praktische Relevanz: Die Demonstration auf einem echten Roboter ohne externe Motion-Capture-Referenzen während des Betriebs zeigt, dass solche Systeme bereit für den Einsatz in realen, dynamischen Umgebungen sind.

Zusammenfassend stellt ULTRA einen bedeutenden Schritt hin zu wirklich autonomen Humanoiden dar, die nicht nur Bewegungen abspielen, sondern Aufgaben verstehen und eigenständig lösen können.