InterReal: A Unified Physics-Based Imitation Framework for Learning Human-Object Interaction Skills

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, ein Roboter ist wie ein hochbegabter Tänzer. Bisher konnten diese Roboter (wie der Unitree G1 in der Studie) bereits fantastisch tanzen, springen und laufen. Sie beherrschen ihre eigenen Gliedmaßen perfekt. Aber sobald sie etwas greifen oder schieben sollen – also mit einem Objekt interagieren –, wird es für sie schwierig. Es ist, als würde ein Tänzer versuchen, mit einem unsichtbaren Partner zu tanzen, ohne zu wissen, wo dieser Partner ist oder wie schwer er ist.

Das Papier stellt InterReal vor, ein neues System, das diese Roboter zu echten „Handwerkern" macht, die Objekte sicher und geschickt bewegen können. Hier ist die Erklärung, wie das funktioniert, mit ein paar einfachen Bildern:

1. Das Problem: Der Roboter ist zu starr

Frühere Methoden waren wie ein Schauspieler, der eine Rolle nur nach einem starren Skript spielt. Wenn der „Partner" (das Objekt) sich ein bisschen verschiebt, stolpert der Roboter oder fällt hin. Er lernt nicht wirklich, wie man mit einem Gegenstand umgeht, sondern nur, wie er eine Bewegung nachahmt.

2. Die Lösung: InterReal – Der „Profi-Trainer"

InterReal ist wie ein intelligenter Trainer, der dem Roboter zwei neue Superkräfte gibt:

A. Der „Was-wäre-wenn"-Trainingscamp (Motion Augmentation)

Stellen Sie sich vor, Sie üben, einen schweren Koffer zu tragen.

Der alte Weg: Sie üben nur, den Koffer genau an einer Stelle zu greifen.
Der InterReal-Weg: Der Trainer wirft den Koffer während des Trainings immer ein bisschen hin und her (nach links, nach rechts, ein bisschen höher). Der Roboter muss lernen, seine Arme sofort anzupassen, damit er den Koffer trotzdem nicht fallen lässt.

Technisch nennt man das Bewegungs-Augmentation. Das System nimmt eine einzige Bewegung (z. B. ein Kastenheben) und erzeugt tausende Variationen davon, bei denen der Kasten an verschiedenen Orten liegt. Der Roboter lernt dadurch, dass er nicht starr sein muss, sondern flexibel auf Veränderungen reagieren kann. Er wird zum „Schwimmer", der auch in stürmischen Wellen (wackelnden Objekten) nicht untergeht.

B. Der „Selbstlernende Noten-Geber" (Automatic Reward Learner)

Das ist vielleicht der cleverste Teil. Beim Training von Robotern muss man ihnen oft Punkte geben (Belohnungen), wenn sie etwas gut machen.

Das Problem: Ein menschlicher Trainer müsste stundenlang überlegen: „Gib ihm 5 Punkte für das Greifen, aber nur 2 für das Gehen, und wenn er kippt, ziehe 10 Punkte ab." Das ist extrem schwer und oft falsch.
Die InterReal-Lösung: Statt eines menschlichen Trainers gibt es einen Meta-Trainer (eine Art KI-Coach), der beobachtet, wie gut der Roboter gerade läuft.
- Wenn der Roboter wackelt, sagt der Meta-Trainer: „Achtung! Balance ist jetzt wichtiger als das Greifen!" und gibt mehr Punkte für das Gleichgewicht.
- Wenn der Roboter stabil ist, sagt er: „Gut, jetzt konzentrieren wir uns darauf, den Kasten genau an die richtige Stelle zu legen."

Dieser Coach passt die „Noten" (die Belohnungsfunktion) in Echtzeit an, genau wie ein guter Musiklehrer, der einem Schüler sagt: „Heute üben wir die Tonhöhe, morgen das Tempo." So lernt der Roboter viel schneller und effizienter.

3. Das Ergebnis: Vom Simulator zur echten Welt

Die Forscher haben dieses System auf einem echten Roboter (dem Unitree G1) getestet.

Aufgabe 1: Einen schweren Karton aufheben und tragen.
Aufgabe 2: Einen Karton vorschieben.

Das Ergebnis war beeindruckend: Der Roboter schaffte es in 96 % der Fälle, den Karton zu heben, ohne hinzufallen (bei anderen Methoden waren es oft nur 77 %). Er konnte sich anpassen, wenn der Karton verrutschte, und bewegte sich flüssig, als würde er es schon immer können.

Zusammenfassung in einem Satz

InterReal ist wie ein Tanztrainer, der dem Roboter nicht nur eine feste Choreografie zeigt, sondern ihn in einem chaotischen Trainingslager mit sich bewegenden Partnern üben lässt und ihm gleichzeitig einen Coach an die Seite stellt, der ihm genau sagt, worauf er in jedem Moment achten muss. Das macht aus einem starren Roboter einen geschickten Handwerker, der auch in der echten, unperfekten Welt arbeiten kann.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „InterReal: A Unified Physics-Based Imitation Framework for Learning Human–Object Interaction Skills" auf Deutsch:

1. Problemstellung

Derzeitige Fortschritte bei humanoiden Robotern basieren oft auf Deep Reinforcement Learning (DRL) mit Bewegungsimitation (Motion Imitation), die jedoch primär auf die ganze Körpersteuerung ohne Interaktion (z. B. Gehen, Springen) fokussiert sind. Diese Ansätze scheitern häufig bei komplexen Mensch-Objekt-Interaktionen (HOI), da sie:

Die physikalischen Constraints der realen Welt (z. B. Kontaktkräfte, Reibung) oft nur unzureichend modellieren.
Schwierigkeiten haben, auf Störungen der Objektstellung (Perturbationen) zu reagieren, was zu einem „Out-of-Distribution"-Versagen der gelernten Strategien führt.
Auf eine manuelle, oft suboptimale Gestaltung von Belohnungsfunktionen (Reward Shaping) angewiesen sind, die bei komplexen HOI-Aufgaben schwer zu balancieren ist.
Häufig auf Teleoperation angewiesen sind, was die Autonomie des Roboters einschränkt.

Das Ziel ist es, einen Framework zu entwickeln, der es humanoiden Robotern ermöglicht, HOI-Aufgaben (wie das Greifen und Schieben von Objekten) autonom, stabil und in der realen Welt zu bewältigen.

2. Methodik: InterReal Framework

InterReal ist ein physikbasiertes Imitationslern-Framework, das zwei Hauptkomponenten integriert, um die oben genannten Herausforderungen zu lösen:

A. HOI-Bewegungs-Augmentierung (Motion Augmentation)

Um die Robustheit gegenüber Störungen der Objektstellung zu erhöhen, wird ein Augmentierungsverfahren eingeführt:

Prinzip: Aus einer validierten Referenzbewegung (Anker-Motion) werden durch Hinzufügen von Versätzen ( $\Delta x, \Delta y$ ) an der Objektposition neue Bewegungsabläufe generiert.
Inverse Kinematik (IK): Während die Objektposition verschoben wird, werden die Gelenkwinkel der Arme mittels IK so berechnet, dass die Kontaktdetails zwischen Hand und Objekt (Hand-Object Contact Constraints) konsistent mit der ursprünglichen Bewegung bleiben.
Ziel: Dies erzeugt einen Datensatz multipler Trajektorien für dieselbe Aufgabe, was die Generalisierungsfähigkeit der Policy gegenüber unvorhergesehenen Objektstellungen im Training verbessert.

B. Automatischer Belohnungslerner (Automatic Reward Learner)

Statt statischer, manuell gewichteter Belohnungsfunktionen wird ein Meta-Lern-Ansatz verwendet:

Meta-Policy ( $\mu_{meta}$ ): Ein übergeordneter Agent (basierend auf Soft Actor-Critic, SAC) lernt, die Gewichte der untergeordneten Belohnungsterme dynamisch anzupassen.
Steuerung: Die Meta-Policy wird durch kritische Tracking-Fehlermetriken (z. B. Gelenkposition, Objektstellung, Link-Position) geleitet. Sie erkennt den aktuellen Lernfortschritt und den Phasenstatus der Bewegung und passt die Gewichte der Sub-Belohnungen (z. B. Balance vs. Objektkontakt) entsprechend an.
Asymmetrischer Actor-Critic: Der Actor erhält nur „unvollkommene" Zustände (ohne Objektgeschwindigkeit/Rotation, die in der Realität schwer zu messen sind), während der Critik Zugriff auf perfekte Zustände hat. Dies reduziert die Sim-to-Real-Lücke.

C. Gesamtarchitektur

Der Workflow umfasst:

Vorverarbeitung: Retargeting von SMPL-Mocap-Daten auf den Unitree G1-Roboter und physikalische Verifizierung in IsaacGym.
Training: Ein zweistufiger Prozess mit einem inneren Loop (PPO für die HOI-Policy) und einem äußeren Loop (SAC für die Optimierung der Belohnungsgewichte).
Deployment: Validierung in MuJoCo und Einsatz auf dem realen Unitree G1-Roboter unter Verwendung von FoundationPose zur Echtzeit-Objektpositionsschätzung.

3. Schlüsselbeiträge

Unified Framework: Ein erstes physikbasiertes Framework, das Motion Imitation und HOI-Kontrolle für reale humanoide Roboter vereint.
Robustheitssteigerung: Durch die IK-basierte Bewegungs-Augmentierung wird die Toleranz gegenüber Objektverschiebungen signifikant erhöht.
Adaptive Belohnung: Die Einführung eines Meta-Lerners zur automatischen, phasenabhängigen Gewichtung von Belohnungstermen löst das Problem des manuellen Reward-Designs bei komplexen Interaktionen.
Real-World Validierung: Erfolgreicher Einsatz auf dem Unitree G1-Roboter mit Echtzeit-Feedback, was über reine Simulationen hinausgeht.

4. Ergebnisse

Die Methode wurde an zwei anspruchsvollen Aufgaben getestet: Box-Picking (Kiste heben) und Box-Pushing (Kiste schieben).

Tracking-Genauigkeit: InterReal erzielte auf fast allen Metriken (Gelenkwinkel, Objektstellung, Link-Positionen) die geringsten Fehler im Vergleich zu Baselines wie ASAP* und InterMimic*.
- Beispiel Box-Picking: Reduktion des Fehlerwerts für die Objektstellung ( $E_{mope}$ ) von 0.0032 (InterMimic*) auf 0.0021 (InterReal).
Erfolgsrate: InterReal erreichte die höchste Erfolgsrate bei der Aufgabenbewältigung ohne Sturz.
- Box-Picking: 96,41 % (vs. 84,72 % bei InterMimic*).
- Box-Pushing: 87,45 % (vs. 79,10 % bei InterMimic*).
Ablationsstudie: Die Studie zeigte, dass sowohl die Bewegungs-Augmentierung als auch der automatische Belohnungslerner essenziell für die Leistung sind. Ohne den automatischen Lerner (statische Gewichte) verschlechterte sich die Performance drastisch.
Adaptivität: Visualisierungen zeigen, dass die Meta-Policy die Gewichte der Belohnungen dynamisch an die Bewegungsphase anpasst (z. B. höheres Gewicht auf Balance zu Beginn, auf Kontakt während des Greifens).

5. Bedeutung und Ausblick

InterReal stellt einen bedeutenden Schritt hin zu autonomen humanoiden Robotern dar, die nicht nur laufen, sondern interagieren können.

Praktische Relevanz: Die Fähigkeit, HOI-Aufgaben in der realen Welt mit Störungen zu bewältigen, öffnet Türen für industrielle Anwendungen und Service-Robotik.
Überwindung von Limitationen: Das Framework adressiert die Lücke zwischen animierten Simulationen und physikalisch korrekter Robotiksteuerung.
Zukünftige Herausforderungen: Die Autoren identifizieren weiterhin bestehende Probleme bei starken Objektverschiebungen, die durch die passive Objektverfolgung und Latenzen in der realen Objekterkennung verursacht werden, als zukünftigen Forschungsfokus.

Zusammenfassend demonstriert InterReal, dass die Kombination aus physikalisch fundierter Bewegungs-Augmentierung und meta-gesteuertem Belohnungslernen eine robuste und hochpräzise Mensch-Objekt-Interaktion auf realen humanoiden Robotern ermöglicht.