SCDP: Learning Humanoid Locomotion from Partial Observations via Mixed-Observation Distillation

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie versuchen, einem Roboter beizubringen, wie ein Mensch zu laufen. Das ist eigentlich gar nicht so einfach, wenn man bedenkt, wie komplex das menschliche Gleichgewicht ist.

Bisher gab es ein großes Problem: Um einen Roboter so laufen zu lassen, brauchten die alten Methoden quasi „Gott-Augen". Das heißt, der Roboter musste ständig wissen, wo er sich im Raum befindet, wie schnell er genau läuft und wie sein ganzer Körper im Verhältnis zur Welt steht. In der echten Welt ist das aber unmöglich, weil man dafür teure Kameras oder Sensoren im ganzen Raum braucht. Wenn man diese „Gott-Augen" wegnimmt und nur die Sensoren am Roboter selbst nutzt (wie bei einem Menschen, der nur spürt, wie seine Muskeln ziehen), dann stolperten die Roboter sofort.

Die Lösung: SCDP – Der Roboter mit „intuitivem Bauchgefühl"

Die Forscher von der University College London haben eine neue Methode namens SCDP entwickelt. Man kann sich das wie folgt vorstellen:

1. Der Lehrer und der Schüler (Die „Geheimnisse" des Trainings)

Stellen Sie sich einen Tanzlehrer (den Experten) und einen Schüler vor.

Der Lehrer hat alle Informationen: Er sieht den ganzen Raum, kennt die genaue Geschwindigkeit und die Position jedes Körperteils.
Der Schüler (der Roboter) darf beim Training nur das sehen, was er später auch wirklich sehen wird: Nur seine eigenen Gelenkpositionen und Beschleunigungen.

Das Besondere an SCDP ist nun: Der Schüler lernt, die Bewegungen des Lehrers nachzumachen, aber er darf nicht die Informationen des Lehrers sehen. Er muss sich die fehlenden Informationen (wie „Wie schnell laufe ich gerade wirklich?") selbst aus den Bewegungen und dem Kontext herausdenken.

Es ist, als würde ein Schüler einem Tanzmeister zuschauen, der im Dunkeln tanzt. Der Schüler sieht nur die Silhouette des Lehrers, muss aber trotzdem verstehen, wie der Lehrer das Gleichgewicht hält, ohne dass er die genaue Position der Füße auf dem Boden sieht. Er lernt das „Gefühl" für die Bewegung.

2. Die „Verbotene" Geschwindigkeit (Der Trick mit dem Denoising)

Ein großes Rätsel war: Wie lernt der Roboter, wie schnell er läuft, wenn er keinen Geschwindigkeitssensor hat?
Die Forscher haben einen cleveren Trick angewendet: Während des Trainings haben sie dem Roboter die Geschwindigkeit verheimlicht, aber trotzdem verlangt, dass er die korrekte Bewegung vorhersagt.
Stellen Sie sich vor, Sie müssen einen Ball werfen, aber Ihnen wird nicht gesagt, wie schnell er fliegen soll. Sie müssen es nur aus der Bewegung Ihres Arms und der Schwungkraft ableiten. Der Roboter lernt so, die Geschwindigkeit „im Kopf" zu berechnen, anstatt sie abzufragen. Das nennt die Forscher Restricted Denoising (eingeschränktes Ent-Rauschen).

3. Der Fokus auf das Wesentliche (Aufmerksamkeit)

Der Roboter nutzt eine Art „Aufmerksamkeits-Maske". Das ist wie ein Sehschärfe-Filter. Er lernt, sich auf die wichtigen historischen Daten zu konzentrieren (was habe ich vor 1 Sekunde getan?) und ignoriert irrelevante Informationen. So kann er aus unvollständigen Daten ein klares Bild der Zukunft malen.

Das Ergebnis: Ein Roboter, der wirklich läuft

Das Team hat diese Methode auf einem echten Unitree G1-Humanoiden-Roboter getestet.

In der Simulation: Der Roboter hat fast perfekt funktioniert (99–100% Erfolg), selbst wenn er gestoßen wurde oder neue Wege finden musste.
In der Realität: Der Roboter läuft auf einem echten Körper, ohne externe Kameras, nur mit seinen eigenen Sensoren. Er läuft stabil, weicht Hindernissen aus und folgt Geschwindigkeitsbefehlen, genau wie ein Mensch, der einfach „weiß", wie er laufen muss.

Zusammenfassung in einem Satz:
SCDP ist wie ein genialer Tanztrainer, der einem Roboter beibringt, durch reines „Bauchgefühl" und das Beobachten von Mustern zu laufen, ohne dass er jemals ein GPS oder externe Kameras braucht – er lernt einfach, die Welt aus seiner eigenen Perspektive zu verstehen.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „SCDP: Learning Humanoid Locomotion from Partial Observations via Mixed-Observation Distillation" auf Deutsch:

1. Problemstellung

Die Steuerung von humanoiden Robotern hat sich von reinen Reinforcement-Learning-Ansätzen hin zu Diffusionsmodellen entwickelt, die komplexe Ganzkörperbewegungen ermöglichen. Ein zentrales Hindernis bei der praktischen Anwendung (Deployment) besteht jedoch darin, dass bestehende Methoden auf privilegierten Zustandsinformationen (Privileged State Information) basieren. Diese umfassen globale Positionen, Orientierungen und Basisgeschwindigkeiten, die in der Simulation verfügbar sind, aber auf echten Robotern außerhalb des Labors oft nur durch komplexe, fehleranfällige Zustandsschätzverfahren (State Estimation) oder externe Motion-Capture-Systeme gewonnen werden können.

Das Entfernen dieser privilegierten Eingaben führt zu einem partiell beobachtbaren Markov-Entscheidungsprozess (POMDP). Herkömmliche Diffusions-Policies scheitern in diesem Szenario oft katastrophal, da sie nicht in der Lage sind, aus unvollständigen onboard-Sensordaten (Propriozeption) die globalen Dynamiken des Körpers zu inferieren. Das Ziel dieser Arbeit ist es, eine Policy zu entwickeln, die ausschließlich auf onboard-Sensoren basiert, ohne explizite Zustandsschätzung, und dennoch die Leistung privilegierter Baselines erreicht.

2. Methodik: Sensor-Conditioned Diffusion Policies (SCDP)

Die Autoren stellen SCDP vor, ein Framework zur Distillation (Wissensübertragung) einer Diffusions-Policy von einem Experten-RL-Modell unter Nutzung gemischter Beobachtungen. Der Ansatz besteht aus vier Hauptkomponenten:

A. Mixed-Observation Distillation (Kernidee)

Das zentrale Konzept ist die Entkopplung von Sensierung und Supervision während des Trainings:

Eingabe (Conditioning): Das Diffusionsmodell wird nur auf der Historie von onboard-Sensordaten ( $o_t$ ) konditioniert (z. B. Gelenkwinkel, Gyroskop, Beschleunigungssensoren).
Supervision (Ziel): Das Modell wird jedoch trainiert, privilegierte zukünftige Trajektorien ( $s_t$ ) vorherzusagen, die globale Zustände enthalten.
Effekt: Diese Asymmetrie zwingt das Modell, eine implizite interne Repräsentation zu lernen, um die globalen Körperdynamiken aus den partiellen Sensordaten zu rekonstruieren. Dies eliminiert die Notwendigkeit einer expliziten Zustandsschätzung beim Einsatz.

B. Restricted Denoising (Eingeschränktes Denoising)

Ein spezifisches Problem ist die Kontrolle der Geschwindigkeit ohne direktes Geschwindigkeitsfeedback (da Schätzungen auf Hardware unzuverlässig sind).

Lösung: Während des Trainings werden die pelvis-basierten linearen Geschwindigkeiten ( $v_{pelvis}$ ) aus den Eingaben für das Denoising entfernt, aber im Supervisionsziel (dem zu vorhersagenden Trajektorien) beibehalten.
Ziel: Das Modell wird gezwungen, die Geschwindigkeit implizit aus dem Kontext (historischen Sensordaten) zu inferieren, anstatt sich auf direkte Feedback-Schleifen zu verlassen.

C. Context Distribution Alignment & Attention Masking

Kontext-Alignment: Um den Verteilungsunterschied zwischen Training und Inferenz zu minimieren, wird das Training mit verrauschten Zustands-Aktions-Paaren durchgeführt, die den Bedingungen beim Deployment entsprechen. Dies erhält die kausale Beziehung zwischen Zustand, Aktion und nächstem Zustand.
Kontextbewusste Attention-Maskierung: Im Gegensatz zu früheren Arbeiten, die strikte kausale Masken verwenden, erlaubt SCDP bidirektionale Attention innerhalb des Kontextfensters. Dies ermöglicht dem Modell, historische Informationen beidseitig zu aggregieren, um latente Dynamiken besser zu inferieren.

D. Architektur und Training

Experte: Ein Multi-Motion Tracking Policy (MMP), trainiert mit PPO in IsaacLab, dient als Lehrer.
Diffusionsmodell: Ein Transformer-basiertes Modell (6 Layer, 4 Attention Heads) nutzt DDPM (Denoising Diffusion Probabilistic Models) zur Generierung von Zustands-Aktions-Trajektorien.
Daten: Es werden 5.200 Trajektorien aus dem AMASS-Datensatz verwendet, erweitert durch Stochastic Actions, Domain Randomization und externe Stöße (Push Forces).

3. Schlüsselbeiträge

Mixed-Observation Training: Ermöglicht das Lernen globaler Dynamiken aus partiellen Sensordaten durch die Asymmetrie zwischen Eingabe (Sensoren) und Ziel (privilegierte Zustände).
Restricted Denoising: Erzwingt die Inferenz von Geschwindigkeit aus dem Kontext, was eine robuste Geschwindigkeitsregelung ohne direktes Feedback ermöglicht.
Kontext-Alignment & Attention: Verbessert die Konsistenz zwischen Training und Deployment und unterstützt die Inferenz latenter Zustände.
Real-Robot Deployment: Erfolgreicher Einsatz auf einem Unitree G1 Humanoiden mit 50 Hz, ohne externe Sensoren oder Zustandsschätzung.

4. Ergebnisse

Die Evaluation erfolgte in Simulation (IsaacLab) und auf der echten Hardware.

Vergleich mit Baselines:
- Herkömmliche Diffusions-Policies, die nur auf Sensordaten basieren (ohne privilegierte Ziele), zeigen drastische Leistungseinbußen (z. B. 5–22 % Erfolg bei Joystick-Steuerung).
- SCDP erreicht mit reinen Sensordaten 99–100 % Erfolg bei Geschwindigkeitssteuerung und 93 % Erfolg beim Nachführen von Bewegungsreferenzen (AMASS-Testset).
- Die Leistung von SCDP ist mit derjenigen privilegierter Baselines (die globale Zustände kennen) vergleichbar.
Ablationsstudien:
- Mixed-Observation Training ist essenziell; ohne dieses fällt die Leistung auf 1,4 %.
- Restricted Denoising und Context Alignment sind kritisch für die Robustheit, insbesondere ohne Geschwindigkeitsfeedback.
- Eine längere Kontextlänge (16 Schritte) verschlechtert die Leistung aufgrund von kumulativen Fehlern; 4–8 Schritte sind optimal.
Hardware-Einsatz:
- Auf dem Unitree G1 wurde das Modell mit 50 Hz in einer geschlossenen Schleife ausgeführt (Inferenz auf einer RTX 5090 Workstation).
- Der Roboter zeigte robustes Laufen, Sturzvermeidung bei Störungen und präzises Nachführen von Geschwindigkeitsbefehlen ohne externe Motion-Capture-Systeme.

5. Bedeutung und Fazit

Das Paper adressiert eine kritische Lücke in der Robotik: Die Übertragung von hochkomplexen, in der Simulation trainierten Diffusions-Policies auf reale Roboter, die keine privilegierten Sensoren besitzen.

Paradigmenwechsel: SCDP beweist, dass Diffusionsmodelle effektiv als „implizite Zustandsschätzer" fungieren können, wenn sie durch Mixed-Observation Distillation trainiert werden.
Praktische Relevanz: Die Methode ermöglicht den Einsatz von fortschrittlichen humanoiden Kontrollsystemen in realen Umgebungen, wo externe Tracking-Systeme oft nicht verfügbar oder unzuverlässig sind.
Zukunftsperspektiven: Die Arbeit legt den Grundstein für weitere Forschung zu Sim-to-Real-Feinabstimmung ohne privilegierte Zustände, Drift-Korrektur bei langen Trajektorien und komplexen Manipulationsaufgaben.

Zusammenfassend stellt SCDP einen bedeutenden Fortschritt dar, der die Abhängigkeit von teurer Hardware und komplexer Zustandsschätzung überwindet und robuste, sensorbasierte Steuerung für humanoide Roboter ermöglicht.