SCDP: Learning Humanoid Locomotion from Partial Observations via Mixed-Observation Distillation

Die Arbeit stellt SCDP vor, einen Sensor-geführten Diffusionsansatz, der durch eine gemischte Beobachtungstraining-Methode die robuste Steuerung von humanoider Lokomotion ausschließlich auf Basis onboarder Sensoren ermöglicht und dabei den Bedarf an komplexer Zustandsabschätzung eliminiert.

Milo Carroll, Tianhu Peng, Lingfan Bao, Chengxu Zhou, Zhibin Li

Veröffentlicht Wed, 11 Ma
📖 3 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie versuchen, einem Roboter beizubringen, wie ein Mensch zu laufen. Das ist eigentlich gar nicht so einfach, wenn man bedenkt, wie komplex das menschliche Gleichgewicht ist.

Bisher gab es ein großes Problem: Um einen Roboter so laufen zu lassen, brauchten die alten Methoden quasi „Gott-Augen". Das heißt, der Roboter musste ständig wissen, wo er sich im Raum befindet, wie schnell er genau läuft und wie sein ganzer Körper im Verhältnis zur Welt steht. In der echten Welt ist das aber unmöglich, weil man dafür teure Kameras oder Sensoren im ganzen Raum braucht. Wenn man diese „Gott-Augen" wegnimmt und nur die Sensoren am Roboter selbst nutzt (wie bei einem Menschen, der nur spürt, wie seine Muskeln ziehen), dann stolperten die Roboter sofort.

Die Lösung: SCDP – Der Roboter mit „intuitivem Bauchgefühl"

Die Forscher von der University College London haben eine neue Methode namens SCDP entwickelt. Man kann sich das wie folgt vorstellen:

1. Der Lehrer und der Schüler (Die „Geheimnisse" des Trainings)

Stellen Sie sich einen Tanzlehrer (den Experten) und einen Schüler vor.

  • Der Lehrer hat alle Informationen: Er sieht den ganzen Raum, kennt die genaue Geschwindigkeit und die Position jedes Körperteils.
  • Der Schüler (der Roboter) darf beim Training nur das sehen, was er später auch wirklich sehen wird: Nur seine eigenen Gelenkpositionen und Beschleunigungen.

Das Besondere an SCDP ist nun: Der Schüler lernt, die Bewegungen des Lehrers nachzumachen, aber er darf nicht die Informationen des Lehrers sehen. Er muss sich die fehlenden Informationen (wie „Wie schnell laufe ich gerade wirklich?") selbst aus den Bewegungen und dem Kontext herausdenken.

Es ist, als würde ein Schüler einem Tanzmeister zuschauen, der im Dunkeln tanzt. Der Schüler sieht nur die Silhouette des Lehrers, muss aber trotzdem verstehen, wie der Lehrer das Gleichgewicht hält, ohne dass er die genaue Position der Füße auf dem Boden sieht. Er lernt das „Gefühl" für die Bewegung.

2. Die „Verbotene" Geschwindigkeit (Der Trick mit dem Denoising)

Ein großes Rätsel war: Wie lernt der Roboter, wie schnell er läuft, wenn er keinen Geschwindigkeitssensor hat?
Die Forscher haben einen cleveren Trick angewendet: Während des Trainings haben sie dem Roboter die Geschwindigkeit verheimlicht, aber trotzdem verlangt, dass er die korrekte Bewegung vorhersagt.
Stellen Sie sich vor, Sie müssen einen Ball werfen, aber Ihnen wird nicht gesagt, wie schnell er fliegen soll. Sie müssen es nur aus der Bewegung Ihres Arms und der Schwungkraft ableiten. Der Roboter lernt so, die Geschwindigkeit „im Kopf" zu berechnen, anstatt sie abzufragen. Das nennt die Forscher Restricted Denoising (eingeschränktes Ent-Rauschen).

3. Der Fokus auf das Wesentliche (Aufmerksamkeit)

Der Roboter nutzt eine Art „Aufmerksamkeits-Maske". Das ist wie ein Sehschärfe-Filter. Er lernt, sich auf die wichtigen historischen Daten zu konzentrieren (was habe ich vor 1 Sekunde getan?) und ignoriert irrelevante Informationen. So kann er aus unvollständigen Daten ein klares Bild der Zukunft malen.

Das Ergebnis: Ein Roboter, der wirklich läuft

Das Team hat diese Methode auf einem echten Unitree G1-Humanoiden-Roboter getestet.

  • In der Simulation: Der Roboter hat fast perfekt funktioniert (99–100% Erfolg), selbst wenn er gestoßen wurde oder neue Wege finden musste.
  • In der Realität: Der Roboter läuft auf einem echten Körper, ohne externe Kameras, nur mit seinen eigenen Sensoren. Er läuft stabil, weicht Hindernissen aus und folgt Geschwindigkeitsbefehlen, genau wie ein Mensch, der einfach „weiß", wie er laufen muss.

Zusammenfassung in einem Satz:
SCDP ist wie ein genialer Tanztrainer, der einem Roboter beibringt, durch reines „Bauchgefühl" und das Beobachten von Mustern zu laufen, ohne dass er jemals ein GPS oder externe Kameras braucht – er lernt einfach, die Welt aus seiner eigenen Perspektive zu verstehen.