APEX: Learning Adaptive High-Platform Traversal for Humanoid Robots

Each language version is independently generated for its own context, not a direct translation.

APEX: Wie ein Roboter lernt, wie ein Kletterkünstler über hohe Hindernisse zu steigen

Stellen Sie sich einen humanoiden Roboter vor, der wie ein Mensch auf zwei Beinen läuft. Bisher waren diese Roboter ziemlich gut darin, über unebenes Gelände zu stolpern oder kleine Stufen zu überwinden. Aber wenn es darum ging, auf eine hohe Plattform zu klettern – sagen wir, höher als ihre eigenen Beine lang sind – kamen sie oft ins Stocken.

Frühere Versuche, solche Hindernisse zu überwinden, basierten oft auf dem „Springen". Das ist wie ein Känguru: Man hüpft hoch. Das Problem? Um wirklich hoch zu springen, braucht man enorme Kraft, und wenn man landet, ist der Aufprall so hart, dass die Roboter-Gelenke brechen könnten oder sie einfach umkippen. Es ist wie zu versuchen, auf einen hohen Zaun zu springen, ohne die Hände zu benutzen – riskant und oft schmerzhaft.

Die Forscher von APEX (ein System von der Carnegie Mellon University und Bosch) haben eine viel schlauere Idee entwickelt. Statt zu springen, haben sie dem Roboter beigebracht, zu klettern, genau wie ein Mensch, der eine Leiter hochsteigt oder über eine Mauer balanciert.

Hier ist die Geschichte, wie das funktioniert, einfach erklärt:

1. Der Kletter-Sportler statt der Spring-Maus

Stellen Sie sich vor, Sie müssen über eine hohe Mauer. Ein Roboter, der nur springt, würde versuchen, mit einem gewaltigen Sprung darüber zu kommen. Der APEX-Roboter hingegen denkt: „Ich nutze meine Arme, meinen Rumpf und meine Beine."
Er macht vier Dinge, die wir Menschen auch tun:

Hochklettern: Er greift mit den Händen über den Rand und zieht sich hoch.
Runterklettern: Er tastet sich vorsichtig abwärts.
Aufstehen: Wenn er auf dem Boden liegt, richtet er sich auf.
Hinlegen: Wenn er auf der Plattform ist, legt er sich flach, um sich durch enge Lücken zu schieben.

Das ist wie ein Akrobat, der nicht nur springt, sondern seinen ganzen Körper koordiniert, um sicher und kontrolliert ans Ziel zu kommen.

2. Der „Ratchet"-Belohnung: Der unerbittliche Fortschritts-Coach

Das Schwierigste beim Lernen solcher Bewegungen für einen Computer ist: Wie belohnt man ihn, wenn er noch nicht ganz oben ist? Wenn man ihn nur belohnt, wenn er fertig ist, lernt er nichts, weil er zu lange braucht, um dorthin zu gelangen.

Die Forscher haben eine clevere Belohnungsmethode erfunden, die sie „Ratchet-Progress" nennen. Stellen Sie sich einen Ratschen-Schraubenschlüssel vor. Dieser Mechanismus lässt sich nur in eine Richtung drehen – vorwärts. Er lässt kein Zurück zu.

Wie es funktioniert: Der Roboter bekommt eine Belohnung nur dann, wenn er sich besser befindet als zu jedem vorherigen Moment. Wenn er einen Schritt zurück macht oder auf der Stelle tritt, bekommt er eine Strafe.
Der Clou: Es geht nicht darum, wie schnell er geht. Es geht darum, dass er sich vorwärts bewegt. Das erlaubt dem Roboter, geduldig zu sein. Er darf kurz stehen bleiben, um einen sicheren Halt zu finden (wie wenn Sie auf einer Leiter kurz innehalten, um sicher zu sein), solange er am Ende weiterkommt.
Warum das wichtig ist: Ohne diese Regel würde der Roboter versuchen, alles mit roher Gewalt und extremen Sprüngen zu erledigen, was ihn umwerfen würde. Mit der Ratsche lernt er, vorsichtig und sicher zu klettern.

3. Die „Schüler-Lehrer"-Methode: Vom Spezialisten zum Allrounder

Ein einzelner Roboter-Verstand ist oft zu überfordert, wenn er gleichzeitig Klettern, Laufen, Liegen und Aufstehen lernen soll. Also haben die Forscher einen zweistufigen Plan entwickelt:

Die Lehrer (Spezialisten): Zuerst trainieren sie sechs verschiedene „Lehrer-Roboter". Jeder ist ein Spezialist für eine Sache: Einer ist der beste Kletterer, einer der beste Läufer, einer der beste Lieger. Sie lernen in einer Simulation, wo sie Fehler machen dürfen, ohne sich zu verletzen.
Der Schüler (Der Allrounder): Dann nehmen sie all dieses Wissen und „destillieren" es in einen einzigen „Schüler-Roboter". Dieser Schüler lernt von den Lehrern, wann er welche Technik anwenden muss.
- Die Analogie: Stellen Sie sich einen General vor, der sechs verschiedene Spezialisten (einen Schwimmer, einen Kletterer, einen Läufer) in sich vereint. Wenn er an ein Hindernis kommt, fragt er sich: „Bin ich am Rand? Dann rufe ich den Kletterer." „Bin ich oben? Dann rufe ich den Läufer."

4. Die Augen des Roboters: Sehen durch den Nebel

Roboter sehen die Welt oft anders als wir. Ihre Kameras oder Laser-Scanner (LiDAR) können durch Bewegung verwackeln oder durch Reflexionen getäuscht werden. Es ist, als würde man versuchen, eine Treppe zu erklimmen, während man durch eine undurchsichtige Brille schaut.

Die Forscher haben dem Roboter beigebracht, mit „verrauschten" Bildern umzugehen.

Im Training: Sie haben dem Roboter absichtlich falsche Daten gegeben (wie Geisterpunkte im Bild), damit er lernt, sich nicht täuschen zu lassen.
In der Realität: Wenn der Roboter in der echten Welt ist, reinigt er die Daten sofort, entfernt die „Geister" und füllt Lücken in der Karte auf. So sieht er die Plattform klar, auch wenn seine Sensoren kurzzeitig verrückt spielen.

Das Ergebnis: Ein Roboter, der wie ein Mensch klettert

Am Ende haben sie den Roboter auf einen echten Unitree G1 (ein 29-Gelenk-Humanoid-Roboter) geladen. Das Ergebnis war beeindruckend:

Der Roboter konnte 0,8 Meter hohe Plattformen überwinden. Das ist höher als seine eigenen Beine lang sind (ca. 114 %).
Er hat das ohne menschliches Eingreifen gemacht. Er hat die Umgebung gescannt, entschieden, ob er klettern, laufen oder liegen muss, und die Bewegungen flüssig ausgeführt.
Selbst wenn man ihn während des Kletterns von hinten anstieß (ein „Kick"), konnte er das Gleichgewicht halten, sich stabilisieren und weiterklettern.

Zusammenfassend:
APEX ist wie ein Roboter-Akrobat, der nicht mehr wild herumhüpft, sondern lernt, sich mit dem ganzen Körper geschickt, sicher und intelligent durch eine komplexe Welt zu bewegen. Es ist der Unterschied zwischen jemandem, der versucht, über eine Mauer zu springen und dabei stürzt, und jemandem, der die Mauer langsam, aber sicher überwindet, indem er sich festhält und sich hochzieht.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „APEX: Learning Adaptive High-Platform Traversal for Humanoid Robots" auf Deutsch:

1. Problemstellung

Die Fortbewegung von humanoiden Robotern über unebenes Gelände hat sich durch Deep Reinforcement Learning (DRL) erheblich verbessert. Ein verbleibendes, kritisches Hindernis ist jedoch die Überwindung von Plattformen, die höher sind als die Beinlänge des Roboters (z. B. Tische oder hohe Kanten).

Herausforderung: Bisherige RL-Ansätze neigen dazu, „springende" Lösungen zu finden, die für hohe Plattformen unzureichend sind. Springen erfordert große Impulsdrehmomente, führt zu hohen Aufprallkräften und ist für den realen Einsatz oft unsicher oder durch die Aktuatoren limitiert.
Komplexität: Das Überqueren extrem hoher Plattformen erfordert nicht nur das Springen, sondern eine Kombination aus komplexen Ganzkörper-Manövern (Klettern, Aufstehen, Hinlegen, Krabbeln) und der autonomen Auswahl dieser Fähigkeiten basierend auf der Umgebung. Dies stellt ein langfristiges, sequenzielles Problem dar, das die Integration von Wahrnehmung, Entscheidungsfindung und Regelung erschwert.

2. Methodik: Das APEX-System

Das vorgeschlagene System APEX nutzt einen zweistufigen Lernrahmen, um adaptive, kletterbasierte Überquerungen zu ermöglichen.

A. Generalisierter „Ratchet Progress"-Reward (Schritt 1: Training der Einzelskills)

Um die vier kontaktreichen Ganzkörper-Manöver (Hochklettern, Herunterklettern, Aufstehen, Hinlegen) zu lernen, wird ein neuartiger Belohnungsmechanismus eingeführt:

Prinzip: Anstatt eine Referenzbahn zu verfolgen, wird der Fortschritt als „Best-So-Far"-Zustand ( $x^*_t$ ) definiert. Der Agent erhält eine Belohnung nur, wenn er diesen historischen Bestwert strikt verbessert ( $x_t > x^*_t$ ).
Vorteile:
- Dichte, geschwindigkeitsfreie Überwachung: Der Reward signalisiert Fortschritt ohne den Agenten zu zwingen, schnell zu sein. Dies ermöglicht geduldiges, kontaktbewusstes Explorieren (z. B. Warten, bis ein Kontakt stabil ist), was für Sicherheit und Stabilität entscheidend ist.
- Verhinderung von „Rückwärts"-Ausbeutung: Im Gegensatz zu einfachen Distanz-Rewards verhindert die Historie-Abhängigkeit, dass der Agent durch Hin- und Herbewegen (Oszillation) Belohnungen sammelt, ohne tatsächlich voranzukommen.
- Sicherheit: Da keine Geschwindigkeit belohnt wird, können Sicherheitsregularisierungen (z. B. Begrenzung von Kontaktkräften) effektiv wirken, ohne gegen einen starken Geschwindigkeitsanreiz zu kämpfen.

B. Wahrnehmung und Sim-to-Real-Transfer

Das System nutzt LiDAR-basierte Höhenkarten (Elevation Mapping) zur Geländewahrnehmung. Um die Lücke zwischen Simulation und Realität (Sim-to-Real) zu schließen, wird eine duale Strategie angewendet:

Modellierung von Artefakten im Training: Während des Trainings werden künstliche Störungen (Gaußsches Rauschen, Lokalisierungsdrift, synthetische Ausreißer-Cluster) in die Höhenkarten injiziert, um den Roboter robust gegenüber Unsicherheiten zu machen.
Nachbearbeitung in der Realität: Beim Einsatz werden Rohdaten gefiltert und fehlende Bereiche durch Inpainting-Algorithmen rekonstruiert, um eine strukturell kohärente Geländedarstellung zu gewährleisten.

C. Policy Distillation (Schritt 2: Integration)

Um die sechs gelernten Fähigkeiten (4 Manöver + 2 zyklische Fortbewegungen: Gehen/Krabbeln) in einen einzigen Controller zu vereinen:

Lehrer-Schüler-Architektur: Zuerst werden sechs spezialisierte „Lehrer"-Policies trainiert. Anschließend wird eine einheitliche „Schüler"-Policy durch Distillation (Behavior Cloning und DAgger) trainiert.
Datenverteilung: Um das Problem unausgewogener Daten zu lösen, wird eine „Teile-und-Herrsche"-Strategie verwendet, bei der Trainingsumgebungen spezifisch für einzelne Skills oder Übergänge zwischen zwei aufeinanderfolgenden Skills konfiguriert werden.
Kontextbewusstsein: Die finale Policy wählt autonom basierend auf der LiDAR-Wahrnehmung und Benutzerbefehlen den richtigen Skill aus und führt nahtlose Übergänge durch.

3. Wichtige Beiträge

Einheitlicher Framework für adaptive Hoch-Plattform-Überquerung: Integration von kontaktreichen Ganzkörper-Manövern und zyklischer Fortbewegung in einem einzigen Controller.
Generalisierter Ratchet Progress Reward: Ein neuartiger Reward-Mechanismus, der dichte, geschwindigkeitsfreie Überwachung für das Lernen von sicheren, zielgerichteten Manövern bietet.
Erster realer Durchbruch: Der erste humanoide Roboter, der Plattformen über 114 % seiner Beinlänge (0,8 m) autonom und robust überquert, einschließlich autonomer Skill-Auswahl und nahtloser Übergänge.

4. Ergebnisse

Die Methode wurde an einem Unitree G1 Humanoiden Roboter (29 Freiheitsgrade) in Simulation und in der realen Welt getestet:

Erfolgsrate: Bei der Überquerung von 0,8 m hohen Plattformen (ca. 114 % der Beinlänge) wurde eine Erfolgsrate von 95,4 % in langen Sequenzen erreicht.
Zero-Shot Sim-to-Real: Die Policies wurden ohne weitere Anpassung direkt auf den realen Roboter übertragen und funktionierten sofort.
Robustheit:
- Der Roboter bewältigte Plattformen in verschiedenen Höhen (0,6 m bis 0,8 m) und Anflugwinkeln (bis ±65°).
- Das System zeigte hohe Robustheit gegenüber externen Störungen (z. B. ein starker Tritt, der den Roboter fast zum Fallen brachte; er konnte sich stabilisieren und den Klettervorgang fortsetzen).
- Erfolgreiche Überquerung auch auf weichen, nachgiebigen Oberflächen (Vinyl-Schaumstoff), was eine Anpassung an unterschiedliche Reibungs- und Nachgiebigkeitseigenschaften beweist.
Vergleich mit Baselines: Experimente zeigten, dass herkömmliche Reward-Formulierungen (wie Geschwindigkeitsverfolgung oder Distanzminimierung) entweder zu unsicheren, impulsiven Sprüngen führen oder in lokalen Optima stecken bleiben. Der Ratchet-Reward war entscheidend für das Erlernen sicherer, koordinierter Ganzkörperbewegungen.

5. Bedeutung und Ausblick

APEX demonstriert einen Paradigmenwechsel weg von rein fußbasiertem Springen hin zu kontrolliertem, kontaktbasiertem Klettern für humanoide Roboter.

Sicherheit: Durch die Vermeidung von Impulskräften und die Nutzung verteilter Kontaktpunkte (Hände, Füße, Körper) wird das Risiko von Schäden an Aktuatoren oder Stürzen minimiert.
Autonomie: Das System zeigt, dass humanoide Roboter komplexe, mehrstufige Aufgaben in unbekannten Umgebungen autonom bewältigen können, indem sie ihre Körperhaltung und Fortbewegungsart dynamisch an die Geometrie anpassen.
Anwendungspotenzial: Diese Fähigkeiten sind essenziell für den Einsatz von Humanoiden Robotern in realen Szenarien wie Rettungseinsätzen, Logistik in Lagerhallen oder im Haushalt, wo Hindernisse oft höher sind als die Beinlänge des Roboters.

Zusammenfassend stellt APEX einen bedeutenden Fortschritt in der humanoiden Robotik dar, der die Grenzen des traversierbaren Geländes durch eine Kombination aus innovativem Reward-Design, robuster Wahrnehmung und effektiver Skill-Integration erweitert.