APEX: Learning Adaptive High-Platform Traversal for Humanoid Robots

Die Arbeit stellt APEX vor, ein auf Deep Reinforcement Learning basierendes System für humanoide Roboter, das durch eine generalisierte Ratchet-Fortschritts-Belohnung und eine distillierte Einheitsrichtlinie das sichere, zero-shot sim-to-real Überwinden von Plattformen ermöglicht, die höher sind als die Beinlänge des Roboters.

Yikai Wang, Tingxuan Leng, Changyi Lin, Shiqi Liu, Shir Simon, Bingqing Chen, Jonathan Francis, Ding Zhao

Veröffentlicht 2026-03-09
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

APEX: Wie ein Roboter lernt, wie ein Kletterkünstler über hohe Hindernisse zu steigen

Stellen Sie sich einen humanoiden Roboter vor, der wie ein Mensch auf zwei Beinen läuft. Bisher waren diese Roboter ziemlich gut darin, über unebenes Gelände zu stolpern oder kleine Stufen zu überwinden. Aber wenn es darum ging, auf eine hohe Plattform zu klettern – sagen wir, höher als ihre eigenen Beine lang sind – kamen sie oft ins Stocken.

Frühere Versuche, solche Hindernisse zu überwinden, basierten oft auf dem „Springen". Das ist wie ein Känguru: Man hüpft hoch. Das Problem? Um wirklich hoch zu springen, braucht man enorme Kraft, und wenn man landet, ist der Aufprall so hart, dass die Roboter-Gelenke brechen könnten oder sie einfach umkippen. Es ist wie zu versuchen, auf einen hohen Zaun zu springen, ohne die Hände zu benutzen – riskant und oft schmerzhaft.

Die Forscher von APEX (ein System von der Carnegie Mellon University und Bosch) haben eine viel schlauere Idee entwickelt. Statt zu springen, haben sie dem Roboter beigebracht, zu klettern, genau wie ein Mensch, der eine Leiter hochsteigt oder über eine Mauer balanciert.

Hier ist die Geschichte, wie das funktioniert, einfach erklärt:

1. Der Kletter-Sportler statt der Spring-Maus

Stellen Sie sich vor, Sie müssen über eine hohe Mauer. Ein Roboter, der nur springt, würde versuchen, mit einem gewaltigen Sprung darüber zu kommen. Der APEX-Roboter hingegen denkt: „Ich nutze meine Arme, meinen Rumpf und meine Beine."
Er macht vier Dinge, die wir Menschen auch tun:

  • Hochklettern: Er greift mit den Händen über den Rand und zieht sich hoch.
  • Runterklettern: Er tastet sich vorsichtig abwärts.
  • Aufstehen: Wenn er auf dem Boden liegt, richtet er sich auf.
  • Hinlegen: Wenn er auf der Plattform ist, legt er sich flach, um sich durch enge Lücken zu schieben.

Das ist wie ein Akrobat, der nicht nur springt, sondern seinen ganzen Körper koordiniert, um sicher und kontrolliert ans Ziel zu kommen.

2. Der „Ratchet"-Belohnung: Der unerbittliche Fortschritts-Coach

Das Schwierigste beim Lernen solcher Bewegungen für einen Computer ist: Wie belohnt man ihn, wenn er noch nicht ganz oben ist? Wenn man ihn nur belohnt, wenn er fertig ist, lernt er nichts, weil er zu lange braucht, um dorthin zu gelangen.

Die Forscher haben eine clevere Belohnungsmethode erfunden, die sie „Ratchet-Progress" nennen. Stellen Sie sich einen Ratschen-Schraubenschlüssel vor. Dieser Mechanismus lässt sich nur in eine Richtung drehen – vorwärts. Er lässt kein Zurück zu.

  • Wie es funktioniert: Der Roboter bekommt eine Belohnung nur dann, wenn er sich besser befindet als zu jedem vorherigen Moment. Wenn er einen Schritt zurück macht oder auf der Stelle tritt, bekommt er eine Strafe.
  • Der Clou: Es geht nicht darum, wie schnell er geht. Es geht darum, dass er sich vorwärts bewegt. Das erlaubt dem Roboter, geduldig zu sein. Er darf kurz stehen bleiben, um einen sicheren Halt zu finden (wie wenn Sie auf einer Leiter kurz innehalten, um sicher zu sein), solange er am Ende weiterkommt.
  • Warum das wichtig ist: Ohne diese Regel würde der Roboter versuchen, alles mit roher Gewalt und extremen Sprüngen zu erledigen, was ihn umwerfen würde. Mit der Ratsche lernt er, vorsichtig und sicher zu klettern.

3. Die „Schüler-Lehrer"-Methode: Vom Spezialisten zum Allrounder

Ein einzelner Roboter-Verstand ist oft zu überfordert, wenn er gleichzeitig Klettern, Laufen, Liegen und Aufstehen lernen soll. Also haben die Forscher einen zweistufigen Plan entwickelt:

  1. Die Lehrer (Spezialisten): Zuerst trainieren sie sechs verschiedene „Lehrer-Roboter". Jeder ist ein Spezialist für eine Sache: Einer ist der beste Kletterer, einer der beste Läufer, einer der beste Lieger. Sie lernen in einer Simulation, wo sie Fehler machen dürfen, ohne sich zu verletzen.
  2. Der Schüler (Der Allrounder): Dann nehmen sie all dieses Wissen und „destillieren" es in einen einzigen „Schüler-Roboter". Dieser Schüler lernt von den Lehrern, wann er welche Technik anwenden muss.
    • Die Analogie: Stellen Sie sich einen General vor, der sechs verschiedene Spezialisten (einen Schwimmer, einen Kletterer, einen Läufer) in sich vereint. Wenn er an ein Hindernis kommt, fragt er sich: „Bin ich am Rand? Dann rufe ich den Kletterer." „Bin ich oben? Dann rufe ich den Läufer."

4. Die Augen des Roboters: Sehen durch den Nebel

Roboter sehen die Welt oft anders als wir. Ihre Kameras oder Laser-Scanner (LiDAR) können durch Bewegung verwackeln oder durch Reflexionen getäuscht werden. Es ist, als würde man versuchen, eine Treppe zu erklimmen, während man durch eine undurchsichtige Brille schaut.

Die Forscher haben dem Roboter beigebracht, mit „verrauschten" Bildern umzugehen.

  • Im Training: Sie haben dem Roboter absichtlich falsche Daten gegeben (wie Geisterpunkte im Bild), damit er lernt, sich nicht täuschen zu lassen.
  • In der Realität: Wenn der Roboter in der echten Welt ist, reinigt er die Daten sofort, entfernt die „Geister" und füllt Lücken in der Karte auf. So sieht er die Plattform klar, auch wenn seine Sensoren kurzzeitig verrückt spielen.

Das Ergebnis: Ein Roboter, der wie ein Mensch klettert

Am Ende haben sie den Roboter auf einen echten Unitree G1 (ein 29-Gelenk-Humanoid-Roboter) geladen. Das Ergebnis war beeindruckend:

  • Der Roboter konnte 0,8 Meter hohe Plattformen überwinden. Das ist höher als seine eigenen Beine lang sind (ca. 114 %).
  • Er hat das ohne menschliches Eingreifen gemacht. Er hat die Umgebung gescannt, entschieden, ob er klettern, laufen oder liegen muss, und die Bewegungen flüssig ausgeführt.
  • Selbst wenn man ihn während des Kletterns von hinten anstieß (ein „Kick"), konnte er das Gleichgewicht halten, sich stabilisieren und weiterklettern.

Zusammenfassend:
APEX ist wie ein Roboter-Akrobat, der nicht mehr wild herumhüpft, sondern lernt, sich mit dem ganzen Körper geschickt, sicher und intelligent durch eine komplexe Welt zu bewegen. Es ist der Unterschied zwischen jemandem, der versucht, über eine Mauer zu springen und dabei stürzt, und jemandem, der die Mauer langsam, aber sicher überwindet, indem er sich festhält und sich hochzieht.