APEX: Learning Adaptive High-Platform Traversal for Humanoid Robots

Dit paper introduceert APEX, een op deep reinforcement learning gebaseerd systeem dat een mensachtige robot in staat stelt om veilig en autonoom hoge platformen te beklimmen en te verlaten door een geïntegreerd beleid te leren dat verschillende vaardigheden zoals klimmen, kruipen en houdingswijziging combineert, wat resulteert in succesvolle zero-shot simulatie-naar-realiteit overdracht op een Unitree G1.

Yikai Wang, Tingxuan Leng, Changyi Lin, Shiqi Liu, Shir Simon, Bingqing Chen, Jonathan Francis, Ding Zhao

Gepubliceerd 2026-03-09
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot hebt die eruitziet als een mens, maar die net zo onhandig is als een baby die voor het eerst probeert te lopen. Normaal gesproken kunnen deze robots wel over oneffen grond lopen, maar als ze tegen een hoge muur of een hoog terras aanlopen, raken ze in paniek. Ze proberen eroverheen te springen, maar dat is gevaarlijk: ze vallen, raken hun motoren kwijt of raken gewond.

Dit paper introduceert APEX, een slimme nieuwe manier om die robots te leren hoe ze hoge obstakels (tot wel 80 cm, dat is hoger dan hun eigen beenlengte!) veilig kunnen beklimmen en afdalen.

Hier is hoe het werkt, vertaald in alledaagse taal:

1. Het Probleem: Springen is voor kinderen, klimmen is voor volwassenen

Vroeger leerden we robots om over hoge dingen te springen, net als een kikker. Maar voor een zware robot is springen als een olifant proberen te dansen op een glasplaat: het kost te veel kracht, het is onveilig en het werkt niet voor heel hoge dingen.

De oplossing van APEX: In plaats van te springen, leert de robot zich te gedragen als een klimmer. Net zoals een mens die een ladder beklimt, gebruikt de robot zijn handen, zijn voeten en zijn romp om zich vast te houden en zich omhoog te werken. Het is een gecontroleerde, rustige beweging in plaats van een wilde sprong.

2. De "Ratchet" (De Krans): De slimme beloning

De grootste uitdaging bij het leren van deze klimbewegingen is: Hoe weet de robot dat hij goed bezig is als hij nog niet boven is?

Stel je voor dat je een ratel (een 'ratchet') hebt, zoals die je in een gereedschapskist ziet. Een ratel laat een bout alleen in één richting draaien; als je terugdraait, klikt hij niet.

  • Hoe het werkt: De onderzoekers hebben een slimme beloningssysteem bedacht dat werkt als zo'n ratel. De robot krijgt alleen een "goed gedaan"-prikje als hij echt een stap verder komt dan hij ooit eerder was.
  • Het effect: Als de robot probeert te springen of terugwiebelt, krijgt hij geen beloning. Hij wordt gedwongen om geduldig te zijn, zijn handen vast te zetten, en dan pas een stap te zetten. Het voorkomt dat de robot "cheat" door heen en weer te wiebelen om punten te scoren. Het leert hem om geduldig en veilig te klimmen.

3. De "Chef-kok" en de "Leerling": Alles in één brein

De robot moet zes verschillende vaardigheden leren:

  1. Omhoog klimmen.
  2. Omlaag klimmen.
  3. Opstaan (vanuit liggend).
  4. Gaan liggen (vanuit staand).
  5. Wandelen.
  6. Kruipen.

In plaats van zes verschillende robots te bouwen, hebben de onderzoekers eerst zes "meesters" (de chefs) getraind om elk van deze taken perfect te doen. Vervolgens hebben ze een "leerling" (het hoofd van de robot) getraind om naar al die chefs te kijken en te leren wanneer hij welke vaardigheid moet gebruiken.

  • De analogie: Het is alsof je een chef-kok hebt die alleen pasta kan maken, en een andere die alleen pizza kan bakken. Je traint een nieuwe kok (de leerling) om te weten: "Als de klant pasta wil, roep ik de pastachef. Als de pizza er klaar is, roep ik de pizzachef." De robot doet dit automatisch op basis van wat hij ziet met zijn camera's (LiDAR).

4. De Bruggenbouwer: Van virtueel naar echt

Een groot probleem bij robotleren is dat ze in de computer (simulatie) perfect leren, maar in het echte leven falen omdat de wereld anders voelt (bijvoorbeeld: de camera ziet dingen anders door trillingen).

  • De truc: De onderzoekers hebben de robot in de computer laten oefenen met "valse" beelden. Ze voegden ruis toe en maakten de kaart van de wereld onnauwkeurig, alsof de robot een beetje dronken zou zijn.
  • Het resultaat: Wanneer de robot daarna in het echt op een Unitree G1 (een echte robot) wordt gezet, voelt hij zich als een vis in het water. Hij heeft al gezien hoe het is om met een slechte kaart te werken, dus hij kan zich aanpassen aan de echte wereld zonder te vallen.

Wat hebben ze bereikt?

De robot (een Unitree G1) kan nu:

  • Op een terras van 80 cm klimmen (dat is 114% van zijn eigen beenlengte!).
  • Zelf beslissen of hij moet klimmen, kruipen, opstaan of gaan liggen.
  • Zelfs als hij een duw krijgt terwijl hij klimt, herstelt hij zich en gaat hij gewoon door.
  • Dit werkt zonder dat ze de robot opnieuw hoeven te programmeren voor elke nieuwe situatie (zero-shot).

Kortom: APEX is de kunst van het geduldig klimmen in plaats van wild springen. Het is alsof we een robot hebben getraind om niet als een springkussen te gedragen, maar als een ervaren bergbeklimmer die zijn weg vindt, zelfs als hij struikelt.