APEX: Learning Adaptive High-Platform Traversal for Humanoid Robots

El artículo presenta APEX, un sistema basado en aprendizaje por refuerzo profundo que permite a un robot humanoide Unitree G1 de 29 grados de libertad escalar y descender plataformas de hasta 0,8 metros (aproximadamente el 114% de su longitud de pierna) mediante una recompensa de progreso tipo trinquete y una estrategia dual para reducir la brecha simulación-realidad, logrando así una transición fluida y segura entre múltiples habilidades de locomoción.

Yikai Wang, Tingxuan Leng, Changyi Lin, Shiqi Liu, Shir Simon, Bingqing Chen, Jonathan Francis, Ding Zhao

Publicado 2026-03-09
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que tienes un robot humanoide, como un pequeño robot humano de metal, y tu misión es enseñarle a subir a una mesa muy alta, caminar sobre ella y luego bajar sin caerse.

El problema es que la mayoría de los robots actuales son como niños pequeños: si ven algo alto, intentan saltar. Pero saltar es peligroso; si la mesa es muy alta (más alta que sus propias piernas), el salto requiere mucha fuerza, puede romper sus articulaciones y, si falla, se estrella contra el suelo.

Los investigadores de este paper (llamado APEX) han creado un "cerebro" para robots que les permite hacer algo mucho más inteligente: trepar. En lugar de saltar, el robot usa sus brazos, su torso y sus piernas para agarrarse y subir paso a paso, como un alpinista o un gato.

Aquí te explico cómo lo hicieron, usando analogías sencillas:

1. El Problema: Saltar vs. Trepar

Imagina que quieres subir a un estante alto.

  • El método antiguo (Saltar): Es como intentar saltar desde el suelo hasta el estante de un solo brinco. Si fallas, te caes de bruces. Además, tus piernas necesitan una fuerza de "superhéroe" que los robots reales no tienen.
  • El método APEX (Trepar): Es como usar una escalera o subir agarrándote de los bordes. El robot toca la mesa con sus manos, se equilibra, sube una pierna, luego la otra. Es lento, pero seguro y controlado.

2. El Secreto: El "Premio del Ratchet" (La Trampa de la Progreso)

Entrenar a un robot para trepar es muy difícil. Si le dices "ve hacia arriba", el robot podría intentar saltar o moverse de forma loca. Los investigadores inventaron una regla de juego muy especial llamada "Premio de Progreso de Trinquete".

  • La analogía: Imagina que estás subiendo una colina y tienes un contador que solo sube si avanzas.
    • Si das un paso hacia adelante, el contador sube y ganas puntos.
    • Si te quedas quieto o das un paso atrás, no ganas nada (y de hecho, te castigan un poco).
    • Lo más importante: El contador nunca baja. Si el robot se equivoca y retrocede, el contador se queda en el punto más alto que alcanzó antes.

Esto obliga al robot a ser paciente. No puede saltar de golpe (porque eso es arriesgado y a veces falla). En su lugar, aprende a: "Primero agarrarme con la mano izquierda, esperar a que sea seguro, luego subir la pierna derecha". El robot aprende que la seguridad y el contacto firme son la única forma de ganar puntos.

3. Los Ojos del Robot: Un Mapa que se "Limpia"

El robot usa un escáner láser (LiDAR) para ver el suelo, como si tuviera ojos de rayos X. Pero en el mundo real, estos escáneres a veces se confunden: el robot se mueve rápido, sus brazos bloquean la vista o el láser rebota mal, creando "fantasmas" en el mapa (puntos que no existen).

Para solucionar esto, usaron una estrategia de dos pasos:

  1. En el entrenamiento (Simulación): Le inyectaron "ruido" y "fantasmas" al robot artificialmente. Le enseñaron a ignorar los errores del mapa, como si le dijeran: "Aunque veas un obstáculo que no existe, confía en lo que sientes con tus manos".
  2. En la vida real: Cuando el robot está en el mundo real, un software "limpia" el mapa en tiempo real, borrando los puntos extraños y rellenando los huecos, como si fuera un editor de fotos que repara una imagen borrosa.

4. El Maestro y el Estudiante (Distilación)

El robot no aprende todo de golpe. Primero, los investigadores entrenaron a 6 "Maestros" expertos por separado:

  • Uno experto en subir (trepar).
  • Uno experto en bajar.
  • Uno experto en ponerse de pie.
  • Uno experto en tumbarse.
  • Dos expertos en caminar y gatear.

Luego, tomaron a un "Estudiante" (un solo cerebro) y le enseñaron a imitar a los 6 maestros. El estudiante aprendió a mirar el entorno y decidir: "Ah, veo una mesa alta, ¡llamo al Maestro Trepa! ¡Ahora estoy arriba, ¡llamo al Maestro Caminante! ¡Ahora veo el borde, ¡llamo al Maestro Bajar!".

5. El Resultado: ¡Éxito!

Pusieron a prueba a este robot (un modelo llamado Unitree G1) en el mundo real.

  • Logró subir a una plataforma de 0.8 metros (¡más alta que sus propias piernas!).
  • Lo hizo sin caer, sin saltar y sin ayuda humana.
  • Incluso si lo empujaban fuerte mientras subía, el robot se recuperaba, se reequilibraba y seguía trepando.

En resumen:
Los investigadores crearon un robot que no intenta ser un atleta olímpico que salta, sino un escalador paciente y listo. Usaron una regla de juego inteligente para enseñarle a avanzar paso a paso y le dieron unos "gafas" especiales para que no se confunda con el mundo real. Ahora, estos robots pueden ir a lugares altos y peligrosos de forma segura, algo que antes parecía imposible.