SteadyTray: Learning Object Balancing Tasks in Humanoid Tray Transport via Residual Reinforcement Learning

El artículo presenta ReST-RL, un marco de aprendizaje por refuerzo jerárquico que desacopla la locomoción de la estabilización de la carga para permitir que humanoides transporten objetos inestables con alta precisión y robustez, logrando una generalización exitosa de simulación a realidad en el hardware Unitree G1.

Anlun Huang, Zhenyu Wu, Soofiyan Atar, Yuheng Zhi, Michael Yip

Publicado 2026-03-12
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

Imagina que eres un camarero experto en una fiesta muy agitada. Tu trabajo no es solo caminar de un lado a otro, sino llevar una bandeja con una copa de vino llena hasta el borde, sin que se derrame ni una sola gota. Ahora, imagina que tienes que hacer esto mientras caminas sobre una superficie inestable, te empujan por la espalda y, además, la copa se mueve sola si la bandeja se inclina un milímetro.

Ese es el desafío que resuelve el robot humanoide Unitree G1 con la tecnología llamada SteadyTray (Bandeja Estable) y su cerebro de aprendizaje llamado ReST-RL.

Aquí te explico cómo funciona, usando analogías sencillas:

1. El Problema: Caminar vs. Equilibrar

Los robots humanoides son geniales para caminar, pero cuando dan un paso, sus piernas generan un "bamboleo" natural (como cuando caminas rápido y tu cuerpo se balancea). Si un robot lleva una bandeja con objetos sueltos (como un vaso de vino con líquido), ese bamboleo haría que el líquido se salpique o que el vaso se caiga.

Antes, los científicos intentaban enseñar al robot a caminar y equilibrar al mismo tiempo, como si le pidieras a un principiante que aprendiera a andar en bicicleta y a tocar el piano simultáneamente desde cero. A menudo, el robot se confundía: o caminaba bien pero se caía la copa, o mantenía la copa pero tropezaba al caminar.

2. La Solución: El "Cerebro Maestro" y el "Asistente Inteligente"

Los autores de este paper crearon una arquitectura llamada ReST-RL (Aprendizaje por Refuerzo de Residuos Estudiante-Maestro). Imagina que es como un equipo de dos personas:

  • El "Maestro" (La Política Base): Es un robot experto que ya sabe caminar perfectamente. Su trabajo es mantener el ritmo, dar pasos firmes y llegar a la meta. Ya sabe cómo moverse sin caerse.
  • El "Asistente" (El Módulo Residual): Este es el nuevo aprendiz. Su única tarea es mirar lo que hace el Maestro y decir: "Oye, el Maestro se está inclinando un poco a la izquierda por el paso que dio, ¡yo voy a mover un poco el brazo derecho para compensarlo!".

La clave mágica: El Asistente no le dice al Maestro cómo caminar. El Maestro sigue caminando como siempre. El Asistente solo hace pequeños ajustes (residuos) sobre lo que el Maestro ya hace. Esto permite que el robot camine con la seguridad de un experto, pero con la delicadeza de un cirujano para mantener la bandeja nivelada.

3. El Truco de Entrenamiento: "El Entrenador con Visión de Rayos X"

Para entrenar al Asistente, los científicos usaron un truco muy interesante:

  • En el simulador (el mundo virtual): Le dieron al Asistente información "privilegiada", como si tuviera visión de rayos X. Podía ver la velocidad exacta del vaso, la gravedad en tiempo real y la posición exacta de los objetos antes de que ocurrieran. Esto le permitió aprender la estrategia perfecta rápidamente.
  • En el mundo real: El robot no tiene rayos X. Solo tiene una cámara y sensores en sus articulaciones.
  • La solución: Usaron un proceso llamado "distilación". Imagina que el Asistente (con rayos X) le enseña al "Estudiante" (el robot real) cómo reaccionar basándose solo en lo que ve la cámara. El Estudiante aprende a imitar las correcciones del Asistente, pero usando solo la información que realmente tiene disponible.

4. El Entrenamiento con "Ruido"

Para que el robot fuera realmente robusto, lo entrenaron en un entorno caótico:

  • Le empujaron el torso (como si alguien le diera un codazo).
  • Le empujaron el objeto (como si alguien golpeara el vaso).
  • Le cambiaron el tamaño y peso de los objetos (desde una taza de café hasta una copa de vino llena).
  • Incluso le añadieron "retraso" a la información, simulando que la cámara tarda un poco en ver el objeto (como cuando ves un video con mala conexión).

Gracias a esto, cuando el robot salió al mundo real, no se sorprendió. Si alguien le empujaba, sabía exactamente cómo mover sus brazos y piernas para contrarrestar el golpe sin derramar el vino.

5. Los Resultados: ¡Funciona de verdad!

En las pruebas, el robot Unitree G1 logró:

  • Caminar, acelerar, frenar y girar.
  • Mantener una copa de vino llena (con líquido) perfectamente nivelada.
  • Resistir empujones fuertes sin caerse ni derramar nada.
  • Hacerlo con objetos muy diferentes (copas, herramientas, recipientes) sin necesidad de volver a entrenarse.

En resumen

Este paper nos enseña que, en lugar de intentar que un robot aprenda todo de golpe (caminar + equilibrar), es mejor darle un experto en caminar y ponerle un asistente inteligente encima que solo se encargue de los pequeños ajustes para mantener el equilibrio. Es como tener un conductor experto en un coche, pero con un copiloto que ajusta el volante milimétricamente para que no se caiga la taza de café en el salpicadero, incluso si el coche toma una curva brusca o alguien le da un golpe.

¡Y lo mejor de todo es que este robot ya lo hizo en la vida real, no solo en la computadora!