SteadyTray: Learning Object Balancing Tasks in Humanoid Tray Transport via Residual Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

Imagina que eres un camarero experto en una fiesta muy agitada. Tu trabajo no es solo caminar de un lado a otro, sino llevar una bandeja con una copa de vino llena hasta el borde, sin que se derrame ni una sola gota. Ahora, imagina que tienes que hacer esto mientras caminas sobre una superficie inestable, te empujan por la espalda y, además, la copa se mueve sola si la bandeja se inclina un milímetro.

Ese es el desafío que resuelve el robot humanoide Unitree G1 con la tecnología llamada SteadyTray (Bandeja Estable) y su cerebro de aprendizaje llamado ReST-RL.

Aquí te explico cómo funciona, usando analogías sencillas:

1. El Problema: Caminar vs. Equilibrar

Los robots humanoides son geniales para caminar, pero cuando dan un paso, sus piernas generan un "bamboleo" natural (como cuando caminas rápido y tu cuerpo se balancea). Si un robot lleva una bandeja con objetos sueltos (como un vaso de vino con líquido), ese bamboleo haría que el líquido se salpique o que el vaso se caiga.

Antes, los científicos intentaban enseñar al robot a caminar y equilibrar al mismo tiempo, como si le pidieras a un principiante que aprendiera a andar en bicicleta y a tocar el piano simultáneamente desde cero. A menudo, el robot se confundía: o caminaba bien pero se caía la copa, o mantenía la copa pero tropezaba al caminar.

2. La Solución: El "Cerebro Maestro" y el "Asistente Inteligente"

Los autores de este paper crearon una arquitectura llamada ReST-RL (Aprendizaje por Refuerzo de Residuos Estudiante-Maestro). Imagina que es como un equipo de dos personas:

El "Maestro" (La Política Base): Es un robot experto que ya sabe caminar perfectamente. Su trabajo es mantener el ritmo, dar pasos firmes y llegar a la meta. Ya sabe cómo moverse sin caerse.
El "Asistente" (El Módulo Residual): Este es el nuevo aprendiz. Su única tarea es mirar lo que hace el Maestro y decir: "Oye, el Maestro se está inclinando un poco a la izquierda por el paso que dio, ¡yo voy a mover un poco el brazo derecho para compensarlo!".

La clave mágica: El Asistente no le dice al Maestro cómo caminar. El Maestro sigue caminando como siempre. El Asistente solo hace pequeños ajustes (residuos) sobre lo que el Maestro ya hace. Esto permite que el robot camine con la seguridad de un experto, pero con la delicadeza de un cirujano para mantener la bandeja nivelada.

3. El Truco de Entrenamiento: "El Entrenador con Visión de Rayos X"

Para entrenar al Asistente, los científicos usaron un truco muy interesante:

En el simulador (el mundo virtual): Le dieron al Asistente información "privilegiada", como si tuviera visión de rayos X. Podía ver la velocidad exacta del vaso, la gravedad en tiempo real y la posición exacta de los objetos antes de que ocurrieran. Esto le permitió aprender la estrategia perfecta rápidamente.
En el mundo real: El robot no tiene rayos X. Solo tiene una cámara y sensores en sus articulaciones.
La solución: Usaron un proceso llamado "distilación". Imagina que el Asistente (con rayos X) le enseña al "Estudiante" (el robot real) cómo reaccionar basándose solo en lo que ve la cámara. El Estudiante aprende a imitar las correcciones del Asistente, pero usando solo la información que realmente tiene disponible.

4. El Entrenamiento con "Ruido"

Para que el robot fuera realmente robusto, lo entrenaron en un entorno caótico:

Le empujaron el torso (como si alguien le diera un codazo).
Le empujaron el objeto (como si alguien golpeara el vaso).
Le cambiaron el tamaño y peso de los objetos (desde una taza de café hasta una copa de vino llena).
Incluso le añadieron "retraso" a la información, simulando que la cámara tarda un poco en ver el objeto (como cuando ves un video con mala conexión).

Gracias a esto, cuando el robot salió al mundo real, no se sorprendió. Si alguien le empujaba, sabía exactamente cómo mover sus brazos y piernas para contrarrestar el golpe sin derramar el vino.

5. Los Resultados: ¡Funciona de verdad!

En las pruebas, el robot Unitree G1 logró:

Caminar, acelerar, frenar y girar.
Mantener una copa de vino llena (con líquido) perfectamente nivelada.
Resistir empujones fuertes sin caerse ni derramar nada.
Hacerlo con objetos muy diferentes (copas, herramientas, recipientes) sin necesidad de volver a entrenarse.

En resumen

Este paper nos enseña que, en lugar de intentar que un robot aprenda todo de golpe (caminar + equilibrar), es mejor darle un experto en caminar y ponerle un asistente inteligente encima que solo se encargue de los pequeños ajustes para mantener el equilibrio. Es como tener un conductor experto en un coche, pero con un copiloto que ajusta el volante milimétricamente para que no se caiga la taza de café en el salpicadero, incluso si el coche toma una curva brusca o alguien le da un golpe.

¡Y lo mejor de todo es que este robot ya lo hizo en la vida real, no solo en la computadora!

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "SteadyTray: Learning Object Balancing Tasks in Humanoid Tray Transport via Residual Reinforcement Learning" en español:

1. Planteamiento del Problema

El artículo aborda un cuello de botella crítico en la robótica de humanoides: la estabilización de cargas no aseguradas (como vasos con líquido, instrumentos frágiles o bandejas) durante la locomoción dinámica en entornos no estructurados.

El Desafío: La locomoción bípeda genera oscilaciones inherentes (impactos de pies, cambios de dirección, aceleraciones) que se propagan a través de la cadena cinemática del robot, afectando al torso y, por ende, a la carga.
La Complejidad: Mantener una bandeja nivelada mientras se camina crea un conflicto de objetivos. El controlador debe generar patrones de marcha ágiles para moverse, pero al mismo tiempo debe mantener una orientación casi perfecta del efector final para evitar que la carga se deslice, se incline o caiga.
Limitaciones de enfoques anteriores: Los métodos existentes de estabilización de extremos (como SoFTA) o el aprendizaje por refuerzo (RL) monolítico de extremo a extremo no han logrado demostrar éxito en el transporte de objetos no asegurados bajo perturbaciones externas (empujes) o maniobras complejas (giros, frenado).

2. Metodología: ReST-RL

Los autores proponen ReST-RL (Residual Student-Teacher Reinforcement Learning), una arquitectura de aprendizaje por refuerzo jerárquico que desacopla explícitamente la locomoción de la estabilización de la carga.

Arquitectura del Sistema

El marco de trabajo se divide en tres fases principales:

Entrenamiento de la Política Base (Teacher):
- Se entrena primero una política de locomoción robusta ( $\pi_{base}$ ) que mantiene una marcha estable y una bandeja nivelada, ignorando inicialmente la dinámica específica de la carga suelta.
- Esta política se optimiza mediante PPO (Proximal Policy Optimization) para seguir comandos de velocidad y mantener la estabilidad del torso.
Entrenamiento del Módulo Residual (Teacher):
- Una vez congelada la política base, se entrena un módulo residual (compuesto por un codificador y un adaptador) que aprende a generar acciones correctivas sobre la política base.
- Observaciones Privilegiadas: Durante esta fase, el módulo residual tiene acceso a información "privilegiada" no disponible en el mundo real (velocidad exacta del objeto, posición de la bandeja, gravedad proyectada, etc.).
- Dos diseños de adaptador:
  - Residual Action Adapter: Suma una acción correctiva directa a la acción base.
  - Residual FiLM Adapter: Modula las activaciones internas de las capas congeladas de la política base mediante condicionamiento afín (FiLM).
- El objetivo es cancelar las perturbaciones inducidas por la marcha en el efector final sin degradar la estabilidad de la marcha subyacente.
Destilación de Políticas (Student):
- Para el despliegue en el mundo real, la información privilegiada no está disponible. Se utiliza un proceso de destilación (DAgger) para entrenar un codificador estudiantil.
- El estudiante aprende a mapear solo las observaciones observables (datos propios del robot + observaciones de la carga desde la cámara) para producir características latentes que coincidan con las del codificador maestro (que usaba información privilegiada).
- El adaptador residual se mantiene congelado durante esta etapa.

Diseño de Entrenamiento y Robustez

Aleatorización de Dominio: Se aleatorizan masas, fricciones, centros de masa y retrasos de control para garantizar generalización.
Retraso de Observación: Se introduce deliberadamente un retraso en las observaciones de la carga (simulando latencia de percepción) para que el modelo aprenda a ser robusto ante la falta de datos en tiempo real.
Funciones de Recompensa: Se combinan recompensas de locomoción (seguimiento de velocidad, impacto de pies suave) con recompensas de estabilización (objeto vertical, contacto con la bandeja).

3. Contribuciones Clave

Marco ReST-RL: Propuesta de un marco de RL residual maestro-alumno que permite la estabilización de cargas no aseguradas sin sacrificar la calidad de la marcha bípeda.
Desacoplamiento Estructural: Demostración de que separar la locomoción de la estabilización mediante un módulo residual es superior a los enfoques de extremo a extremo para tareas de loco-manipulación complejas.
Generalización Sim-to-Real: Éxito en el despliegue en hardware real (Unitree G1) sin reentrenamiento, logrando una transferencia cero-shot (zero-shot) robusta frente a perturbaciones y variaciones de objetos.
Análisis de Diseño: Identificación de que el retraso en las observaciones y la aleatorización de dominios son críticos para la robustez y la transferencia al mundo real.

4. Resultados

Simulación (Isaac Lab)

Tasa de Éxito: ReST-RL alcanzó una tasa de éxito del 96.9% en el seguimiento de velocidad variable y 74.5% de robustez contra perturbaciones externas (empujes), superando significativamente a las políticas base y a los enfoques de extremo a extremo (End-to-End).
Estabilidad: El diseño residual redujo drásticamente el error de inclinación de la gravedad proyectada del objeto en comparación con las políticas base.
Robustez: El sistema mantuvo altas tasas de éxito bajo empujes aleatorios en el robot y en el objeto, así como con objetos de diversas formas y tamaños (desde tazas de café hasta copas de vino con líquido).

Despliegue en Mundo Real (Unitree G1)

Validación Física: El robot Unitree G1 (29 grados de libertad) ejecutó con éxito la tarea de transporte de bandejas con cargas inestables (incluyendo líquidos).
Recuperación: Ante empujes externos al robot o a la carga, el sistema coordinó todo el cuerpo (brazos y piernas) para recuperar la estabilidad de la bandeja sin movimientos correctivos bruscos.
Generalización: El sistema funcionó correctamente con múltiples objetos (copas, herramientas médicas, recipientes sellados) sin necesidad de ajuste fino (fine-tuning), demostrando una fuerte capacidad de generalización.

5. Significado e Impacto

Este trabajo es significativo porque resuelve un problema fundamental para la utilidad práctica de los humanoides en entornos de servicio (hospitales, hogares de ancianos, logística).

Viabilidad Práctica: Permite que los robots humanoides realicen tareas de entrega "sin derrames" o transporte de instrumentos estériles, algo que las plataformas con ruedas no pueden hacer ante perturbaciones grandes y que los enfoques de control tradicionales no logran de forma robusta.
Eficiencia de Aprendizaje: Al utilizar un enfoque residual, se aprovecha el conocimiento de locomoción existente (políticas pre-entrenadas) y se enfoca la capacidad de aprendizaje solo en la tarea de estabilización, lo que acelera el entrenamiento y mejora la estabilidad.
Futuro: Abre la puerta a habilidades de loco-manipulación más complejas que requieren percepción visual o táctil para tareas de contacto rico, manteniendo una marcha robusta pre-entrenada.

En resumen, SteadyTray demuestra que mediante la arquitectura ReST-RL, es posible dotar a los humanoides de la capacidad de transportar cargas frágiles y no aseguradas de manera fiable en entornos dinámicos y no estructurados, superando las limitaciones de los métodos de control monolíticos.