SCDP: Learning Humanoid Locomotion from Partial Observations via Mixed-Observation Distillation

El artículo presenta SCDP, un enfoque que utiliza modelos de difusión y entrenamiento con observaciones mixtas para aprender locomoción de humanoides exclusivamente a partir de sensores a bordo, eliminando la necesidad de estimación de estado explícita y logrando un rendimiento robusto tanto en simulación como en un robot real.

Milo Carroll, Tianhu Peng, Lingfan Bao, Chengxu Zhou, Zhibin Li

Publicado Wed, 11 Ma
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que quieres enseñarle a un robot humanoide (como un pequeño robot con forma de humano) a caminar, correr y bailar. El problema es que, en la vida real, los robots no tienen "superpoderes" para saber exactamente dónde están en el mundo, a qué velocidad se mueven o cómo están orientados sus cuerpos en el espacio. Solo tienen sensores internos (como si tuvieras los ojos vendados y solo pudieras sentir tus propios músculos y el equilibrio).

Este paper presenta una solución genial llamada SCDP (Políticas de Difusión Condicionadas por Sensores). Aquí te lo explico con analogías sencillas:

1. El Problema: El Robot "Vidente" vs. El Robot "Real"

Antes, para entrenar a estos robots, los científicos usaban un truco de magia: le daban al robot una "visión privilegiada". Imagina que le dices al robot: "Oye, estás a 2 metros de la pared, girando a la derecha a 1 metro por segundo". Con esta información completa, el robot aprendía a caminar perfecto.

Pero, cuando lo llevabas al mundo real, esa información desaparecía. El robot se quedaba "ciego" y se caía inmediatamente. Era como enseñar a alguien a conducir dándole un mapa con GPS en tiempo real, y luego quitarle el GPS y esperar que conduzca solo; se desorientaría.

2. La Solución: El Método del "Entrenador Secreto" (Distilación de Observación Mixta)

Los autores de este paper idearon un método de entrenamiento muy inteligente, como un entrenador deportivo que le habla al oído al atleta.

  • Durante el entrenamiento (en la simulación): El robot ve todo (tiene el GPS y el mapa). El entrenador le dice: "Mira, para dar este paso, necesitas estar girando a esta velocidad".
  • Pero, el robot solo siente sus músculos: Mientras el entrenador le da la solución completa, el robot solo recibe sus datos internos (sus sensores).
  • El truco: El robot tiene que adivinar, basándose solo en lo que siente (sus músculos y equilibrio), cuál es la solución completa que el entrenador le está mostrando.

Es como si un profesor le diera las respuestas a un examen, pero solo le permite mirar sus propios apuntes para intentar adivinar la respuesta. Con el tiempo, el robot aprende a inferir (adivinar con inteligencia) su velocidad y posición solo sintiendo cómo se mueve su cuerpo, sin necesidad de un GPS externo.

3. Las Técnicas Secretas (Los "Superpoderes" del Robot)

Para que esto funcione, usaron tres trucos de ingeniería:

  • Denoising Restringido (El "Ciego" que escucha): A veces, el robot intenta hacer trampa y usa datos de velocidad que no debería tener. El equipo les dijo: "Prohibido mirar la velocidad en los datos de entrada, tienes que adivinarla tú solo". Esto obligó al cerebro del robot a aprender a calcular la velocidad basándose en el contexto (cómo ha estado moviéndose antes).
  • Alineación de Contexto (No confundir el entrenamiento con la realidad): Aseguraron de que lo que el robot veía mientras aprendía fuera exactamente igual a lo que vería cuando trabajara de verdad. Es como practicar un deporte con el mismo tipo de pelota y el mismo suelo que usarás en la competición.
  • Atención Consciente (Recordar el pasado): El robot aprendió a mirar hacia atrás en su historia de movimientos (como recordar qué pasos diste hace 5 segundos) para entender mejor qué está pasando ahora.

4. El Resultado: ¡Funciona en la Vida Real!

Probamos este robot en un simulador y luego lo pusimos en un robot real llamado Unitree G1.

  • En el simulador: El robot caminó y siguió instrucciones de velocidad con un 99-100% de éxito.
  • En la vida real: ¡Lo pusimos a caminar en una habitación real! El robot se movió a 50 veces por segundo (muy rápido), sin cámaras externas, sin GPS, sin nadie empujándolo. Solo con sus propios sensores internos.

En resumen

Este paper es como enseñar a un robot a caminar sin que nunca le hayan dicho dónde está. En lugar de darle un mapa, le enseñamos a sentir su propio cuerpo y a adivinar el resto. Es un gran paso para que los robots puedan caminar por nuestras calles, casas y oficinas sin necesitar una red de cámaras costosa y compleja para no caerse.

La moraleja: No necesitas ver todo el mundo para saber cómo moverte; a veces, solo necesitas sentirte a ti mismo y aprender a inferir el resto.