SCDP: Learning Humanoid Locomotion from Partial Observations via Mixed-Observation Distillation

Each language version is independently generated for its own context, not a direct translation.

Imagina que quieres enseñarle a un robot humanoide (como un pequeño robot con forma de humano) a caminar, correr y bailar. El problema es que, en la vida real, los robots no tienen "superpoderes" para saber exactamente dónde están en el mundo, a qué velocidad se mueven o cómo están orientados sus cuerpos en el espacio. Solo tienen sensores internos (como si tuvieras los ojos vendados y solo pudieras sentir tus propios músculos y el equilibrio).

Este paper presenta una solución genial llamada SCDP (Políticas de Difusión Condicionadas por Sensores). Aquí te lo explico con analogías sencillas:

1. El Problema: El Robot "Vidente" vs. El Robot "Real"

Antes, para entrenar a estos robots, los científicos usaban un truco de magia: le daban al robot una "visión privilegiada". Imagina que le dices al robot: "Oye, estás a 2 metros de la pared, girando a la derecha a 1 metro por segundo". Con esta información completa, el robot aprendía a caminar perfecto.

Pero, cuando lo llevabas al mundo real, esa información desaparecía. El robot se quedaba "ciego" y se caía inmediatamente. Era como enseñar a alguien a conducir dándole un mapa con GPS en tiempo real, y luego quitarle el GPS y esperar que conduzca solo; se desorientaría.

2. La Solución: El Método del "Entrenador Secreto" (Distilación de Observación Mixta)

Los autores de este paper idearon un método de entrenamiento muy inteligente, como un entrenador deportivo que le habla al oído al atleta.

Durante el entrenamiento (en la simulación): El robot ve todo (tiene el GPS y el mapa). El entrenador le dice: "Mira, para dar este paso, necesitas estar girando a esta velocidad".
Pero, el robot solo siente sus músculos: Mientras el entrenador le da la solución completa, el robot solo recibe sus datos internos (sus sensores).
El truco: El robot tiene que adivinar, basándose solo en lo que siente (sus músculos y equilibrio), cuál es la solución completa que el entrenador le está mostrando.

Es como si un profesor le diera las respuestas a un examen, pero solo le permite mirar sus propios apuntes para intentar adivinar la respuesta. Con el tiempo, el robot aprende a inferir (adivinar con inteligencia) su velocidad y posición solo sintiendo cómo se mueve su cuerpo, sin necesidad de un GPS externo.

3. Las Técnicas Secretas (Los "Superpoderes" del Robot)

Para que esto funcione, usaron tres trucos de ingeniería:

Denoising Restringido (El "Ciego" que escucha): A veces, el robot intenta hacer trampa y usa datos de velocidad que no debería tener. El equipo les dijo: "Prohibido mirar la velocidad en los datos de entrada, tienes que adivinarla tú solo". Esto obligó al cerebro del robot a aprender a calcular la velocidad basándose en el contexto (cómo ha estado moviéndose antes).
Alineación de Contexto (No confundir el entrenamiento con la realidad): Aseguraron de que lo que el robot veía mientras aprendía fuera exactamente igual a lo que vería cuando trabajara de verdad. Es como practicar un deporte con el mismo tipo de pelota y el mismo suelo que usarás en la competición.
Atención Consciente (Recordar el pasado): El robot aprendió a mirar hacia atrás en su historia de movimientos (como recordar qué pasos diste hace 5 segundos) para entender mejor qué está pasando ahora.

4. El Resultado: ¡Funciona en la Vida Real!

Probamos este robot en un simulador y luego lo pusimos en un robot real llamado Unitree G1.

En el simulador: El robot caminó y siguió instrucciones de velocidad con un 99-100% de éxito.
En la vida real: ¡Lo pusimos a caminar en una habitación real! El robot se movió a 50 veces por segundo (muy rápido), sin cámaras externas, sin GPS, sin nadie empujándolo. Solo con sus propios sensores internos.

En resumen

Este paper es como enseñar a un robot a caminar sin que nunca le hayan dicho dónde está. En lugar de darle un mapa, le enseñamos a sentir su propio cuerpo y a adivinar el resto. Es un gran paso para que los robots puedan caminar por nuestras calles, casas y oficinas sin necesitar una red de cámaras costosa y compleja para no caerse.

La moraleja: No necesitas ver todo el mundo para saber cómo moverte; a veces, solo necesitas sentirte a ti mismo y aprender a inferir el resto.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del paper "SCDP: Learning Humanoid Locomotion from Partial Observations via Mixed-Observation Distillation" en español:

1. El Problema

El control de robots humanoides ha avanzado significativamente mediante aprendizaje por refuerzo (RL) y modelos de difusión. Sin embargo, un desafío crítico persiste en la implementación en el mundo real: la dependencia de estados privilegiados.

Limitación actual: Los métodos existentes (como los basados en difusión) requieren acceso a información de estado completa y privilegiada (posición global, orientación, velocidad de la base, posiciones de cuerpos rígidos) que solo es accesible en simulación o mediante sistemas de captura de movimiento externos (mocap).
El obstáculo: En robots reales fuera del laboratorio, esta información no está disponible directamente. Los sistemas de estimación de estado necesarios para inferirla son complejos, costosos computacionalmente y a menudo poco fiables.
Consecuencia: Cuando se eliminan las entradas privilegiadas y se depende únicamente de sensores a bordo (propiocepción), el rendimiento de los controladores existentes se degrada catastróficamente, fallando incluso en tareas simples como la locomoción controlada por joystick. Esto convierte el problema en un Proceso de Decisión de Markov Parcialmente Observable (POMDP), donde el agente debe inferir estados ocultos a partir de observaciones incompletas.

2. Metodología: SCDP (Sensor-Conditioned Diffusion Policies)

Los autores proponen SCDP, un marco de destilación basado en modelos de difusión que permite el control de locomoción humanoide utilizando exclusivamente sensores a bordo, eliminando la necesidad de estimación de estado explícita.

La idea central es desacoplar la percepción de la supervisión mediante un entrenamiento de observación mixta:

Entrenamiento Asimétrico:
- Condicionamiento (Entrada): El modelo de difusión se condiciona únicamente en el historial de observaciones de los sensores a bordo ( $O_t$ ), que carecen de información geométrica global.
- Supervisión (Objetivo): El modelo se entrena para predecir trayectorias futuras que incluyen estados privilegiados completos ( $S_t$ ) y acciones.
- Resultado: Esta asimetría fuerza al modelo a aprender una representación interna implícita de la dinámica global del cuerpo, inferiendo el estado oculto a partir de la historia de sensores parciales.
Componentes Clave del Diseño:
1. Denoising Restringido (Restricted Denoising): Para evitar que el modelo use "atajos" durante el entrenamiento (usando términos de velocidad ruidosos como entrada), se excluye la velocidad lineal del pelvis ( $v_{pelvis}$ ) de las entradas de denoising, pero se mantiene en el objetivo de supervisión. Esto obliga al modelo a inferir la velocidad del contexto histórico.
2. Alineación de Distribución de Contexto: Se entrena el modelo con pares de (estado ruidoso, acción ruidosa) para coincidir con las condiciones de inferencia (donde el contexto es limpio), reduciendo el desplazamiento de distribución (distribution shift) y manteniendo relaciones causales consistentes.
3. Enmascaramiento de Atención Consciente del Contexto: A diferencia de enfoques anteriores que usan máscaras causales estrictas, SCDP permite atención bidireccional dentro de la ventana de contexto. Esto facilita la agregación de información histórica para inferir dinámicas latentes, manteniendo restricciones causales solo en el horizonte de predicción.
4. Arquitectura: Utiliza un Transformer de 6 capas que procesa historiales de observaciones, acciones pasadas y comandos de tarea (velocidad o referencia de movimiento) para generar trayectorias estado-acción.

3. Contribuciones Principales

Entrenamiento de Observación Mixta: Permite la inferencia implícita de la dinámica global del cuerpo a partir de sensores parciales, eliminando la dependencia de estimadores de estado externos.
Control sin Retroalimentación de Velocidad: Mediante el denoising restringido, el sistema logra un control de velocidad robusto sin necesidad de mediciones directas de velocidad, un requisito previo para muchos métodos anteriores.
Validación en Robot Real: Es uno de los primeros trabajos en desplegar con éxito una política de difusión para locomoción humanoide en un robot físico (Unitree G1) a 50 Hz, sin sensores externos ni estimación de estado.
Análisis Exhaustivo: Proporciona abalaciones sistemáticas sobre estrategias de recolección de datos, longitud del contexto y componentes arquitectónicos.

4. Resultados

Los resultados se validaron tanto en simulación (IsaacLab) como en el robot real Unitree G1.

Simulación:
- Control de Velocidad: SCDP logra tasas de éxito del 99-100% en tareas de navegación y recuperación de perturbaciones, igualando o superando a las líneas base con estados privilegiados.
- Rastreo de Referencia de Movimiento: En el conjunto de pruebas AMASS, SCDP alcanzó un 93% de éxito en la reproducción de movimientos, superando significativamente a la clonación de comportamiento (BC) y otros métodos de destilación.
- Robustez: El modelo mantiene el equilibrio y la locomoción incluso bajo perturbaciones aleatorias de velocidad y empujes físicos.
Despliegue Real (Unitree G1):
- Se ejecutó a 50 Hz en un robot físico.
- Demostró locomoción robusta y estable sin captura de movimiento externa ni estimación de estado explícita.
- La política logró seguir comandos de velocidad lineal y angular con un seguimiento suave y menor oscilación en comparación con métodos baselines (como BeyondMimic), aunque con un ligero retraso en los cambios de dirección.
Hallazgos de Ablación:
- Se demostró que el entrenamiento de observación mixta es el componente más crítico; sin él, el rendimiento cae a ~1.4%.
- La alineación de la distribución de contexto es vital para el control sin retroalimentación de velocidad.
- Se encontró que una longitud de contexto de 4 pasos es óptima; contextos más largos (16 pasos) degradan el rendimiento debido a errores acumulativos.

5. Significado e Impacto

Este trabajo representa un avance significativo en la viabilidad de la locomoción humanoide autónoma en entornos reales:

Eliminación de Barreras de Despliegue: Al eliminar la necesidad de sistemas de estimación de estado complejos y costosos (o mocap), SCDP hace que el control de robots humanoides sea más accesible y robusto para aplicaciones prácticas fuera del laboratorio.
Superación de la Parcialidad: Demuestra que los modelos generativos (difusión) pueden aprender dinámicas complejas y estados ocultos a partir de observaciones parciales si se entrenan con la formulación correcta (observación mixta), resolviendo un problema fundamental en POMDPs para robótica.
Transferencia Sim-to-Real: La capacidad de transferir una política entrenada en simulación a un robot real sin ajuste fino adicional (sin estados privilegiados) valida la efectividad de la estrategia de distilación propuesta.

En resumen, SCDP establece un nuevo estado del arte para el control de locomoción humanoide basado en sensores, demostrando que es posible lograr un rendimiento de nivel experto utilizando únicamente la propiocepción del robot.

SCDP: Learning Humanoid Locomotion from Partial Observations via Mixed-Observation Distillation

1. El Problema: El Robot "Vidente" vs. El Robot "Real"

2. La Solución: El Método del "Entrenador Secreto" (Distilación de Observación Mixta)

3. Las Técnicas Secretas (Los "Superpoderes" del Robot)

4. El Resultado: ¡Funciona en la Vida Real!

En resumen

1. El Problema

2. Metodología: SCDP (Sensor-Conditioned Diffusion Policies)

3. Contribuciones Principales

4. Resultados

5. Significado e Impacto

Más como este

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models