Preference-Conditioned Multi-Objective RL for Integrated Command Tracking and Force Compliance in Humanoid Locomotion

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un robot humanoide, como un pequeño humano de metal, y quieres que camine contigo por el mundo. Hasta ahora, la mayoría de los robots aprendían a caminar de una sola manera: como un soldado raso. Si tú le decías "avanza", avanzaba con fuerza. Si alguien lo empujaba, se ponía rígido y luchaba contra el empujón para no caer. Era muy fuerte, pero muy torpe para interactuar con humanos.

Si intentabas guiarlo tomándolo de la mano, el robot se resistía como si fuera un niño terco que no quiere soltarse de su juguete. Esto es peligroso y poco natural.

Los autores de este paper (Tingxuan Leng y su equipo) han creado una solución inteligente que le da al robot un "superpoder de adaptación". Aquí te explico cómo funciona, usando analogías sencillas:

1. El Dilema del Robot: ¿Soldado o Bailarín?

El problema principal es que caminar bien tiene dos objetivos que suelen pelearse entre sí:

Seguir órdenes: Ir exactamente donde le dices (como un soldado).
Ser flexible: Ceder si alguien te empuja o te guía suavemente (como un bailarín que se deja llevar por la música).

Los robots antiguos tenían que elegir uno de los dos. Si eran buenos siguiendo órdenes, eran rígidos. Si eran flexibles, a veces se perdían o no seguían la dirección.

2. La Solución: El "Botón de Volumen" de la Personalidad

La gran innovación de este trabajo es un botón de control (llamado "preferencia") que le permite al robot cambiar de personalidad al instante, sin necesidad de reiniciarse ni aprender de nuevo.

Imagina que el robot tiene un control deslizante en su cerebro:

Si pones el botón al máximo de "Seguir órdenes", el robot se vuelve un soldado: avanza rápido y preciso, ignorando empujones leves.
Si pones el botón al máximo de "Ser flexible", el robot se vuelve un bailarín: si lo tocas, se deja guiar suavemente, como si estuviera de la mano contigo.
Lo mejor: Puedes ponerlo en medio. El robot puede caminar hacia adelante mientras tú lo guías un poco hacia la izquierda, combinando ambas cosas perfectamente.

3. ¿Cómo aprende a hacer esto? (El Entrenamiento)

Para enseñarle esto, los investigadores no le dieron una sola tarea. Le dieron un juego de equilibrio:

Le dijeron: "A veces, tu objetivo es llegar rápido a la meta. Otras veces, tu objetivo es no hacer daño si alguien te empuja".
Usaron una técnica llamada Aprendizaje por Refuerzo Multi-Objetivo. Piensa en esto como si le enseñaras a un niño a conducir: a veces le dices "¡Acelera!", y otras veces "¡Cuidado, hay un perro!". El robot aprende a encontrar el punto medio perfecto para cada situación.

4. El Truco del "Cristal de Vidrio" (Reconstrucción de Privilegios)

Aquí viene la parte más ingeniosa. En el mundo real, el robot no tiene sensores de fuerza en sus manos (como si tuviera piel). No sabe cuánto lo estás empujando.

En la simulación (el mundo virtual): El robot tiene "superpoderes". Puede ver las fuerzas invisibles que actúan sobre él.
En la realidad: Solo tiene sus sensores normales (cámaras, giroscopios).

Los investigadores crearon un entrenador secreto (un decodificador). Durante el entrenamiento, el entrenador le dice al robot: "Mira, te están empujando con 10 Newtons de fuerza". El robot aprende a adivinar esa fuerza basándose solo en cómo se mueve su cuerpo y sus sensores. Es como si el robot aprendiera a sentir el viento solo por cómo se le mueve el pelo, sin necesidad de un anemómetro.

5. Los Resultados en la Vida Real

Probaron esto en un robot real llamado Booster T1 y los resultados fueron increíbles:

Guía humana: Un humano podía tomar al robot de la mano y guiarlo suavemente por un campo de fútbol o terreno irregular. El robot no se resistía; caminaba con naturalidad, como si fuera un compañero de paseo.
Resistencia: Si alguien le daba un empujón fuerte de sorpresa (como una pelota lanzada), el robot no se caía. Se adaptaba, daba un paso atrás y recuperaba el equilibrio, como un surfista que se mantiene en la ola.
Cambio rápido: Podían cambiar el "botón de personalidad" en tiempo real. De repente, el robot pasaba de ser un seguidor estricto a ser un compañero flexible, todo en segundos.

En Resumen

Este trabajo es como enseñarle a un robot a ser versátil. Ya no es una máquina rígida que solo obedece órdenes ciegamente. Ahora es un compañero que puede:

Seguirte si le das una orden clara.
Dejar que lo guíes si tú lo tocas.
Cambiar entre estas dos actitudes al instante, según lo que necesites en ese momento.

Es un paso gigante para que los robots puedan caminar entre nosotros de forma segura, natural y amigable, en lugar de parecer máquinas extrañas que siempre están a punto de chocar.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo en español, estructurado según los puntos solicitados:

Título: Aprendizaje por Refuerzo Multi-Objetivo Condicionado a Preferencias para el Seguimiento de Comandos y la Cumplimiento de Fuerza en la Locomoción de Humanoides

1. Problema

La locomoción de robots humanoides en entornos centrados en el ser humano requiere un equilibrio delicado entre dos capacidades a menudo conflictivas:

Seguimiento preciso de comandos: La capacidad de navegar y seguir órdenes de velocidad (velocidad lineal y angular) de manera robusta.
Cumplimiento de fuerza (Force Compliance): La capacidad de responder de manera natural y segura a fuerzas externas aplicadas por humanos (ej. guía física, empujones), permitiendo que el robot se mueva con la interacción en lugar de resistirla rígidamente.

Los enfoques actuales de Aprendizaje por Refuerzo (RL) suelen priorizar la robustez mediante perturbaciones aleatorias durante el entrenamiento. Esto genera políticas que resisten eficazmente las fuerzas externas pero carecen de cumplimiento, volviéndose rígidas o inseguras ante la guía humana. Además, la búsqueda de seguimiento de comandos y cumplimiento de fuerza es inherentemente contradictoria: un seguimiento fuerte reduce la compliance, y viceversa. Los métodos existentes no abordan explícitamente esta compensación (trade-off), a menudo sacrificando recompensas específicas para mejorar el rendimiento general, dejando una brecha entre el seguimiento robusto y la interacción compliant.

2. Metodología

Los autores proponen un marco de Aprendizaje por Refuerzo Multi-Objetivo (MORL) condicionado a preferencias para resolver este dilema mediante una sola política unificada.

Modelado de Resistencia de Velocidad:
Para unificar los comandos de velocidad y las fuerzas externas en un espacio de recompensa comparable, se introduce un modelo de "resistencia de velocidad". Las fuerzas externas sostenidas se mapean a velocidades equivalentes ( $v_{ext} = k \cdot F_{ext}$ ) basándose en la amortiguación viscosa. Esto permite tratar tanto el seguimiento de velocidad como el cumplimiento de fuerza como objetivos de minimización de error de velocidad en la función de recompensa.
Formulación MORL Condicionada a Preferencias:
El problema se formula como un Proceso de Decisión de Markov Parcialmente Observable (POMDP) con una función de recompensa vectorial $r = [r_c, r_f, r_r]$ , donde:
- $r_c$ : Seguimiento de comandos de velocidad.
- $r_f$ : Cumplimiento a fuerzas externas.
- $r_r$ : Términos de regularización (estabilidad, energía, altura).
Se entrena una política $\pi(a|o, w)$ condicionada a un vector de preferencias $w = [w_c, w_f, w_r]$ . Al variar $w$ durante el entrenamiento, la política aprende un espectro continuo de comportamientos, desde el seguimiento rígido ( $w_c$ alto) hasta el cumplimiento total ( $w_f$ alto), sin necesidad de arquitecturas jerárquicas ni múltiples etapas de entrenamiento.
Arquitectura de Red y Entrenamiento:
- Estructura Asimétrica Actor-Crítico: Se utiliza una arquitectura con un codificador (encoder) y un decodificador.
- Reconstrucción Privilegiada: El "crítico" tiene acceso a información privilegiada (fuerzas externas, velocidades reales) disponible solo en simulación. El "actor" solo recibe observaciones desplegables (propiocepción, comandos). Un decodificador reconstruye la información privilegiada a partir de las observaciones históricas del actor, forzando al codificador a extraer características latentes relevantes para la fuerza y el torque.
- Entrenamiento: Se utiliza PPO (Proximal Policy Optimization) con aprendizaje por currículos y aleatorización de dominio. Las fuerzas externas se aplican aleatoriamente y los pesos de preferencia se muestrean en cada episodio para cubrir todo el espectro de compensaciones.

3. Contribuciones Clave

Formulación Multi-Objetivo Unificada: Se presenta un modelo de resistencia de velocidad que proporciona una representación unificada para comandos y fuerzas externas, permitiendo un diseño de recompensas consistente y comparable.
Marco MORL Condicionado a Preferencias: Se propone un marco que entrena una sola política capaz de interpolar suavemente entre el seguimiento rígido y la caminata altamente compliant, eliminando la necesidad de controladores jerárquicos complejos o fases de entrenamiento separadas.
Validación en Simulación y Hardware Real: Se demuestra la viabilidad del enfoque en el robot humanoide adulto Booster T1, mostrando comportamientos de locomoción omnidireccional adaptables a preferencias específicas del usuario en entornos reales.

4. Resultados

Simulación:
- La política MORL logra una curva de compensación (trade-off) monótona y suave: al aumentar el peso de cumplimiento, la precisión del seguimiento disminuye y viceversa, validando el control sobre el espectro de comportamientos.
- Conmutación en línea: La política puede cambiar de comportamiento en tiempo real al ajustar los pesos de preferencia durante la ejecución, sin inestabilidad.
- Robustez: En pruebas de perturbaciones instantáneas (impulsos de fuerza), las políticas MORL (especialmente aquellas con mayor peso de cumplimiento) muestran tasas de éxito más altas y pares (torques) máximos en las articulaciones más bajos que las políticas de RL de objetivo único o la línea base, indicando una mejor absorción de impactos.
Experimentos en Mundo Real (Booster T1):
- Adaptabilidad: El robot cambia cualitativamente su comportamiento según la preferencia: con alta prioridad de cumplimiento, cede fácilmente a la guía humana; con alta prioridad de comando, sigue órdenes precisas resistiendo fuerzas externas.
- Medición de Fuerza: En pruebas cuantitativas, la política MORL requiere aproximadamente 10 N de fuerza para mover el robot suavemente, mientras que la línea base (sin cumplimiento explícito) requiere más de 25 N y a menudo excede los límites de medición, comportándose de manera rígida y brusca.
- Locomoción Omnidireccional: El robot logra caminar en diagonal, combinando comandos de velocidad y respuestas a fuerzas ortogonales, demostrando una síntesis coherente de objetivos.
- Resistencia a Perturbaciones: El robot soporta impactos de bolas de hasta 5 kg sin caer, ajustando su paso y absorbiendo la fuerza mediante movimiento compliant.

5. Significado

Este trabajo representa un avance significativo en la interacción humano-robot física. Al demostrar que es posible integrar el seguimiento de comandos y el cumplimiento de fuerza en una sola política de aprendizaje profundo, se habilita a los humanoides para operar de manera más segura y natural en entornos dinámicos donde la guía física humana es común. La capacidad de ajustar el comportamiento en tiempo real mediante un vector de preferencia, sin reentrenamiento ni arquitecturas complejas, ofrece una solución práctica y escalable para la implementación de robots humanoides en aplicaciones de servicio, asistencia y colaboración cercana. Además, la metodología de reconstrucción de características latentes permite desplegar estas capacidades avanzadas en hardware real sin necesidad de sensores de fuerza externos costosos o complejos.

Preference-Conditioned Multi-Objective RL for Integrated Command Tracking and Force Compliance in Humanoid Locomotion

1. El Dilema del Robot: ¿Soldado o Bailarín?

2. La Solución: El "Botón de Volumen" de la Personalidad

3. ¿Cómo aprende a hacer esto? (El Entrenamiento)

4. El Truco del "Cristal de Vidrio" (Reconstrucción de Privilegios)

5. Los Resultados en la Vida Real

En Resumen

Título: Aprendizaje por Refuerzo Multi-Objetivo Condicionado a Preferencias para el Seguimiento de Comandos y la Cumplimiento de Fuerza en la Locomoción de Humanoides

1. Problema

2. Metodología

3. Contribuciones Clave

4. Resultados

5. Significado

Más como este

Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning

AnchorNote: Exploring Speech-Driven Spatial Externalization for Co-Located Collaboration in Augmented Reality

Your Robot Will Feel You Now: Empathy in Robots and Embodied Agents

FIGURA: A Modular Prompt Engineering Method for Artistic Figure Photography in Safety-Filtered Text-to-Image Models

Measuring Research Convergence in Interdisciplinary Teams Using Large Language Models and Graph Analytics