H-WM: Robotic Task and Motion Planning Guided by Hierarchical World Model

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que quieres enseñarle a un robot a hacer una tarea muy complicada, como "preparar la mesa del desayuno, limpiar el desorden y luego guardar los platos". Si le dices al robot simplemente "hazlo", se va a confundir, se va a equivocar a mitad de camino y probablemente termine tirando leche por el suelo.

Este paper presenta una solución genial llamada H-WM (Modelo de Mundo Jerárquico). Para entenderlo, vamos a usar una analogía sencilla: El Arquitecto y el Albañil.

1. El Problema: El Robot que se pierde en el camino

Antes, los robots inteligentes (llamados modelos VLA) funcionaban como un albañil que no tiene planos.

Le dices: "Construye una casa".
El albañil mira el ladrillo que tiene en la mano y pone otro ladrillo. Luego mira el siguiente y pone otro.
El problema: Como no tiene un plano general, a los pocos ladrillos se olvida de dónde va la puerta, o pone el techo antes que las paredes. En tareas largas, comete errores pequeños que se van acumulando hasta que el robot falla por completo.

2. La Solución: El Modelo de Mundo Jerárquico (H-WM)

Los autores proponen un sistema de dos niveles que actúa como un jefe de obra inteligente que guía al robot paso a paso.

Nivel 1: El Arquitecto Lógico (El "Cerebro" Simbólico)

Imagina que tienes un Arquitecto que no ve los ladrillos, pero entiende perfectamente las reglas de la construcción.

Este arquitecto sabe que primero hay que poner los cimientos, luego las paredes y al final el techo.
No se preocupa por cómo se ve el ladrillo, sino por qué debe hacer el robot en orden lógico.
En el paper, esto es el Modelo de Mundo Lógico. Usa un lenguaje de "símbolos" (como una lista de tareas: "abrir cajón", "agarrar cuchara") para planear el camino completo antes de empezar.
Ventaja: Nunca olvida el orden de las cosas.

Nivel 2: El Albañil Visual (El "Ojo" que ve)

Ahora, imagina que el Arquitecto le da instrucciones al Albañil (el robot real), pero el albañil necesita ver cómo se ve el resultado para no equivocarse.

El Arquitecto dice: "Ahora pon la cuchara en el cajón".
El Modelo de Mundo Visual actúa como un visor de realidad aumentada. Le dice al robot: "Mira, cuando pongas la cuchara, el cajón debe verse así... y la cuchara debe estar en esta posición exacta".
En lugar de generar una película completa (que es lento y propenso a errores), el sistema genera una "foto mental" o un "punto de referencia" de cómo debe verse el mundo en el siguiente paso.
Ventaja: El robot sabe exactamente qué aspecto físico debe buscar para saber si hizo bien la tarea.

3. ¿Cómo trabajan juntos? (La Magia de H-WM)

El sistema H-WM une a estos dos personajes en una sola mente:

El Plan Maestro: El "Arquitecto" (Lógica) piensa: "Para limpiar la mesa, primero debo recoger los vasos, luego los platos y finalmente la servilleta".
La Guía Visual: Por cada paso, el sistema le muestra al robot una "foto mental" de cómo debe quedar la mesa después de recoger los vasos.
Ejecución: El robot (el VLA) mira la mesa real, compara con la "foto mental" y mueve sus brazos para hacer coincidir la realidad con la foto.

¿Por qué es tan bueno esto?

Evita el "efecto dominó": Si el robot se equivoca un poco al agarrar un vaso, el sistema lo nota porque la "foto mental" no coincide, y se corrige antes de cometer un error grave.
No se pierde: Como el "Arquitecto" tiene el plan completo, el robot nunca olvida qué sigue después de recoger los vasos.
Es flexible: Funciona bien incluso si la mesa está desordenada de formas nuevas, porque el robot no solo sigue reglas ciegas, sino que "ve" hacia dónde va.

En resumen

Imagina que quieres ir a un destino lejano en un coche.

Los robots antiguos eran como conducir mirando solo el capó del coche, sin mapa. Si te desviabas un poco, te perdías para siempre.
El nuevo sistema (H-WM) es como tener un GPS (Lógica) que te dice "gira a la derecha en 500 metros" y un espejo retrovisor con proyección (Visual) que te muestra exactamente cómo se verá la curva antes de llegar.

Gracias a esta combinación, los robots pueden ahora realizar tareas largas y complejas (como limpiar una habitación entera o preparar una cena) sin perder el hilo, sin cometer errores tontos y con mucha más confianza. ¡Es como darles un cerebro de director de cine y ojos de cámara de alta definición al mismo tiempo!

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: H-WM (Modelo de Mundo Jerárquico)

1. El Problema

Los modelos recientes de Visión-Lenguaje-Acción (VLA) han mejorado la generalización en robótica al mapear observaciones visuales e instrucciones de lenguaje directamente a acciones de bajo nivel. Sin embargo, estos enfoques "end-to-end" sufren un deterioro significativo en tareas de largo horizonte (secuencias complejas con múltiples pasos). Las causas principales son:

Acumulación de errores: Pequeños errores de ejecución se propagan y amplifican a lo largo del tiempo.
Ambigüedad en los objetivos: Las especificaciones de alto nivel a menudo son vagas para la ejecución física.
Falta de supervisión intermedia: Los modelos no tienen una guía estructurada para los estados intermedios.
Limitaciones de los enfoques existentes:
- Los planificadores basados en LLM (lenguaje) carecen de comprensión de las restricciones físicas y sufren de desalineación semántica.
- Los modelos de mundo puramente visuales (generación de video) acumulan errores de predicción en horizontes largos.
- La planificación clásica de Tareas y Movimiento (TAMP) depende de abstracciones manuales y es frágil ante el ruido en la percepción visual.

No existe actualmente un marco que combine la robustez del razonamiento simbólico a largo plazo con la capacidad de anclaje visual (grounding) de los modelos de percepción.

2. Metodología: H-WM

Los autores proponen un Modelo de Mundo Jerárquico (H-WM) que predice conjuntamente transiciones de estado lógicas y visuales dentro de un marco unificado. El sistema opera en dos frecuencias temporales: baja frecuencia para la planificación de subtareas y alta frecuencia para el control del robot.

El marco consta de tres componentes principales:

A. Modelo de Mundo Lógico (High-Level):
- Implementado como un LLM (Qwen3-4B) ajustado finamente.
- Realiza razonamiento simbólico a largo plazo en el espacio lógico (usando formalismos tipo PDDL).
- Predice secuencias de acciones lógicas y transiciones de estados estructurados.
- Actúa como un "planificador" que busca y evalúa trayectorias candidatas basándose en la consistencia lógica y la alineación con el objetivo global, mitigando la fragilidad de los dominios lógicos manuales.
B. Modelo de Mundo Visual (Low-Level):
- Condicionado por los estados lógicos y acciones predichas por el modelo superior.
- No genera imágenes píxel a píxel (lo cual es costoso y propenso a errores), sino que predice características latentes visuales (sub-objetivos) que representan el estado final deseado de cada subtarea.
- Utiliza un proceso de denoising iterativo para mapear la información simbólica a un espacio visual latente, alineando la planificación lógica con la percepción.
C. Integración con VLA (Política de Control):
- El modelo VLA de bajo nivel (basado en la arquitectura de transformadores de PaliGemma) recibe la guía jerárquica.
- Incorpora tres "expertos":
  1. Entendimiento: Codifica la observación actual y la acción lógica.
  2. Objetivo: Procesa la característica latente visual predicha (el sub-objetivo).
  3. Acción: Genera los bloques de acción de bajo nivel atendiendo tanto al entendimiento como al objetivo.
- Un cabezal de predicción de finalización de subtarea monitorea el progreso para transicionar suavemente entre pasos lógicos.

3. Contribuciones Clave

Marco de Modelo de Mundo Jerárquico: Un nuevo enfoque que alinea las transiciones lógicas a largo plazo con la dinámica visual para una predicción coherente y una ejecución robusta.
Modelo de Mundo Lógico: Un LLM ajustado que internaliza comportamientos de planificación simbólica, proporcionando guía estructurada y globalmente consistente sin depender exclusivamente de abstracciones manuales rígidas.
Modelo de Mundo Visual Latente: Genera características de sub-objetivos visuales compactas condicionadas a los estados lógicos, evitando la generación de imágenes píxel a píxel y reduciendo la acumulación de errores.
Pipeline de Integración: Un sistema sistemático que integra la guía lógica y visual en modelos VLA existentes, permitiendo una ejecución físicamente fundamentada en tareas complejas.

4. Resultados Experimentales

El modelo se evaluó en múltiples benchmarks de planificación y control a largo plazo (LIBERO-10, LIBERO-LoHo y RoboCerebra), comparándose con modelos VLA de última generación (como $\pi_0$ , $\pi_{0.5}$ , OpenVLA) y enfoques basados en LLM.

Rendimiento en Tareas de Largo Horizonte (LIBERO-LoHo):
- H-WM guiando a $\pi_{0.5}$ logró una tasa de éxito del 64.8% y un Q-Score (calidad de progreso) del 84.9%.
- Esto supera significativamente a la base $\pi_{0.5}$ (6.4% de éxito) y a otros baselines como LLM-guided $\pi_{0.5}$ (26.8% de éxito).
- La mejora en tareas de 5-7 pasos fue superior al 50% en tasa de éxito.
Análisis de Ablación:
- Solo Lógica: Mejora la tasa de éxito en más del 40% respecto a la base, demostrando la utilidad del razonamiento simbólico.
- Lógica + Visual: Añadir la guía visual latente mejora aún más el rendimiento (+17% en éxito y +10% en Q-Score), confirmando que el anclaje visual es crucial para la alineación entre restricciones simbólicas y ejecución perceptiva.
- Generación de Imágenes vs. Latente: La variante que usa generación de imágenes (Stable Diffusion) en lugar de características latentes tuvo un rendimiento inferior (caída de >10% en éxito), indicando que las características latentes son más eficientes y menos ruidosas para la guía.
Experimentos en Mundo Real:
- Se desplegó en un robot UR5e para una tarea de limpieza de mesa de 8 pasos.
- H-WM guiado logró una tasa de éxito significativamente mayor en cada paso comparado con $\pi_0$ y $\pi_{0.5}$ sin guía, demostrando robustez en entornos físicos no estructurados.

5. Significado e Impacto

El trabajo de H-WM representa un avance significativo en la robótica al cerrar la brecha entre el razonamiento simbólico de alto nivel (que ofrece robustez y consistencia a largo plazo) y el anclaje perceptivo de bajo nivel (que permite la ejecución física real).

Superación de Limitaciones Actuales: Demuestra que los modelos VLA puros no son suficientes para tareas complejas y que la introducción de una "mente" jerárquica (lógica + visual) es necesaria para mitigar la acumulación de errores.
Escalabilidad: Al utilizar características latentes en lugar de generación de video completa, el sistema es computacionalmente más eficiente y estable.
Futuro: Aunque introduce complejidad en el entrenamiento y depende de representaciones lógicas estructuradas, establece una nueva dirección para sistemas robóticos capaces de planificar y ejecutar tareas de larga duración con alta fiabilidad en entornos del mundo real.