MoMaStage: Skill-State Graph Guided Planning and Closed-Loop Execution for Long-Horizon Indoor Mobile Manipulation

Each language version is independently generated for its own context, not a direct translation.

Imagina que le pides a un robot que haga una tarea muy complicada en tu casa, como: "Ve a la cocina, coge el plato gris de la encimera, llévalo a la mesa del comedor y ponlo encima del plato blanco".

Para un humano, esto es fácil. Pero para un robot, es como intentar escribir una novela entera de una sola vez sin cometer ni un solo error de ortografía, mientras te mueves por la casa. Si el robot se tropieza en el primer paso, suele olvidar todo lo que tenía que hacer después y se queda "congelado" o hace cosas sin sentido.

Aquí es donde entra MoMaStage, el nuevo sistema que presentan los autores. Vamos a explicarlo con una analogía sencilla:

🧠 El Robot con un "GPS Mental" y un "Guía de Viaje"

Imagina que el robot tiene dos partes principales:

El Cerebro (VLM): Es como un asistente muy inteligente que sabe mucho sobre el mundo (sabe qué es un plato, qué es una mesa), pero a veces es un poco soñador. Puede inventar cosas que no son posibles físicamente (como atravesar una pared).
El Mapa de Reglas (MoMaStage): Aquí es donde la magia ocurre. MoMaStage no es un mapa de la casa (no necesita saber dónde están los muebles), sino un mapa de "qué puedo hacer después de lo que acabo de hacer".

1. El Problema: El "Efecto Dominó"

En los robots antiguos, si el robot intentaba agarrar un plato y se le caía, el "cerebro" no se daba cuenta de inmediato. Seguía dando órdenes como "pon el plato en la mesa", pero como el robot no tenía el plato, todo el plan se rompía. Era como intentar construir una torre de cartas empujando la base: si una se cae, todo el castillo se derrumba.

2. La Solución: El "Semáforo de Habilidades"

MoMaStage introduce dos conceptos clave para evitar esto:

La Biblioteca de Habilidades (Skill Library): Imagina que el robot tiene una caja de herramientas. No solo tiene "cogedor" o "camina", sino que sabe que "cogedor" solo funciona si sus manos están vacías.
El Gráfico de Estado-Habilidad (Skill-State Graph): Esta es la parte más genial. Imagina un tablero de juego (como el de la oca o el ajedrez).
- Cada casilla es un estado (ej: "Robot en la cocina, manos vacías").
- Las flechas son las acciones permitidas (ej: "Puedes ir a la mesa", "Puedes agarrar el plato").
- La regla de oro: El robot no puede saltar a una casilla si no cumple las reglas. Si sus manos están llenas, no puede intentar agarrar otra cosa. El sistema le dice al "Cerebro": "Oye, no puedes hacer eso ahora mismo, primero tienes que soltar lo que llevas".

3. El "Circuito de Seguridad" (Bucle de Cierre)

Lo más importante de MoMaStage es que no deja que el robot actúe a ciegas.

Antes: El robot recibía una lista de instrucciones y las ejecutaba sin mirar atrás (como conducir con los ojos vendados).
Ahora (MoMaStage): El robot tiene un copiloto que vigila cada movimiento en tiempo real.
- Si el robot intenta agarrar el plato y se le resbala, el copiloto grita: "¡Espera! El plato no está en la mano. ¡Detente!".
- En lugar de reiniciar todo el viaje desde cero, el sistema mira el "tablero de juego" y busca una ruta alternativa para arreglar el error (ej: "Vuelve a intentar agarrar" o "Muévete a una posición mejor").
- Esto es como si, al tropezar en una caminata, en lugar de volver a casa, simplemente te ajustaras el zapato y siguieras caminando.

🌟 ¿Por qué es esto un gran avance?

No necesita mapas 3D: No tiene que escanear toda tu casa para saber dónde está. Solo necesita saber qué puede hacer con su cuerpo en ese momento. Es más rápido y flexible.
Ahorra "pensamiento": Al tener reglas claras, el cerebro del robot no pierde tiempo imaginando cosas imposibles. Es como darle a un escritor un esquema de la historia en lugar de dejarle escribir sin guía; escribe mejor y más rápido.
Se recupera de los errores: En pruebas reales, los robots antiguos fallaban casi siempre en tareas largas. MoMaStage logra completarlas porque sabe cómo arreglar sus propios errores sobre la marcha.

En resumen

MoMaStage es como darle a un robot un guía de viaje inteligente que le dice: "Si haces esto, entonces puedes hacer aquello, pero si te equivocas, aquí tienes un plan B". Convierte una tarea larga y difícil en una serie de pequeños pasos lógicos, asegurando que el robot no se pierda ni se frustre cuando las cosas salen mal.

Es el paso de tener un robot que "intenta a ver qué pasa" a tener un robot que "sabe lo que está haciendo y cómo arreglarlo si algo sale mal".

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: MoMaStage

1. El Problema

La manipulación móvil interior a largo plazo (MoMA) requiere que los robots ejecuten secuencias extensas de navegación e interacción con objetos en entornos dinámicos y complejos (como hogares). Los desafíos principales identificados son:

Errores en cascada: Las aproximaciones basadas en aprendizaje (imitación o políticas end-to-end) suelen fallar al mantener la consistencia lógica en horizontes largos, acumulando errores pequeños que derivan en fallos catastróficos.
Limitaciones de los modelos VLM (Vision-Language Models): Los agentes impulsados puramente por VLMs a menudo generan planes semánticamente plausibles pero físicamente inconsistentes (alucinaciones físicas), ya que ignoran el estado acumulado del robot (ej. intentar agarrar un objeto cuando la pinza ya está ocupada).
Rigidez de los métodos basados en mapas: Las técnicas tradicionales de planificación simbólica dependen de representaciones explícitas del entorno (mapas 3D, gráficos de escena), lo que impone suposiciones estructurales rígidas, reduce la adaptabilidad y genera una gran carga computacional.

2. Metodología: MoMaStage

MoMaStage es un marco estructurado de visión-lenguaje diseñado para la manipulación móvil a largo plazo sin necesidad de mapeo explícito del entorno. Su núcleo es un mecanismo de anclaje de estado que vincula el razonamiento semántico con las restricciones físicas del robot.

El sistema se compone de tres módulos principales:

A. Anclaje de Habilidades Estructurado (Structured Skill Grounding)

Biblioteca de Habilidades Jerárquica: Organiza las capacidades en dos niveles:
- Nivel de Acción: Primitivas de bajo nivel (control de articulaciones, movimiento básico) desacopladas de la semántica.
- Nivel Semántico: Habilidades acopladas al contexto (ej. "agarrar", "navegar a") con precondiciones y relaciones secuenciales explícitas.
Gráfico de Estado-Habilidad (Skill-State Graph): Un grafo topológico que modela las transiciones factibles entre habilidades. A diferencia de un grafo simple, cada nodo incluye:
- Estado de Precondición ( $C$ ): Describe la ubicación del robot y el estado de las pinzas (vacío u ocupado).
- Variación de Estado ( $\Delta$ ): Define cómo la ejecución de una habilidad modifica el estado (ej. ADD para agarrar, SUB para soltar, MOVE para navegar).
- Esto permite verificar recursivamente la consistencia global del estado a lo largo de la secuencia de tareas.

B. Planificación Guiada por Gráficos y Verificación

Planificación Semántica Consciente de la Topología: El VLM descompone la instrucción natural en una secuencia de habilidades candidata, pero su razonamiento está restringido a las transiciones válidas definidas en el Gráfico de Estado-Habilidad.
Verificación de Factibilidad Impulsada por Estado: Antes de la ejecución, el sistema realiza una verificación post-hoc. Simula la aplicación de las variaciones de estado ( $\Delta$ ) a lo largo de la secuencia propuesta. Si se detecta un conflicto (ej. intentar agarrar con la pinza llena), el plan se rechaza y se solicita una re-descomposición al VLM.

C. Ejecución en Bucle Cerrado y Replanificación

Monitorización del Estado Propio (Ego-State): Durante la ejecución, el sistema monitorea continuamente los datos propios (encoders, sensores táctiles) para confirmar el éxito físico de cada habilidad primitiva.
Verificación Semántica: El VLM verifica si el estado observado del entorno coincide con la variación esperada ( $\Delta$ ).
Replanificación Dinámica Guiada por el Grafo: Si se detecta una desviación o fallo (ej. agarre fallido, camino bloqueado), el sistema no reinicia la tarea. Utiliza el estado actual observado como nuevo punto de partida y busca en el Gráfico de Estado-Habilidad una ruta de recuperación factible, permitiendo al robot adaptarse autónomamente a perturbaciones.

3. Contribuciones Clave

Marco MoMaStage: Un sistema unificado, sin mapas y guiado por VLM, que integra comprensión de instrucciones, generación de cadenas de habilidades, ejecución y refinamiento por retroalimentación en un bucle de decisión cerrado.
Mecanismo de Planificación Anclado al Estado: Introducción del Skill-State Graph y una biblioteca jerárquica que impone la factibilidad del estado acumulado sobre las cadenas generadas por el VLM, permitiendo una recuperación robusta mediante monitorización ligera y replanificación semántica dirigida.
Validación Empírica: Demostración extensiva en simulaciones físicas ricas y entornos del mundo real, superando a los métodos más avanzados (baselines) en validez de planificación, robustez de ejecución y tasas de éxito en tareas a largo plazo.

4. Resultados Experimentales

Los experimentos se realizaron en un entorno real (robot móvil con 4 brazos) y en simulación (mshab* con escenarios como "ordenar casa", "preparar comestibles", "poner la mesa").

Rendimiento en Mundo Real:
- En tareas de hasta 17 sub-tareas, MoMaStage logró una tasa de éxito final del 60%, mientras que las líneas base (como DeCo o ACT end-to-end) cayeron al 0% debido a la falta de recuperación de errores.
- La capacidad de replanificación permitió recuperar fallos físicos (ej. agarres fallidos) sin interrumpir la misión global.
Rendimiento en Simulación:
- Tasa de Éxito de Planificación: MoMaStage alcanzó tasas de éxito del 79% al 94% en diversas configuraciones, superando significativamente a DeCo (que osciló entre 20% y 47% y falló en tareas complejas).
- Eficiencia Computacional: Al restringir el espacio de búsqueda del VLM mediante el subgrafo relevante, MoMaStage redujo el tiempo de inferencia (de 24.6s a 16.0s) y el uso de tokens (de 9106 a 6633) en comparación con enfoques sin restricciones, manteniendo una fiabilidad del 100% en la planificación inicial.
Análisis de Fallos:
- La mayoría de los fallos en simulación se debieron a limitaciones físicas de bajo nivel (límites de fuerza, colisiones), no a errores semánticos.
- El sistema nunca revertió tareas completadas (0% de fallos por "Preceding Task Failed"), validando la consistencia lógica del enfoque.

5. Significado e Impacto

El trabajo de MoMaStage es significativo porque:

Cambia el paradigma de planificación: Demuestra que para la manipulación a largo plazo, no se necesita un modelo de mundo simbólico completo y pesado, sino un modelo de transición de estado de habilidades ligero y anclado al cuerpo del robot.
Cierra la brecha Semántica-Física: Al integrar la verificación de estado en el bucle de planificación y ejecución, mitiga el problema de las "alucinaciones físicas" comunes en los VLMs.
Escalabilidad y Robustez: Ofrece una solución viable para tareas complejas en entornos no estructurados, donde la adaptabilidad y la recuperación autónoma de errores son críticas, reduciendo al mismo tiempo los costos computacionales y de API.

En conclusión, MoMaStage establece que modelar explícitamente las transiciones del estado de encarnación (embodiment) es la clave para conectar el razonamiento semántico de alto nivel con la ejecución robótica robusta a largo plazo.

MoMaStage: Skill-State Graph Guided Planning and Closed-Loop Execution for Long-Horizon Indoor Mobile Manipulation

🧠 El Robot con un "GPS Mental" y un "Guía de Viaje"

1. El Problema: El "Efecto Dominó"

2. La Solución: El "Semáforo de Habilidades"

3. El "Circuito de Seguridad" (Bucle de Cierre)

🌟 ¿Por qué es esto un gran avance?

En resumen

Resumen Técnico: MoMaStage

1. El Problema

2. Metodología: MoMaStage

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers