Scale-Plan: Scalable Language-Enabled Task Planning for Heterogeneous Multi-Robot Teams

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes que organizar una fiesta enorme en una casa llena de cosas, pero en lugar de hacerlo tú solo, tienes un equipo de robots con diferentes habilidades. Algunos son fuertes, otros son rápidos, y otros son muy precisos. El problema es que la casa está llena de miles de objetos: desde una tostadora hasta un tomate, pasando por un polvo de limpieza.

Aquí es donde entra el Scale-Plan, la solución que proponen los autores de este paper. Vamos a desglosarlo como si fuera una historia.

1. El Problema: El "Sobrecarga de Información"

Imagina que le pides a un robot: "Por favor, pon la manzana en la nevera y apaga la luz".

Si el robot es como un humano que no tiene filtro, miraría todo lo que ve: la manzana, la nevera, la luz... pero también vería el tomate, la sartén, el polvo, el pan, la cuchara, la basura, etc.

El resultado: El cerebro del robot se satura. Se confunde. Podría intentar agarrar el tomate por error, o pensar que necesita abrir un armario que no tiene nada que ver. En el mundo de la robótica, esto se llama "alucinación" (el robot inventa cosas que no existen o no son necesarias) y hace que el plan falle.

2. La Solución: El "Filtro de Superhéroe" (Scale-Plan)

Los autores crearon un sistema llamado Scale-Plan. Piensa en él como un director de orquesta muy inteligente que tiene dos trucos geniales:

A. El Mapa de Conexiones (El Grafo de Acciones)

Antes de que empiece la fiesta, el sistema crea un "mapa de relaciones" basado en las reglas del juego (llamado PDDL).

La analogía: Imagina un diagrama de flujo que dice: "Para cortar el tomate, primero necesitas el cuchillo. Para poner la manzana en la nevera, primero necesitas abrir la nevera".
Este mapa no se preocupa por dónde están las cosas, sino por qué se necesita para qué. Es como tener el manual de instrucciones de la cocina pegado en la frente del robot.

B. El Filtro Inteligente (Búsqueda en el Mapa)

Cuando llega la orden ("Pon la manzana en la nevera"), el sistema no mira toda la casa.

Mira su mapa de conexiones.
Dice: "Ah, para esto necesito: una manzana, una nevera, y la habilidad de 'abrir' y 'agarrar'".
Ignora todo lo demás: El tomate, la tostadora y el polvo quedan fuera de la lista.
Le da al robot solo la información esencial. Es como si le dieras a un chef solo los ingredientes para la ensalada, en lugar de toda la despensa.

3. La Orquesta: Robots Cooperando

Una vez que el sistema ha filtrado la información, le toca al Gran LLM (el cerebro de lenguaje) actuar.

Descomposición: Divide la tarea grande en trozos pequeños. "Robot 1, tú ve por la manzana. Robot 2, tú ve a la nevera".
Asignación: Decide qué robot hace qué, basándose en sus habilidades (si un robot es lento, no le das la tarea de correr).
Ejecución: Convierte todo esto en un código que los robots pueden entender y ejecutar en un simulador (como un videojuego muy realista llamado AI2-THOR).

4. El Nuevo Campo de Pruebas: MAT2-THOR

Los autores también se dieron cuenta de que los tests anteriores para robots estaban "sucios" (con instrucciones confusas o errores). Así que crearon MAT2-THOR, que es como una pista de entrenamiento limpia y perfecta para probar robots.

Es como si antes los robots practicaran en un gimnasio con pesas oxidadas y reglas confusas, y ahora entrenan en un gimnasio de última generación con reglas claras. Esto permite ver realmente quién es el mejor.

5. ¿Funciona? (Los Resultados)

Compararon su sistema (Scale-Plan) con otros métodos:

El método "Solo LLM": El robot intenta adivinar todo sin reglas. Resultado: Se confunde mucho y falla.
El método "Híbrido": Usa reglas, pero a veces se atasca con demasiada información.
Scale-Plan: Al filtrar primero la información y luego usar el cerebro de lenguaje, ganó en casi todo. Logró completar más tareas, cometió menos errores y fue más rápido en situaciones complejas.

En Resumen

Scale-Plan es como tener un asistente personal muy organizado para un equipo de robots. En lugar de dejar que los robots se ahoguen mirando todo el desorden de la casa, el asistente:

Mira el manual de instrucciones.
Selecciona solo los objetos necesarios para la tarea.
Le dice a cada robot exactamente qué hacer, paso a paso.

Gracias a esto, los robots pueden trabajar juntos de forma eficiente en entornos reales y llenos de objetos, sin volverse locos intentando procesar información que no les importa. ¡Es la diferencia entre intentar cocinar una cena mirando todo el supermercado, o mirar solo la lista de la compra!

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Scale-Plan

1. El Problema

La planificación de tareas a largo plazo para equipos de robots heterogéneos en entornos reales es un desafío crítico debido a dos factores principales:

Sobrecarga de Información Perceptiva: Los entornos reales (como hogares) contienen una gran cantidad de objetos y datos sensoriales. Sin embargo, la mayoría de esta información es irrelevante para el objetivo de la tarea específica. Incluir todo esto en el espacio de búsqueda de planificación genera una complejidad combinatoria excesiva y degrada el rendimiento.
Limitaciones de los Enfoques Actuales:
- Planificadores Simbólicos Tradicionales (PDDL): Requieren especificaciones de problemas manuales y detalladas, lo que limita su escalabilidad y adaptabilidad en entornos dinámicos.
- Enfoques basados en Modelos de Lenguaje (LLM): Aunque flexibles, sufren de alucinaciones (inventar objetos o restricciones) y un anclaje débil (mala alineación entre el plan generado y los objetos reales del entorno). En entornos con muchos objetos, los LLM tienden a prestar atención a detalles irrelevantes, lo que lleva a planes inviables o ineficientes.

2. Metodología: Scale-Plan

Scale-Plan es un marco de trabajo asistido por LLM diseñado para generar representaciones de problemas compactas y relevantes para la tarea, filtrando la información irrelevante antes de la planificación. Su arquitectura consta de dos componentes principales:

A. Construcción y Búsqueda en el Grafo de Acciones (Offline y Runtime)

Grafo de Acciones: Se construye un grafo dirigido a partir de la especificación del dominio PDDL (Planificación de Dominio Definido).
- Los nodos representan esquemas de acciones parametrizados.
- Las aristas codifican dependencias lógicas entre acciones (precondiciones y efectos).
- Se utilizan dos reglas para generar aristas: Estricta (si los efectos de $a_1$ satisfacen completamente las precondiciones de $a_2$ ) y Relajada (para mantener la conectividad cuando hay solapamiento parcial).
Filtrado de Entorno (Runtime):
1. Dada una instrucción en lenguaje natural, un LLM realiza un razonamiento superficial para proponer un conjunto pequeño de acciones candidatas y objetos relevantes.
2. Se realiza una búsqueda en profundidad (DFS) hacia atrás en el grafo de acciones desde estas acciones candidatas.
3. Esto identifica el subconjunto mínimo de acciones predecesoras y objetos necesarios para satisfacer las condiciones del objetivo.
4. El resultado es un entorno filtrado ( $M_{fil}$ ) que contiene solo la información relevante, reduciendo drásticamente la complejidad combinatoria.

B. Pipeline de Planificación Multi-Robot Estructurado
En lugar de generar un archivo de problema PDDL intermedio (que es propenso a errores de anclaje), Scale-Plan utiliza el entorno filtrado para ejecutar un pipeline estructurado:

Descomposición de Tareas: Divide la instrucción de alto nivel en subtareas manejables.
Asignación de Robots: Asigna las subtareas a robots específicos basándose en sus capacidades (heterogeneidad) y permite la ejecución paralela cuando es posible.
Integración de Planes: Combina los planes de subtarea en una estrategia de ejecución coherente, respetando las dependencias temporales.
Plan-to-Code: Traduce el plan lógico directamente a código ejecutable en el simulador AI2-THOR, evitando la generación explícita de archivos PDDL intermedios.

3. Contribuciones Clave

Framework Scale-Plan: Un sistema escalable que utiliza un grafo de acciones derivado de PDDL para filtrar información ambiental, permitiendo representaciones de problemas compactas y reduciendo las alucinaciones del LLM.
Pipeline de Planificación sin PDDL Intermedio: Un flujo de trabajo que descompone instrucciones naturales y asigna robots directamente a secuencias de acciones ejecutables, eliminando la necesidad de generar archivos de problema PDDL manuales o intermedios que suelen ser frágiles.
MAT2-THOR: La introducción de un nuevo benchmark limpio y estandarizado derivado de MAT-THOR y AI2-THOR. Este conjunto de datos corrige errores en las condiciones de éxito originales, elimina tareas duplicadas y resuelve ambigüedades lingüísticas, proporcionando una evaluación más fiable para sistemas de planificación multi-agente.

4. Resultados Experimentales

Los experimentos se realizaron en el simulador AI2-THOR utilizando el benchmark MAT2-THOR (49 tareas: simples, complejas y vagas). Se comparó Scale-Plan contra cuatro líneas base:

LLM puro como planificador.
LLM + PDDL (generación de archivo PDDL intermedio).
LaMMA-P (enfoque modular PDDL).
LaMMA-P corregido por LLM.

Hallazgos Principales:

Rendimiento Superior: Scale-Plan superó a todas las líneas base en todas las métricas.
- Tasa de Completación de Tareas (TCR): Mejoró un 25% globalmente frente a la línea base más fuerte (LaMMA-P corregido). En tareas complejas, la mejora fue del 35%.
- Tasa de Ejecutabilidad (ER): Logró un 94% de ejecutabilidad global, demostrando mayor robustez en la ejecución de bajo nivel.
Eficiencia vs. Calidad: Aunque Scale-Plan tiene un tiempo de planificación (PT) mayor que los enfoques puramente neuronales (debido a múltiples llamadas al LLM para la estructura), la calidad y fiabilidad del plan resultante justifican el costo computacional.
Estudio de Ablación: La eliminación del filtrado de entorno (No-EF) redujo la TCR en un 12-13%, confirmando que la reducción de la complejidad combinatoria es crucial para el éxito en tareas de largo horizonte.

5. Significado e Impacto

El trabajo de Scale-Plan es significativo porque aborda el cuello de botella fundamental en la robótica colaborativa: la escalabilidad en entornos ricos en objetos.

Validación de la Híbrida: Demuestra que combinar conocimiento estructurado del dominio (grafos de acciones PDDL) con la flexibilidad del lenguaje natural (LLM) es superior a usar cualquiera de los dos por separado.
Robustez: Al evitar la generación de representaciones simblicas intermedias frágiles (archivos PDDL de problemas) y filtrar el ruido ambiental, el sistema es mucho menos propenso a alucinaciones y fallos de ejecución.
Estándar de Evaluación: La creación de MAT2-THOR establece un nuevo estándar para la evaluación rigurosa de sistemas de planificación multi-robot, corrigiendo las deficiencias de conjuntos de datos anteriores.

En conclusión, Scale-Plan representa un avance hacia la despliegue real de equipos de robots heterogéneos capaces de realizar misiones complejas y de largo alcance en entornos no estructurados, superando las limitaciones de escalabilidad y fiabilidad de los enfoques anteriores.