RACAS: Controlling Diverse Robots With a Single Agentic System

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes tres robots completamente diferentes: uno es un pequeño coche con ruedas que se mueve por el suelo, otro es un brazo robótico gigante con muchas articulaciones (como un brazo humano pero hecho de metal), y el tercero es un submarino que navega bajo el agua.

Normalmente, para enseñarles a hacer algo, tendrías que contratar a un ingeniero experto en coches, otro experto en brazos robóticos y un tercero experto en submarinos. Cada uno tendría que escribir un código diferente, entrenar al robot con miles de ejemplos y ajustar sus "cerebros" por separado. Es como si tuvieras que aprender a hablar tres idiomas diferentes solo para pedirle a cada uno que te traiga una taza de café.

RACAS (el sistema presentado en este artículo) es como un traductor universal y un gerente de proyectos súper inteligente que puede hablar con cualquiera de esos robots sin importar qué forma tengan.

Aquí te explico cómo funciona con una analogía sencilla:

El Equipo de Tres Personas (El Sistema Agente)

En lugar de un solo robot "pensando" por sí mismo, RACAS divide el trabajo entre tres "personas" (o módulos) que son como una pequeña empresa de inteligencia artificial. Lo genial es que todos se comunican hablando en español (o inglés, lenguaje natural), no con códigos de programación extraños.

El Observador (Los Monitores):
- Analogía: Imagina que tienes a un guardia de seguridad con gafas de realidad aumentada.
- Función: Este módulo mira lo que ven las cámaras del robot. Si el robot es un submarino, el Observador mira el agua; si es un brazo, mira la mesa. No le dice al robot "mueve el motor 30 grados", sino que le dice al siguiente módulo: "Oye, veo una caja verde a la derecha y parece que hay un obstáculo a la izquierda".
El Jefe de Operaciones (El Controlador):
- Analogía: Es el capitán del barco o el director de orquesta.
- Función: Escucha al Observador, recuerda lo que ha pasado antes y decide qué hacer. Le dice al robot: "Como veo la caja verde a la derecha, voy a moverme un poco hacia allá". Lo importante es que este "Jefe" no necesita saber cómo funcionan los engranajes del robot; solo necesita saber qué movimientos puede hacer (como "avanzar", "girar", "subir").
El Archivero (El Curador de Memoria):
- Analogía: Es el bibliotecario que lleva un diario de bitácora muy organizado.
- Función: Cada vez que el robot hace algo, el Archivero anota lo que pasó en un cuaderno. Si el robot se choca contra una pared, el Archivero escribe: "Ojo: si avanzo mucho, me golpeo". La próxima vez, el Jefe consulta el cuaderno y evita el error. Este módulo es clave porque permite que el robot aprenda de sus propios errores sin necesidad de volver a ser programado desde cero.

¿Por qué es tan revolucionario?

La magia de RACAS es que no necesitas cambiar el "cerebro" del sistema cuando cambias de robot.

El problema antiguo: Si querías usar el mismo sistema en un coche y en un submarino, tenías que reescribir todo el código y entrenar al sistema con miles de horas de video de submarinos.
La solución RACAS: Solo tienes que darle al sistema una descripción en lenguaje natural del nuevo robot.
- Ejemplo: Le dices al sistema: "Hola, soy un submarino. Tengo 6 motores. Puedo subir, bajar, ir adelante, atrás, girar a la izquierda y a la derecha. Mi cámara ve el agua".
- ¡Y listo! El sistema entiende inmediatamente cómo controlar al submarino usando el mismo "cerebro" que usó para el coche.

¿Qué probaron los autores?

Los investigadores probaron este sistema con tres robots muy distintos (ver Figuras 1 y 2 del artículo):

Un robot con ruedas (Dingo) en simulación y en la vida real.
Un brazo robótico nuevo y complejo (que la IA no conocía de antes).
Un vehículo submarino (BlueROV2).

En todos los casos, el sistema logró encontrar objetos y navegar sin haber sido entrenado específicamente para ellos. Fue como si le dieras un mapa en blanco a un conductor experto y le dijeras: "Tienes un coche nuevo, aquí están sus botones, ve a buscar esa caja". El conductor (la IA) entendió al instante cómo usar los botones del coche nuevo para llegar a la meta.

En resumen

RACAS es como un puente universal. Conecta la intención humana (hablarle al robot en lenguaje normal) con la acción física del robot (mover sus motores), sin importar si el robot tiene ruedas, patas, brazos o hélices.

Esto significa que en el futuro, para crear un robot que haga una tarea nueva, no necesitaremos un ejército de ingenieros de software. Solo necesitaremos describirle al robot qué es y qué debe hacer, y la IA se encargará del resto, aprendiendo sobre la marcha y guardando sus experiencias en su "diario" para no cometer los mismos errores dos veces. ¡Es un gran paso para que los robots sean más fáciles de usar y más inteligentes!

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: RACAS (Robot-Agnostic Control via Agentic Systems)

1. El Problema

La robótica actual enfrenta una barrera significativa para la adopción generalizada: la dificultad de conectar las interfaces de bajo nivel (APIs de hardware, sensores y actuadores) con comportamientos autónomos de alto nivel.

Fragmentación de Experticia: El desarrollo de robots requiere una tubería compleja que une ingenieros de hardware/firmware (que entienden la cinemática y protocolos) con expertos en planificación y aprendizaje (algoritmos de control). Estos dominios rara vez se solapan.
Falta de Generalización: Los enfoques existentes suelen requerir:
- Reentrenamiento específico: Los métodos de aprendizaje por refuerzo o políticas de extremo a extremo necesitan recopilar datos y reentrenar para cada nuevo tipo de robot (embodiment).
- Validación limitada: Los sistemas basados en Modelos de Lenguaje (LLM) o Visión-Lenguaje (VLM) han sido validados principalmente en plataformas estructuralmente similares (ej. diferentes brazos manipuladores) en entornos controlados.
Brecha: No existía un sistema que demostrara una generalización sin entrenamiento (zero-training) a través de plataformas radicalmente heterogéneas (diferentes morfologías, dinámicas y entornos operativos) sin modificar el código fuente, los pesos del modelo o las funciones de recompensa.

2. Metodología: Arquitectura RACAS

RACAS es una arquitectura agéntica cooperativa que utiliza exclusivamente lenguaje natural para la comunicación entre sus módulos, eliminando la necesidad de adaptaciones de código específicas para cada robot.

Componentes Principales:
El sistema se basa en tres módulos impulsados por LLM/VLM que operan en un bucle cerrado:

Controlador (Controller):
- Actúa como el cerebro de decisión.
- Genera consultas visuales dirigidas basadas en el estado de la tarea.
- Recibe descripciones del entorno, razona sobre ellas y selecciona una acción específica de un conjunto predefinido.
- Se reinicializa en cada paso con un prompt dinámico que incluye: descripción del robot, interfaz de acciones, memoria del entorno, estado propioceptivo, historial de acciones y especificación de la tarea.
Monitores (Monitors):
- Son módulos de percepción basados en VLM.
- Reciben una imagen de la cámara y la consulta visual ( $q_t$ ) generada por el Controlador.
- Devuelven una descripción del escenario en lenguaje natural, adaptándose dinámicamente a lo que el robot necesita ver en ese momento (percepción adaptativa a la tarea).
Curador de Memoria (Memory Curator):
- Un LLM separado encargado de mantener una representación estructurada y acotada del conocimiento acumulado.
- Mecanismo de Reescritura: En lugar de simplemente añadir datos al historial (lo que causaría un crecimiento ilimitado del contexto), el Curador reescribe la memoria: comprime información redundante, resuelve contradicciones y descarta detalles irrelevantes.
- Esquema Estructurado: Organiza el conocimiento en cuatro categorías: (1) entorno físico, (2) estado del robot, (3) historial curado de comandos y resultados, y (4) estado de la tarea.
- Inferencia de Posición: Infere posiciones relativas de objetos cruzando datos de qué cámara los vio y qué movimiento realizó el robot, compensando la falta de estimación métrica de profundidad de los VLM.

Adaptación:
Para adaptar RACAS a un nuevo robot, solo se requieren tres archivos de configuración declarativos en lenguaje natural:

Descripción del robot ( $D$ ).
Definición de acciones disponibles ( $A$ ) en formato JSON estructurado.
Descripción de la tarea ( $\tau$ ).
No se modifican los pesos del modelo ni el código de control.

3. Contribuciones Clave

Arquitectura Agéntica Unificada: Propuesta de RACAS, un sistema multi-módulo donde toda la comunicación es en lenguaje natural, permitiendo un control en bucle cerrado.
Separación de Conocimiento: Demostración de que todo el conocimiento específico del robot y de la tarea puede confinarse en configuraciones de prompts declarativos, sin tocar el código base ni los modelos.
Generalización Cero-Entrenamiento (Zero-Training): Primera demostración (según los autores) de un marco de control único que funciona sin entrenamiento previo en tres plataformas radicalmente diferentes, incluyendo un brazo robótico de publicación reciente que el LLM no conocía previamente.

4. Resultados Experimentales

El sistema se evaluó en tres plataformas con morfologías y entornos opuestos:

Brazo Robótico (Alhakami et al. Limb): Un manipulador de 4 grados de libertad (DOF) con 4 cámaras. Tarea: Localizar un extintor de incendios en un espacio desordenado.
Robot Terrestre (Clearpath Dingo): Robot con ruedas (3 DOF) evaluado en simulación (NVIDIA Isaac Sim) y en el mundo real. Tarea: Navegar hacia un extintor usando solo retroalimentación visual.
Vehículo Submarino (BlueROV2): Un ROV de 6 DOF propulsado por hélices. Tarea: Navegar en 3D hacia un objetivo en un tanque de agua y una piscina grande.

Rendimiento:

Éxito Universal: RACAS completó exitosamente todas las tareas asignadas en las tres plataformas sin modificar el sistema central.
Eficiencia: En comparación con una línea base de acciones aleatorias, RACAS resolvió las tareas en un número significativamente menor de pasos (ej. 9.56 pasos vs 22.07 en el brazo robótico; 16.40 vs 25.00 en simulación de Dingo).
Robustez: El sistema funcionó bien incluso en entornos con ruido y dinámicas complejas (como el agua en el ROV).
Limitación Detectada: El tiempo de ejecución estuvo dominado por la latencia de la API y la dificultad de localizar el objeto inicialmente. Una vez localizado, el robot se dirigía casi en línea recta al objetivo, sugiriendo que el cuello de botella es la fidelidad del sensor y la localización, no la arquitectura de control.

5. Significado e Impacto

El trabajo de RACAS representa un cambio de paradigma en la robótica:

Reducción de Barreras: Elimina la necesidad de recolectar grandes cantidades de datos de demostración, ingeniería de representaciones de estado personalizadas o entrenamiento de políticas específicas para cada plataforma.
Prototipado Rápido: Permite a los practicantes adaptar sistemas de control a nuevos robots utilizando únicamente las APIs existentes y descripciones en lenguaje natural.
Escalabilidad: A medida que los modelos fundacionales (Foundation Models) mejoren en razonamiento y percepción, este enfoque se vuelve viable para una gama más amplia de tareas complejas.
Validación de la IA Agéntica: Confirma que la IA agéntica tiene el potencial de reducir drásticamente la brecha entre el control de bajo nivel y el comportamiento autónomo de alto nivel en entornos heterogéneos.

En conclusión, RACAS demuestra que es posible crear un "sistema operativo" agnóstico al robot para la robótica, donde la inteligencia reside en la interacción natural entre módulos de IA y la memoria estructurada, en lugar de en el código duro específico del hardware.

RACAS: Controlling Diverse Robots With a Single Agentic System

El Equipo de Tres Personas (El Sistema Agente)

¿Por qué es tan revolucionario?

¿Qué probaron los autores?

En resumen

Resumen Técnico: RACAS (Robot-Agnostic Control via Agentic Systems)

1. El Problema

2. Metodología: Arquitectura RACAS

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem