Act-Observe-Rewrite: Multimodal Coding Agents as In-Context Policy Learners for Robot Manipulation

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un robot nuevo en tu cocina. Tu objetivo es que aprenda a hacer una tarea, como poner una lata de refresco en una estantería.

Normalmente, para enseñar a un robot, necesitas dos cosas:

Muchas horas de entrenamiento: Le muestras miles de videos de humanos haciendo la tarea (como un estudiante viendo miles de clases).
Un "entrenador" humano: Alguien tiene que decirle al robot "bien hecho" o "mal hecho" miles de veces para que ajuste sus circuitos internos.

El problema: Esto es lento, caro y, si el robot falla por un pequeño detalle (como una luz diferente o una cámara mal puesta), tienes que volver a entrenarlo desde cero.

La Solución: "Actuar, Observar, Reescribir" (AOR)

Este paper presenta una idea genial llamada AOR. En lugar de entrenar al robot como a un perro con premios y castigos, le dan un cerebro de programador (una Inteligencia Artificial avanzada) y le dicen: "Prueba, mira qué pasó, y si fallaste, reescribe tú mismo tu propio código de instrucciones".

Es como si tuvieras a un robot que, cada vez que se cae, se levanta, se mira en el espejo, piensa: "Ah, me caí porque calculé mal la altura" y luego se escribe a sí mismo un nuevo manual de instrucciones para la próxima vez.

La Analogía: El Chef y el Libro de Recetas

Imagina que el robot es un Chef y su forma de moverse es una Receta escrita en un libro.

El método antiguo (Redes Neuronales): El Chef prueba la receta mil veces. Si la sopa sale salada, el Chef no cambia la receta escrita; simplemente ajusta su "instinto" (sus pesos neuronales) un poquito. No sabe por qué salió salada, solo sabe que la próxima vez debe poner menos sal "por sensación".
El método AOR (Actuar-Observar-Reescribir):
1. Actuar: El Chef intenta hacer la sopa siguiendo la receta. Se le quema.
2. Observar: El Chef mira la olla quemada, ve la foto del fuego y lee el registro de temperatura.
3. Reescribir: El Chef no solo ajusta su instinto. Toma el libro de recetas, borra la línea que decía "fuego alto durante 10 minutos" y la cambia por "fuego medio durante 5 minutos".

La magia es que el robot lee y entiende su propio código. No es una caja negra. Si falla porque la cámara veía el objeto al revés, el robot puede decir: "¡Ah! Mi código dice que la imagen empieza arriba, pero en este sistema empieza abajo. Voy a cambiar esa línea de código".

¿Qué lograron con esto?

Los investigadores probaron esto en tres tareas de simulación (como un videojuego de robótica):

Levantar un cubo: El robot falló al principio porque su "vista" estaba descalibrada. En solo 3 intentos, el robot se dio cuenta, corrigió el código de su cámara y logró el 100% de éxito.
Poner una lata en una caja: El robot confundió el color de la lata (la vio roja en lugar de plateada). El robot leyó sus propios errores, entendió que el código de visión estaba mal configurado, lo arregló y también logró el 100%.
Apilar cubos: Esta fue la más difícil. El robot logró un 91% de éxito. Falló en el último paso porque sus dedos rozaban el otro cubo. El robot vio el error, dijo "ah, mis dedos tocan el otro cubo", pero no pudo encontrar la solución perfecta para evitarlo. Se quedó atascado en un "bucle" de intentos.

¿Por qué es importante?

No necesita maestros: No hace falta que un humano le enseñe la tarea ni le dé premios. El robot aprende solo de sus propios errores.
Es transparente: Como el robot escribe su propio código, los humanos pueden leerlo y entender exactamente por qué falló. No es magia negra.
Es rápido: En lugar de días de entrenamiento, el robot puede aprender una tarea nueva en minutos, simplemente reescribiendo su lógica.

En resumen

Este paper nos dice que la próxima vez que un robot falle, no necesitamos reinventar su cerebro. Solo necesitamos darle un lápiz y papel (o mejor, un editor de código) y decirle: "Mira lo que hiciste mal, piensa por qué, y reescribe tu propia forma de hacerlo".

Es como enseñar a un niño a andar en bicicleta no dándole empujones infinitos, sino diciéndole: "Cayó porque se inclinó mucho a la izquierda. La próxima vez, mantén el equilibrio a la derecha". El robot, gracias a esta nueva IA, es capaz de decirse eso a sí mismo y corregir su propio manual de instrucciones.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Act–Observe–Rewrite (AOR)

1. El Problema

La robótica de manipulación está integrando modelos fundacionales (VLA), pero persisten dos desafíos críticos:

Diagnóstico y Adaptación: Cuando un modelo falla en una configuración de despliegue específica, es difícil diagnosticar la causa y adaptarse sin reentrenar el modelo (lo cual es costoso y requiere grandes volúmenes de datos).
Interpretabilidad y Coste: Los enfoques basados en aprendizaje por refuerzo (RL) o fine-tuning de redes neuronales son "cajas negras", requieren ingeniería de recompensas compleja y son computacionalmente intensivos.

Existe una brecha en los métodos que permiten a un agente aprender de sus propios fallos en entornos físicos continuos (donde la cinemática, el ruido visual y la física son complejos) sin utilizar demostraciones humanas, actualizaciones de gradientes o ingeniería de recompensas manual.

2. Metodología: El Marco Act–Observe–Rewrite (AOR)

AOR es un marco de aprendizaje de políticas "in-context" (en contexto) que utiliza un Agente de Lenguaje Multimodal (LLM) para sintetizar y reescribir el código de control del robot entre episodios.

Arquitectura de Dos Escalas de Tiempo:

Bucle Rápido (Dentro del episodio): El robot ejecuta una tarea bajo un controlador Python. El controlador recibe observaciones visuales (RGB-D) y estado propioceptivo, y genera acciones a alta frecuencia.
Bucle Lento (Entre episodios): Al finalizar un episodio, un agente LLM multimodal (en este caso, Claude Code) analiza:
1. Imágenes clave: Capturadas en momentos de transición de fase y fallos.
2. Datos estructurados: Registros de fases, recompensas, distancia mínima al objetivo y banderas de oscilación.
3. Código actual: El controlador Python que falló.

El Proceso de Reflejo (Reflexion):
El LLM no ajusta pesos ni selecciona habilidades predefinidas. En su lugar, realiza un razonamiento estructurado para:

Diagnosticar: Identificar la causa raíz del fallo (ej. "el error está en la fórmula de retroproyección de la visión, no en los parámetros del controlador").
Reescribir: Generar una nueva clase de controlador Python completa que corrige el error lógico, geométrico o de percepción.
Compilar y Validar: El nuevo código se compila en un entorno aislado (sandbox). Si falla la compilación o la validación, se recupera al controlador anterior.

Representación de la Política:
La política $\pi$ es un clase Python ejecutable. Esto permite cambios arquitectónicos (nuevas fases, correcciones geométricas, lógica de control) en lugar de solo ajustar vectores de parámetros o seleccionar habilidades.

3. Contribuciones Clave

Unidad de Razonamiento: Propone que el código de control de bajo nivel (no una descripción verbal ni un selector de habilidades) debe ser la unidad de razonamiento del LLM. Esto permite correcciones cualitativamente diferentes, como corregir errores de convención de coordenadas (OpenGL vs. OpenCV) o lógica de segmentación.
Aprendizaje sin Demostraciones ni Gradientes: El sistema logra alto rendimiento sin datos de demostración humana, sin ingeniería de recompensas manual y sin actualizaciones de gradientes.
Depuración Autónoma de Percepción: El agente es capaz de detectar y corregir bugs sutiles en la tubería de visión (ej. sesgos de profundidad de 5-8 cm debidos a convenciones de cámara incorrectas) que serían invisibles para un agente que solo observa el resultado final.
Interpretabilidad Total: Al ser el código la política, los humanos pueden leer, auditar y entender exactamente por qué el robot falló y cómo se corrigió.

4. Resultados Experimentales

Los experimentos se realizaron en el entorno de simulación Robosuite con un brazo UR5e. Se evaluaron tres tareas de complejidad creciente:

Tarea	Descripción	Éxito Final	Iteraciones (Llamadas LLM)	Observaciones
Lift	Levantar un cubo rojo.	100%	3	El agente corrigió un sesgo de visión de 2.5 cm y cambió la estrategia de agarre a "estacionario" para evitar empujar el objeto.
PickPlaceCan	Agarrar una lata y ponerla en un contenedor.	100%	2	El agente detectó que la lata se veía roja (no plateada) en la cámara y que el marcador rojo del contenedor contaminaba el cálculo del centroide. Corrigió la lógica de segmentación de color.
Stack	Apilar un cubo rojo sobre uno verde.	91%	20	El agente corrigió errores de retroproyección y convención de ejes. Sin embargo, falló en encontrar una estrategia para evitar el contacto de los dedos del gripper con el cubo inferior durante la colocación, estancándose en un óptimo local.

Comparación de Agentes:
El marco AOR dependía fuertemente de la capacidad del agente codificador. Cuando se probó con un agente diferente (Codex de OpenAI), este no pudo resolver ninguna de las tareas, destacando que la capacidad de razonamiento del LLM es una variable crítica.

5. Significado y Limitaciones

Significado:

Nuevo Paradigma: AOR demuestra que la síntesis de código reflexiva es viable para la manipulación física continua, superando las limitaciones de los enfoques puramente verbales (como Reflexion) o de selección de habilidades.
Eficiencia: Es significativamente más rápido y barato que los métodos basados en RL (que requieren miles de actualizaciones de gradiente), ideal para la adaptación rápida a nuevas tareas o configuraciones.
Herramienta de Depuración: El sistema actúa como un depurador autónomo capaz de aislar errores en la percepción vs. control, algo difícil en pipelines de aprendizaje profundo tradicionales.

Limitaciones y Futuro:

Estancamiento en Óptimos Locales: En la tarea Stack, el agente diagnosticó correctamente el problema (contacto del gripper) pero no pudo generar una estrategia de colocación alternativa (ej. ángulo de descenso más pronunciado) dentro de su espacio de búsqueda actual.
Simulación: Todos los resultados son en simulación. El ruido del mundo real (iluminación, imprecisión de actuadores) podría requerir modelado de incertidumbre más robusto.
Dependencia del LLM: El rendimiento está acotado por la capacidad del modelo de lenguaje para razonar sobre física, geometría y código.
Sesgo hacia Control Clásico: El agente tendió a usar técnicas clásicas (segmentación HSV, máquinas de estados) debido a su entrenamiento, aunque el marco permite inyectar métodos modernos mediante prompts.

En conclusión, Act–Observe–Rewrite establece que los agentes de codificación multimodal pueden aprender políticas de manipulación robustas e interpretables mediante la iteración de diagnóstico y reescritura de código, ofreciendo una vía prometedora para la adaptación de sistemas de IA física sin necesidad de reentrenamiento masivo.

Act-Observe-Rewrite: Multimodal Coding Agents as In-Context Policy Learners for Robot Manipulation

La Solución: "Actuar, Observar, Reescribir" (AOR)

La Analogía: El Chef y el Libro de Recetas

¿Qué lograron con esto?

¿Por qué es importante?

En resumen

Resumen Técnico: Act–Observe–Rewrite (AOR)

1. El Problema

2. Metodología: El Marco Act–Observe–Rewrite (AOR)

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado y Limitaciones

Más como este

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers