Altered Thoughts, Altered Actions: Probing Chain-of-Thought Vulnerabilities in VLA Robotic Manipulation

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un robot muy inteligente, capaz de ver el mundo, entender lo que le pides y mover sus brazos para hacer tareas, como poner una botella de vino en una estantería.

Hasta hace poco, estos robots actuaban casi como reflejos: veían algo y movían el brazo. Pero la nueva generación de robots (llamados VLA o Modelos Visión-Lenguaje-Acción) ha aprendido a "pensar antes de actuar".

La Analogía: El Chef y el Ayudante

Para entender este artículo, imagina un restaurante de lujo con dos personajes:

El Chef (El Módulo de Razonamiento): Es un genio que ve los ingredientes en la mesa y el pedido del cliente. Antes de cocinar, escribe una nota mental (un plan) en un papelito. Por ejemplo: "Primero, agarra la botella de vino y ponla en la estantería".
El Ayudante (El Decodificador de Acciones): Es un robot muy rápido pero un poco torpe. No piensa; solo lee el papelito que le deja el Chef y ejecuta los movimientos exactos que dice el papel.

El problema que descubrieron los investigadores:
El papelito (el "pensamiento" o Chain-of-Thought) viaja por un canal interno entre el Chef y el Ayudante. Nadie revisa ese papelito mientras viaja.

El Ataque: El Espía en la Cocina

Los investigadores imaginaron un escenario donde un espía se cuela en la cocina justo cuando el Chef escribe la nota y el Ayudante la lee. El espía no toca al Chef, ni al Ayudante, ni a los ingredientes. Solo cambia las palabras en el papelito antes de que el Ayudante lo lea.

Hicieron varios tipos de cambios para ver cuál rompía al robot:

Ruido aleatorio: Cambiar algunas palabras por garabatos.
- Resultado: El Ayudante sigue funcionando bien. Parece que no le importa si hay un poco de "ruido" en la nota.
Cambiar el orden: Escribir las frases al revés o desordenadas.
- Resultado: El robot sigue funcionando. No necesita que la historia tenga un orden lógico perfecto, solo necesita saber qué hacer.
Cambiar la dirección: Escribir "izquierda" cuando quería decir "derecha".
- Resultado: ¡Sorprendente! El robot casi no se equivoca. Parece que el Ayudante confía más en lo que ve con sus cámaras que en lo que dice el papelito sobre la dirección.
El cambio fatal: Cambiar los nombres de los objetos.
- El ataque: El espía toma la nota "Agarra la botella de vino" y la cambia por "Agarra el pudding de chocolate".
- El resultado: El robot falla estrepitosamente. Si el papelito dice "pudding", el robot busca un pudding. Como no hay pudding, intenta agarrar algo que no es o se queda paralizado.

La Lección Principal: La "Integridad del Nombre"

El descubrimiento más importante es que el robot es extremadamente sensible a los nombres de los objetos, pero casi inmune a si el razonamiento es "lógico" o no.

La ironía: Intentaron usar una Inteligencia Artificial muy avanzada (un LLM) para escribir un plan falso pero que sonara muy inteligente y plausible. ¡Funcionó mal! El robot no se confundió tanto.
Por qué: Porque la IA avanzada, al ser "inteligente", seguía mencionando los objetos correctos (o cosas que parecían reales). En cambio, un ataque tonto y mecánico que simplemente cambiaba "botella" por "pudding" fue mucho más destructivo.

En resumen: El robot no necesita que el plan sea una obra maestra de lógica; solo necesita que los nombres de los objetos en el plan coincidan con lo que ve en la realidad. Si el nombre está mal, el robot se pierde.

¿Por qué es peligroso esto?

Es invisible: Como el ataque ocurre después de que el robot ve la imagen y antes de que mueva el brazo, los sistemas de seguridad que revisan "lo que entra al robot" (como las cámaras o las órdenes del usuario) no ven nada malo. Todo parece limpio. El ataque ocurre en el "secreto" del pensamiento del robot.
Es específico: Los robots que no piensan (los modelos antiguos) no tienen este problema, porque no tienen ese papelito intermedio. Solo los robots modernos que "piensan" son vulnerables a este truco.

La Solución Sugerida

Los autores proponen una defensa sencilla, como un revisor de nombres. Antes de que el Ayudante ejecute la orden, un sistema pequeño debería comparar: "¿Dice el papelito 'botella de vino' y veo una botella de vino en la imagen?". Si el papelito dice "pudding" pero la cámara ve una botella, el sistema debería decir: "¡Alto! Algo no cuadra" y detener el robot.

Conclusión:
Este estudio nos advierte que, a medida que los robots se vuelven más inteligentes y empiezan a "pensar" en voz alta (o en texto interno), creamos una nueva puerta trasera. No basta con proteger lo que entra al robot; ahora también debemos proteger lo que el robot se dice a sí mismo antes de actuar.

Each language version is independently generated for its own context, not a direct translation.

` antes de ejecutar acciones. Se evaluó en 40 tareas de manipulación de mesa del benchmark LIBERO.

Modelo de Control: Se comparó con OpenVLA-OFT, un modelo VLA que no genera CoT, para aislar si la vulnerabilidad es específica del mecanismo de razonamiento.
Taxonomía de Ataques: Se diseñaron 7 condiciones de corrupción organizadas en tres niveles de capacidad del atacante:
1. Ruido Ciego (Tier 1): Reemplazo aleatorio de tokens y relleno (padding) sin conocimiento del contenido.
2. Manipulación Mecánico-Semántica (Tier 2): Reordenamiento de oraciones, inversión de direcciones espaciales (ej. izquierda $\leftrightarrow$ derecha) y intercambio de entidades (cambiar nombres de objetos, ej. "botella de vino" $\rightarrow$ "pudding de chocolate").
3. Adaptativo con LLM (Tier 3): Uso de un LLM externo (Llama-3.1-70B) para reescribir el CoT con planes "plausibles pero incorrectos".
Protocolo: Se interceptó el CoT generado, se aplicó la corrupción y se inyectó en el decodificador de acciones, manteniendo las entradas visuales e instrucciones intactas. Se midió la tasa de éxito (SR) y el cambio porcentual ( $\Delta$ SR).

3. Contribuciones Clave

Primera caracterización sistemática: Es el primer estudio que analiza ataques de trazas de razonamiento en modelos VLA para manipulación robótica, extendiendo la literatura de seguridad de LLM al ámbito de la IA encarnada con consecuencias físicas.
Descubrimiento de Sensibilidad Causal Selectiva: Se demostró que el decodificador de acciones no utiliza todas las propiedades del CoT por igual. La integridad de la referencia a entidades (nombres de objetos) es causalmente crítica, mientras que el orden de las oraciones, las direcciones espaciales y el ruido de tokens son irrelevantes para el rendimiento.
Inversión de Capacidad: Un atacante sofisticado (Tier 3, LLM) fue menos efectivo que un ataque mecánico simple (Tier 2, intercambio de entidades). Esto se debe a que el LLM, al mantener la plausibilidad, conserva inadvertidamente la estructura de anclaje de entidades que el decodificador necesita, mientras que el intercambio mecánico destruye sistemáticamente esa conexión.
Doble Disociación: Se probó que la vulnerabilidad es exclusiva de los modelos con razonamiento. Los ataques al CoT no afectan a los modelos sin razonamiento, mientras que los ataques a las instrucciones degradan a ambos, confirmando que la traza de razonamiento es un vector de amenaza distinto.

4. Resultados Principales

Impacto del Intercambio de Entidades: Sustituir los nombres de los objetos en el CoT redujo la tasa de éxito general en 8.3 puntos porcentuales (pp). En tareas condicionadas a objetivos específicos (LIBERO-Goal), la caída fue de 19.3 pp, y en tareas individuales específicas llegó a -45 pp (ej. la tarea "poner la botella de vino en el estante" cayó del 96.7% al 51.7%).
Insignificancia de Otros Ataques:
- Reordenar oraciones, invertir direcciones espaciales, añadir ruido de tokens o usar un LLM para generar planes incorrectos tuvo un impacto negligible (dentro de $\pm$ 4 pp).
- Esto indica que el robot ignora la lógica secuencial o espacial textual si los nombres de los objetos son correctos, y viceversa: si el nombre del objeto es incorrecto, el robot falla aunque el resto del plan sea lógico.
Comparación con Ataques a Instrucciones: Los ataques directos a las instrucciones iniciales son mucho más potentes (hasta -85 pp en LIBERO-Goal), pero son visibles. Los ataques al CoT son sigilosos (las entradas siguen siendo limpias) y, por tanto, eludibles por las defensas actuales.
Amplificación de Errores: Se observó que los modelos con razonamiento pueden ser más frágiles ante perturbaciones en las instrucciones que los modelos sin razonamiento, ya que un error en la instrucción se propaga al CoT y luego se ejecuta fielmente por el decodificador.

5. Significado e Implicaciones

Nueva Superficie de Ataque: La traza de razonamiento interna en pipelines modulares de VLA (como los propuestos por NVIDIA GR00T o Cosmos Reason) es un vector de ataque crítico y subestimado.
Fragilidad Específica: La seguridad de estos sistemas no depende de la calidad del razonamiento lógico, sino estrictamente de la integridad de las referencias a objetos.
Defensas Prácticas: Dado que el problema es la integridad de las entidades, los autores proponen defensas ligeras y factibles, como validadores de tiempo de ejecución que cruzan las menciones de entidades en el CoT con las instrucciones y el entorno visual. Un validador simple de coincidencia de cadenas podría detectar el 100% de los ataques de intercambio de entidades con una tasa de falsos positivos muy baja.
Conclusión Final: A medida que los robots adoptan arquitecturas de "pensar-antes-de-actuar", la comunidad de seguridad robótica debe priorizar la protección de las interfaces de texto internas, ya que son invisibles para las defensas tradicionales de validación de entrada.

Altered Thoughts, Altered Actions: Probing Chain-of-Thought Vulnerabilities in VLA Robotic Manipulation

La Analogía: El Chef y el Ayudante

El Ataque: El Espía en la Cocina

La Lección Principal: La "Integridad del Nombre"

¿Por qué es peligroso esto?

La Solución Sugerida

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Implicaciones

Más como este

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks