When Vision Overrides Language: Evaluating and Mitigating Counterfactual Failures in VLAs

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que has creado un robot muy inteligente, capaz de ver el mundo y entender lo que le dices. Le has enseñado a hacer tareas específicas, como "coge la cinta adhesiva". Pero, ¿qué pasa si le pides algo diferente, como "coge la mostaza", aunque ambos objetos estén en la misma mesa?

Este paper (artículo científico) descubre un problema curioso: el robot a menudo ignora lo que le dices y hace lo que ya sabe hacer por costumbre, incluso si eso es incorrecto.

Aquí te explico la historia, el problema y la solución usando analogías sencillas:

1. El Problema: El Robot "Perezoso" y sus Atajos Visuales

Imagina que el robot es un estudiante que ha estudiado mucho para un examen específico: "Cómo coger la cinta adhesiva". Ha practicado tanto que se ha memorizado la posición exacta de la cinta.

Ahora, le pones un examen nuevo: "Coge la mostaza".

Lo que debería hacer: Leer la instrucción, buscar la mostaza y agarrarla.
Lo que hace de verdad: Como la cinta adhesiva está justo ahí y él la conoce muy bien, su cerebro (el modelo de IA) dice: "¡Ah, veo cinta! Ya sé cómo agarrarla. Ignoraré la palabra 'mostaza' y agarraré la cinta".

Los autores llaman a esto "Atajos Visuales". El robot es tan bueno viendo que se vuelve "perezoso" para escuchar. Confía más en lo que ve (la cinta) que en lo que lee (la instrucción). Esto es peligroso porque si le pides que no haga algo, o que haga algo nuevo, podría hacer lo viejo por inercia.

2. La Prueba: El "Examen Trampa" (LIBERO-CF)

Para demostrar que esto pasa, los científicos crearon un nuevo examen llamado LIBERO-CF.

La idea: Ponen al robot en una habitación donde siempre ha hecho una tarea (ej. coger un objeto rojo).
La trampa: Le dan instrucciones nuevas y válidas (ej. "coge el objeto azul" o "coge el objeto que nunca has visto antes").
El resultado: ¡El robot falla estrepitosamente! En lugar de agarrar lo que pides, sigue agarrando el objeto rojo de siempre. Es como si un conductor, al ver un semáforo en rojo, siguiera conduciendo porque "siempre ha pasado por aquí y no hay nadie".

3. La Solución: El "Sistema de Doble Voz" (CAG)

Los autores proponen una solución inteligente llamada Guía de Acción Contrafactual (CAG). No necesitan reprogramar el robot ni enseñarle cosas nuevas. Solo cambian cómo toma decisiones en el momento de actuar.

Imagina que el robot tiene dos voces en su cabeza:

La Voz del Robot (VLA): Escucha tus instrucciones ("Coge la mostaza") pero también ve la cinta. A veces, la voz de la cinta es más fuerte.
La Voz del "Ciego" (VA): Esta es una segunda voz que no escucha nada. Solo mira la mesa y dice: "Si no me dicen nada, yo agarraría la cinta porque es lo más obvio".

¿Cómo funciona la magia?
El sistema compara las dos voces:

La Voz del Robot dice: "Agarrar la mostaza".
La Voz del "Ciego" dice: "Agarrar la cinta".
El sistema calcula la diferencia: "¡Espera! Si ignoras la instrucción, agarrarías la cinta. Pero como me dijiste 'mostaza', debo restar la intención de agarrar la cinta y potenciar la de agarrar la mostaza".

Es como tener un director de orquesta que se asegura de que el instrumento que toca la "instrucción" no sea ahogado por el ruido de la "visión".

4. Los Resultados: ¡Funciona!

Cuando probaron este sistema:

En simulación: El robot dejó de ser "perezoso". Empezó a seguir las instrucciones nuevas mucho mejor, incluso si nunca había visto esos objetos antes.
En la vida real: Lo probaron con un brazo robótico real en una mesa.
- Sin el sistema: Si le decían "coge la lata de refresco", a veces agarraba la botella de agua porque estaba más cerca.
- Con el sistema: Agarraba exactamente lo que pedías, incluso si era un objeto raro que nunca había visto antes.

En Resumen

Este paper nos dice que los robots inteligentes actuales son muy buenos viendo, pero a veces demasiado dependientes de lo que ven y olvidan escuchar.

La solución es como darle al robot un espejo mental: "Mira, si no te dijera nada, harías esto. Pero como me lo dijiste, haz lo contrario a lo que harías por inercia". De esta forma, el robot se vuelve más obediente, más seguro y capaz de hacer cosas nuevas sin necesidad de volver a estudiar desde cero.

La moraleja: Para que un robot sea verdaderamente inteligente, no solo debe tener buenos ojos, sino también unos buenos oídos que no se dejen ahogar por lo que ve.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Cuando la Visión Anula al Lenguaje en Modelos Visión-Lenguaje-Acción (VLAs)

1. El Problema: Fallos Contrafactuales y Atajos Visuales

Los modelos Visión-Lenguaje-Acción (VLAs) prometen controlar robots basándose en instrucciones de lenguaje natural. Sin embargo, los autores identifican un modo de fallo prevalente y subexplorado: los fallos contrafactuales.

Definición: Ocurren cuando un robot, ante una instrucción de lenguaje que es visualmente plausible pero diferente a las tareas de entrenamiento, ignora la instrucción y ejecuta automáticamente una acción "bien aprendida" asociada a la escena visual.
Causa Raíz: Se atribuye a un desequilibrio de modalidades en los conjuntos de datos robóticos. Los datos suelen ser dominantes en visión y específicos de tareas, lo que fomenta que el modelo aprenda "atajos visuales" (vision shortcuts). El modelo prioriza las señales visuales sobre el lenguaje, colapsando la distribución posterior de acciones hacia un prior basado únicamente en la visión ( $P(a|o)$ ), minimizando la influencia de la instrucción lingüística.
Consecuencia: Incluso en entornos familiares, los VLAs no siguen la intención del usuario si la instrucción contradice lo que el modelo "espera" ver, lo que plantea riesgos graves para la seguridad y la utilidad en despliegues reales.

2. Metodología Propuesta

El trabajo se estructura en dos pilares principales: un nuevo benchmark de evaluación y una nueva técnica de inferencia.

A. LIBERO-CF: El Primer Benchmark Contrafactual
Para estudiar sistemáticamente este problema, los autores introducen LIBERO-CF, un benchmark basado en el entorno LIBERO estándar, pero diseñado específicamente para probar la capacidad de seguimiento de instrucciones contrafactuales.

Diseño: Asigna instrucciones alternativas viables bajo las mismas disposiciones de escena (layouts) utilizadas en el entrenamiento.
Categorías de Evaluación:
- CF-Spatial: Enfocarse en objetos que originalmente eran solo fondo.
- CF-Object: Instrucciones que apuntan a objetos diferentes a los de entrenamiento.
- CF-Long: Tareas de largo horizonte con nuevos objetivos.
- CF-OOD: Generalización a objetos fuera de distribución (nunca vistos en el ajuste fino).
Métricas: Se mide la "tasa de anclaje" (grounding rate, contacto con el objeto correcto) y la "tasa de éxito" (completar la tarea), diferenciando entre comportamientos "Fieles" (siguen la instrucción) y "Sesgados" (siguen la tarea de entrenamiento).

B. Counterfactual Action Guidance (CAG)
Para mitigar estos fallos, proponen CAG, un esquema de inferencia de doble rama que no requiere modificar la arquitectura del modelo ni reentrenar los pesos preentrenados.

Concepto: Inspirado en la Classifier-Free Guidance (CFG) de modelos generativos, CAG combina dos políticas durante la inferencia:
1. Política Condicionada ( $\pi_{cond}$ ): El VLA estándar que recibe visión y lenguaje.
2. Política Incondicionada ( $\pi_{uncond}$ ): Un modelo de Visión-Acción (VA) que solo recibe visión (o el VLA con la entrada de lenguaje eliminada).
Fórmula: La acción final se calcula como una mezcla ponderada:
$\pi_{CAG}(a | o, l) = \pi_{uncond}(a | o, \emptyset) + \omega \cdot (\pi_{cond}(a | o, l) - \pi_{uncond}(a | o, \emptyset))$
Donde $\omega$ es una escala de guía que controla la fuerza del condicionamiento lingüístico.
Interpretación: Esto actúa como un re-ponderamiento de la posterior de acciones, agudizando la verosimilitud del lenguaje ( $P(l|a,o)$ ) mientras se preserva el prior de ejecución visual.
Estrategias de Implementación:
- Estrategia sin Entrenamiento (TF): Usar el mismo VLA, eliminando el lenguaje en la rama incondicionada.
- Prior Visión-Acción (VA): Entrenar un modelo VA separado (sin lenguaje) para obtener un prior visual más limpio y robusto.

3. Resultados Clave

Los experimentos se realizaron tanto en simulación (LIBERO-CF) como en el mundo real (brazo robótico Franka Research 3).

En Simulación (LIBERO-CF):

Diagnóstico: Los modelos de última generación (OpenVLA-OFT, $\pi_0$ , $\pi_{0.5}$ ) sufren fallos contrafactuales severos. Por ejemplo, $\pi_{0.5}$ solo logró una tasa de anclaje del 30.8% en instrucciones contrafactuales, mientras que mantenía un alto rendimiento (>65%) en tareas de entrenamiento sesgadas.
Efectividad de CAG:
- La estrategia TF mejoró la precisión de anclaje de $\pi_{0.5}$ en un 9.7% y el éxito de la tarea en un 3.6% en tareas subobservadas.
- La estrategia con VA logró mejoras aún mayores: +15.5% en anclaje y +8.5% en éxito.
- CAG redujo significativamente la ejecución sesgada (comportamiento de "atajo visual") en todos los modelos evaluados.

En el Mundo Real:

Se evaluaron escenarios de reconocimiento de objetos, razonamiento espacial, objetivos de meta y generalización OOD.
Resultados: CAG redujo los fallos contrafactuales en un 9.4% y mejoró el éxito de la tarea en un 17.2% en promedio.
Casos de Éxito:
- En tareas de razonamiento espacial (ej. "agarrar el vaso de la derecha"), el modelo base fallaba frecuentemente eligiendo el objeto central (sesgo visual), mientras que CAG corrigió esto.
- En tareas de largo horizonte (ej. "verter Fanta en lugar de Coca-Cola"), CAG evitó que el robot repitiera la secuencia de entrenamiento memorizada.

4. Contribuciones Principales

LIBERO-CF: El primer benchmark contrafactual diseñado para evaluar la capacidad de seguimiento de lenguaje en VLAs, revelando que los fallos son generalizados y no específicos de un modelo.
Counterfactual Action Guidance (CAG): Una solución universal de "plug-and-play" que mejora el condicionamiento lingüístico sin alterar arquitecturas ni pesos preentrenados, funcionando mediante un esquema de inferencia de doble rama.
Análisis Exhaustivo: Demostración empírica de que los "atajos visuales" son una causa fundamental de los fallos en VLAs y que mitigarlos mediante CAG mejora la robustez en tareas subobservadas y OOD, manteniendo el rendimiento en tareas de entrenamiento.

5. Significado e Impacto

Este trabajo es fundamental para el avance de la robótica generalista (Embodied AI).

Fiabilidad: Demuestra que los VLAs actuales no son confiables para seguir instrucciones complejas o inesperadas debido a sesgos de entrenamiento, lo cual es un obstáculo crítico para su uso en entornos reales dinámicos.
Solución Práctica: CAG ofrece una vía eficiente para mejorar la seguridad y la adherencia a la intención del usuario sin el costo computacional de reentrenar modelos masivos o recolectar cantidades masivas de nuevos datos de demostración.
Dirección Futura: Establece que el equilibrio entre visión y lenguaje es crucial y que la inferencia debe diseñarse explícitamente para contrarrestar los priores visuales dominantes.

En conclusión, el paper demuestra que la visión a menudo "anula" al lenguaje en los robots actuales, pero propone una técnica de inferencia simple y efectiva para restaurar la capacidad del robot de seguir las instrucciones humanas, incluso cuando contradicen lo que el robot "cree" ver.

When Vision Overrides Language: Evaluating and Mitigating Counterfactual Failures in VLAs

1. El Problema: El Robot "Perezoso" y sus Atajos Visuales

2. La Prueba: El "Examen Trampa" (LIBERO-CF)

3. La Solución: El "Sistema de Doble Voz" (CAG)

4. Los Resultados: ¡Funciona!

En Resumen

Resumen Técnico: Cuando la Visión Anula al Lenguaje en Modelos Visión-Lenguaje-Acción (VLAs)

1. El Problema: Fallos Contrafactuales y Atajos Visuales

2. Metodología Propuesta

3. Resultados Clave

4. Contribuciones Principales

5. Significado e Impacto

Más como este

Multi-Agent Home Energy Management Assistant

ProCap: Projection-Aware Captioning for Spatial Augmented Reality

Fundamentals of Computing Continuous Dynamic Time Warping in 2D under Different Norms

UniLACT: Depth-Aware RGB Latent Action Learning for Vision-Language-Action Models

Efficient Model Repository for Entity Resolution: Construction, Search, and Integration