When Vision Overrides Language: Evaluating and Mitigating Counterfactual Failures in VLAs

Este trabajo introduce LIBERO-CF, el primer benchmark contrafactual para evaluar la capacidad de los modelos Visión-Lenguaje-Acción (VLAs) de seguir instrucciones en lugar de depender de atajos visuales, y propone la Guía de Acción Contrafactual (CAG), un método de inferencia sin entrenamiento que mejora significativamente la precisión del seguimiento lingüístico y el éxito de las tareas al combinar una política estándar con un módulo de visión-acción no condicionado al lenguaje.

Yu Fang, Yuchun Feng, Dong Jing, Jiaqi Liu, Yue Yang, Zhenyu Wei, Daniel Szafir, Mingyu Ding

Publicado 2026-02-20
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que has creado un robot muy inteligente, capaz de ver el mundo y entender lo que le dices. Le has enseñado a hacer tareas específicas, como "coge la cinta adhesiva". Pero, ¿qué pasa si le pides algo diferente, como "coge la mostaza", aunque ambos objetos estén en la misma mesa?

Este paper (artículo científico) descubre un problema curioso: el robot a menudo ignora lo que le dices y hace lo que ya sabe hacer por costumbre, incluso si eso es incorrecto.

Aquí te explico la historia, el problema y la solución usando analogías sencillas:

1. El Problema: El Robot "Perezoso" y sus Atajos Visuales

Imagina que el robot es un estudiante que ha estudiado mucho para un examen específico: "Cómo coger la cinta adhesiva". Ha practicado tanto que se ha memorizado la posición exacta de la cinta.

Ahora, le pones un examen nuevo: "Coge la mostaza".

  • Lo que debería hacer: Leer la instrucción, buscar la mostaza y agarrarla.
  • Lo que hace de verdad: Como la cinta adhesiva está justo ahí y él la conoce muy bien, su cerebro (el modelo de IA) dice: "¡Ah, veo cinta! Ya sé cómo agarrarla. Ignoraré la palabra 'mostaza' y agarraré la cinta".

Los autores llaman a esto "Atajos Visuales". El robot es tan bueno viendo que se vuelve "perezoso" para escuchar. Confía más en lo que ve (la cinta) que en lo que lee (la instrucción). Esto es peligroso porque si le pides que no haga algo, o que haga algo nuevo, podría hacer lo viejo por inercia.

2. La Prueba: El "Examen Trampa" (LIBERO-CF)

Para demostrar que esto pasa, los científicos crearon un nuevo examen llamado LIBERO-CF.

  • La idea: Ponen al robot en una habitación donde siempre ha hecho una tarea (ej. coger un objeto rojo).
  • La trampa: Le dan instrucciones nuevas y válidas (ej. "coge el objeto azul" o "coge el objeto que nunca has visto antes").
  • El resultado: ¡El robot falla estrepitosamente! En lugar de agarrar lo que pides, sigue agarrando el objeto rojo de siempre. Es como si un conductor, al ver un semáforo en rojo, siguiera conduciendo porque "siempre ha pasado por aquí y no hay nadie".

3. La Solución: El "Sistema de Doble Voz" (CAG)

Los autores proponen una solución inteligente llamada Guía de Acción Contrafactual (CAG). No necesitan reprogramar el robot ni enseñarle cosas nuevas. Solo cambian cómo toma decisiones en el momento de actuar.

Imagina que el robot tiene dos voces en su cabeza:

  1. La Voz del Robot (VLA): Escucha tus instrucciones ("Coge la mostaza") pero también ve la cinta. A veces, la voz de la cinta es más fuerte.
  2. La Voz del "Ciego" (VA): Esta es una segunda voz que no escucha nada. Solo mira la mesa y dice: "Si no me dicen nada, yo agarraría la cinta porque es lo más obvio".

¿Cómo funciona la magia?
El sistema compara las dos voces:

  • La Voz del Robot dice: "Agarrar la mostaza".
  • La Voz del "Ciego" dice: "Agarrar la cinta".
  • El sistema calcula la diferencia: "¡Espera! Si ignoras la instrucción, agarrarías la cinta. Pero como me dijiste 'mostaza', debo restar la intención de agarrar la cinta y potenciar la de agarrar la mostaza".

Es como tener un director de orquesta que se asegura de que el instrumento que toca la "instrucción" no sea ahogado por el ruido de la "visión".

4. Los Resultados: ¡Funciona!

Cuando probaron este sistema:

  • En simulación: El robot dejó de ser "perezoso". Empezó a seguir las instrucciones nuevas mucho mejor, incluso si nunca había visto esos objetos antes.
  • En la vida real: Lo probaron con un brazo robótico real en una mesa.
    • Sin el sistema: Si le decían "coge la lata de refresco", a veces agarraba la botella de agua porque estaba más cerca.
    • Con el sistema: Agarraba exactamente lo que pedías, incluso si era un objeto raro que nunca había visto antes.

En Resumen

Este paper nos dice que los robots inteligentes actuales son muy buenos viendo, pero a veces demasiado dependientes de lo que ven y olvidan escuchar.

La solución es como darle al robot un espejo mental: "Mira, si no te dijera nada, harías esto. Pero como me lo dijiste, haz lo contrario a lo que harías por inercia". De esta forma, el robot se vuelve más obediente, más seguro y capaz de hacer cosas nuevas sin necesidad de volver a estudiar desde cero.

La moraleja: Para que un robot sea verdaderamente inteligente, no solo debe tener buenos ojos, sino también unos buenos oídos que no se dejen ahogar por lo que ve.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →