Language-Guided Invariance Probing of Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un traductor mágico que puede ver una foto y describirla con palabras, o leer una descripción y encontrar la foto perfecta. A estos "traductores" se les llama Modelos de Visión-Lenguaje (como CLIP o SigLIP). Son muy inteligentes y han aprendido a conectar imágenes y textos de internet.

Pero, ¿qué pasa si les haces una trampa? ¿Qué pasa si cambias un poco las palabras de la descripción sin cambiar su significado, o si cambias una palabra clave para que la descripción sea falsa?

Este paper presenta un nuevo examen de "salud" para estos modelos, llamado LGIP (Sondeo de Invarianza Guiado por Lenguaje). Aquí te explico cómo funciona usando analogías sencillas:

1. El Problema: ¿Son el modelo un "robot" o un "observador"?

Los modelos actuales son muy buenos en exámenes estándar, pero a veces fallan en cosas muy básicas de la vida real.

La prueba de la Paráfrasis (La Invarianza): Imagina que le muestras al modelo una foto de un perro.
- Le dices: "Un perro marrón corre en el parque".
- Luego le dices: "En el parque, un perro de color café está corriendo".
- Lo ideal: El modelo debería pensar: "¡Son lo mismo! La foto y las dos frases encajan igual de bien".
- El fallo: Si el modelo se confunde porque las palabras cambiaron un poco, es como un robot que solo memorizó la frase exacta y no entendió el concepto.
La prueba del "Flip" Semántico (La Sensibilidad): Ahora, le mostramos la misma foto del perro, pero cambiamos una palabra clave para que sea mentira.
- Le dices: "Un gato marrón corre en el parque".
- Lo ideal: El modelo debería decir: "¡Eso es falso! En la foto hay un perro, no un gato. La puntuación de esta frase debe bajar mucho".
- El fallo: Si el modelo sigue diciendo que la frase del "gato" encaja bien con la foto del "perro", es como un guardia de seguridad que no nota que el ladrón se ha puesto una peluca.

2. El Examen LGIP: La "Prueba de Estrés"

Los autores tomaron 40,000 fotos reales (del conjunto de datos MS COCO) y les hicieron estas dos pruebas a 9 modelos diferentes:

Generaron variaciones: Crearon muchas formas diferentes de decir lo mismo (paráfrasis).
Generaron mentiras: Cambiaron palabras clave (cambiaron "perro" por "gato", "rojo" por "azul", "uno" por "tres").

Luego, midieron dos cosas:

¿Se confunde si cambias el estilo? (Error de invarianza).
¿Se da cuenta si mientes? (Sensibilidad semántica).

3. Los Resultados: ¿Quién aprobó y quién suspendió?

El examen reveló sorpresas interesantes que los exámenes tradicionales no veían:

Los Estudiantes Ejemplares (CLIP, OpenCLIP, EVA02):
Estos modelos son como detectives astutos.
- Si cambias el estilo de la frase, no se alteran (son invariantes).
- Si intentas engañarlos cambiando "perro" por "gato", inmediatamente dicen: "¡Eso no es!".
- Analogía: Son como un chef experto que sabe que "pollo asado" y "pollo a la brasa" son lo mismo, pero si le pones "carne de vaca" en el plato, grita "¡Eso no es pollo!".
Los Estudiantes Confusos (La familia SigLIP):
Estos modelos son como alumnos que han memorizado el libro de texto pero no entienden la historia.
- Se confunden mucho si cambias las palabras de la frase (tienen un error alto de invarianza).
- Lo peor: A veces prefieren la mentira. Si les muestras una foto de un perro y les dices "un gato", a veces piensan que esa frase describe mejor la foto que la descripción real hecha por humanos.
- Analogía: Es como si un guardia de seguridad, al ver a un hombre con un traje, pensara que es un ladrón disfrazado, pero si le pones una peluca de payaso, diga "¡Ah, sí, eso es exactamente lo que buscaba!". No distinguen bien entre la realidad y la manipulación.

4. ¿Por qué importa esto?

Imagina que usas un modelo para buscar fotos en internet.

Si el modelo es como SigLIP, podrías buscar "un coche rojo" y te mostrará fotos de "un coche azul" porque no entiende bien la diferencia de color, o te mostrará fotos de "un coche" cuando escribiste "una bicicleta".
Si el modelo es como EVA02, entenderá que "un coche rojo" es lo mismo que "un vehículo de color rojo", y rechazará firmemente la idea de que es una bicicleta.

En resumen

Este paper nos dice que ser "inteligente" en exámenes estándar no significa ser robusto.

Los modelos CLIP y EVA son como personas que entienden el significado profundo de las cosas.
Los modelos SigLIP a veces son como máquinas que solo buscan coincidencias de palabras, sin entender realmente lo que ven en la foto.

El nuevo examen (LGIP) es una herramienta sencilla y barata para detectar estos fallos antes de que los modelos se usen en aplicaciones reales, asegurando que no nos engañen con simples cambios de palabras.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: LGIP (Language-Guided Invariance Probing)

1. El Problema

Los Modelos Visión-Lenguaje (VLMs) como CLIP, OpenCLIP, EVA02-CLIP y SigLIP han demostrado un rendimiento excepcional en tareas de reconocimiento y recuperación "zero-shot" (sin ajuste específico). Sin embargo, existe una brecha crítica en la evaluación de su robustez lingüística:

Falta de caracterización: No se sabe bien cómo responden estos modelos a perturbaciones lingüísticas controladas.
Dos propiedades complementarias ignoradas:
1. Invariancia Lingüística: La similitud imagen-texto debería permanecer estable ante parafraseos que preservan el significado.
2. Sensibilidad Semántica: La similitud debería disminuir drásticamente cuando el texto se edita para contradecir atributos visuales salientes (categoría de objeto, color o cantidad).
Limitación de las métricas actuales: Las evaluaciones estándar (como precisión de recuperación) suelen enmascarar estas fallas, agrupando comportamientos que deberían diagnosticarse por separado. Un modelo podría tener alta precisión general pero ser frágil ante cambios de estilo o insensible a contradicciones semánticas.

2. Metodología: LGIP

Los autores proponen LGIP, un protocolo de diagnóstico ligero y agnóstico al modelo que utiliza el conjunto de datos MS COCO (40,000 imágenes con 5 descripciones humanas cada una).

Proceso de Generación de Perturbaciones:
Para cada par imagen-descripción original $(I, c)$ , LGIP genera dos familias de variaciones textuales:

Parafraseos (Preservación de significado): Generan variaciones estiles y estructurales sin cambiar el significado (ej. voz pasiva, sinónimos, prefijos como "En esta imagen..."). Se dividen en simples y avanzadas.
Inversiones Semánticas (Semantic Flips): Modifican un atributo específico mediante sustitución léxica controlada para contradecir la imagen. Se enfocan en tres tipos:
- Objeto: Cambiar la categoría del objeto (ej. "gato" $\to$ "persona").
- Color: Cambiar el color (ej. "rojo" $\to$ "azul").
- Cantidad: Cambiar el número (ej. "dos" $\to$ "tres").

Métricas Propuestas:
El protocolo evalúa encoders congelados utilizando tres métricas principales:

Error de Invariancia ( $E_{inv}$ ): Mide la desviación en la similitud coseno ante parafraseos. Objetivo: Menor es mejor.
Sensibilidad Semántica ( $E_{sens}$ ): Mide el "gap" promedio entre la puntuación de la descripción original y la invertida. Objetivo: Mayor es mejor.
Tasa Positiva (PR): La proporción de casos donde la descripción original obtiene una puntuación mayor que la invertida. Objetivo: Mayor es mejor (cerca de 1.0 indica rechazo fiable de contradicciones).

3. Contribuciones Clave

Nuevo Benchmark (LGIP): Introduce un protocolo estandarizado para diagnosticar la robustez lingüística en el espacio de similitud imagen-texto, separando explícitamente la invariancia de la sensibilidad semántica.
Métricas Desacopladas: Define métricas que permiten identificar si un modelo es frágil ante la forma superficial (parafraseos) o insensible a conflictos semánticos (flips), algo que las métricas agregadas no logran.
Análisis Exhaustivo: Evalúa nueve VLMs populares (familias CLIP, OpenCLIP, EVA02, SigLIP y SigLIP2), revelando patrones de fallo sistemáticos que no son visibles en benchmarks de cero-shot tradicionales.

4. Resultados Principales

Los experimentos revelan una clara separación en el comportamiento de los modelos:

Modelos de Alto Rendimiento (CLIP, OpenCLIP, EVA02-CLIP):
- Muestran un compromiso favorable (trade-off): Baja variación ante parafraseos (alta invariancia) y alta capacidad para rechazar descripciones contradictorias (alta sensibilidad).
- EVA02-CLIP destaca especialmente, logrando el mejor equilibrio.
- Mantienen una tasa positiva (PR) alta (>0.85) incluso en flips de objetos, indicando una fuerte alineación semántica.
Modelos de la Familia SigLIP (SigLIP y SigLIP2):
- Exhiben un error de invariancia significativamente mayor (hasta 5-6 veces más que CLIP en algunos casos).
- Fallo crítico en sensibilidad: A menudo califican las descripciones invertidas (flips) igual o mejor que las descripciones humanas originales.
- La Tasa Positiva (PR) se sitúa cerca del azar (0.5) para SigLIP base, lo que indica que el modelo no distingue entre una descripción correcta y una que contradice la imagen (ej. prefiere "un perro" sobre "un gato" aunque la imagen muestre un gato).
- SigLIP2 mejora ligeramente pero sigue quedando muy por detrás de los modelos basados en CLIP en conflictos de nivel de objeto.
Análisis de Perturbaciones Combinadas:
- Al combinar parafraseos con flips semánticos, la brecha se mantiene, confirmando que los modelos SigLIP tienen dificultades intrínsecas para resolver conflictos semánticos, independientemente de la variación estilística.
Causa Raíz:
- Los autores atribuyen la diferencia al objetivo de entrenamiento: Los modelos tipo CLIP usan una pérdida de contraste softmax simétrica que fuerza un ordenamiento relativo dentro del lote (batch), alineándose naturalmente con la tarea de discriminar entre una descripción correcta y una incorrecta. SigLIP utiliza una pérdida sigmoid por pares que evalúa cada par imagen-texto de forma independiente, lo que podría debilitar la presión de ordenamiento relativa necesaria para detectar contradicciones semánticas.

5. Significado e Impacto

Diagnóstico Fino: LGIP expone debilidades sistémicas en modelos que parecen fuertes en métricas estándar. Por ejemplo, un modelo con alta precisión de recuperación podría estar "alucinando" o basándose en priores lingüísticos en lugar de evidencia visual cuando el texto cambia ligeramente.
Implicaciones para Aplicaciones:
- Una baja sensibilidad semántica puede llevar a rankings incorrectos en sistemas de recuperación de imágenes.
- Una invariancia pobre puede afectar la consistencia en sistemas que dependen de prompts variados o instrucciones naturales.
Guía para Mejoras: El trabajo sugiere que el entrenamiento contrastivo podría mejorarse incorporando "negativos estructurados" generados por flips semánticos y optimizando conjuntamente la consistencia ante parafraseos y la discriminación de flips.
Escalabilidad: LGIP es fácil de implementar, no requiere acceso a los pesos internos del modelo y funciona uniformemente en diferentes arquitecturas.

En conclusión, el paper demuestra que la robustez lingüística no es un subproducto automático de la escala o la precisión zero-shot, y que LGIP es una herramienta esencial para evaluar y mejorar la alineación semántica real en los VLMs.

Language-Guided Invariance Probing of Vision-Language Models

1. El Problema: ¿Son el modelo un "robot" o un "observador"?

2. El Examen LGIP: La "Prueba de Estrés"

3. Los Resultados: ¿Quién aprobó y quién suspendió?

4. ¿Por qué importa esto?

En resumen

Resumen Técnico: LGIP (Language-Guided Invariance Probing)

1. El Problema

2. Metodología: LGIP

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Impacto

Más como este

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks