Language-Guided Invariance Probing of Vision-Language Models

Este artículo presenta LGIP, un nuevo benchmark que evalúa la robustez lingüística de los modelos visión-idioma midiendo su invariancia ante parafraseos y su sensibilidad a cambios semánticos, revelando que, aunque algunos modelos como EVA02-CLIP muestran un buen equilibrio, otros como SigLIP fallan en distinguir descripciones originales de alteraciones semánticas, un problema que las métricas de recuperación estándar no detectan.

Jae Joong Lee

Publicado 2026-02-19
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un traductor mágico que puede ver una foto y describirla con palabras, o leer una descripción y encontrar la foto perfecta. A estos "traductores" se les llama Modelos de Visión-Lenguaje (como CLIP o SigLIP). Son muy inteligentes y han aprendido a conectar imágenes y textos de internet.

Pero, ¿qué pasa si les haces una trampa? ¿Qué pasa si cambias un poco las palabras de la descripción sin cambiar su significado, o si cambias una palabra clave para que la descripción sea falsa?

Este paper presenta un nuevo examen de "salud" para estos modelos, llamado LGIP (Sondeo de Invarianza Guiado por Lenguaje). Aquí te explico cómo funciona usando analogías sencillas:

1. El Problema: ¿Son el modelo un "robot" o un "observador"?

Los modelos actuales son muy buenos en exámenes estándar, pero a veces fallan en cosas muy básicas de la vida real.

  • La prueba de la Paráfrasis (La Invarianza): Imagina que le muestras al modelo una foto de un perro.

    • Le dices: "Un perro marrón corre en el parque".
    • Luego le dices: "En el parque, un perro de color café está corriendo".
    • Lo ideal: El modelo debería pensar: "¡Son lo mismo! La foto y las dos frases encajan igual de bien".
    • El fallo: Si el modelo se confunde porque las palabras cambiaron un poco, es como un robot que solo memorizó la frase exacta y no entendió el concepto.
  • La prueba del "Flip" Semántico (La Sensibilidad): Ahora, le mostramos la misma foto del perro, pero cambiamos una palabra clave para que sea mentira.

    • Le dices: "Un gato marrón corre en el parque".
    • Lo ideal: El modelo debería decir: "¡Eso es falso! En la foto hay un perro, no un gato. La puntuación de esta frase debe bajar mucho".
    • El fallo: Si el modelo sigue diciendo que la frase del "gato" encaja bien con la foto del "perro", es como un guardia de seguridad que no nota que el ladrón se ha puesto una peluca.

2. El Examen LGIP: La "Prueba de Estrés"

Los autores tomaron 40,000 fotos reales (del conjunto de datos MS COCO) y les hicieron estas dos pruebas a 9 modelos diferentes:

  1. Generaron variaciones: Crearon muchas formas diferentes de decir lo mismo (paráfrasis).
  2. Generaron mentiras: Cambiaron palabras clave (cambiaron "perro" por "gato", "rojo" por "azul", "uno" por "tres").

Luego, midieron dos cosas:

  • ¿Se confunde si cambias el estilo? (Error de invarianza).
  • ¿Se da cuenta si mientes? (Sensibilidad semántica).

3. Los Resultados: ¿Quién aprobó y quién suspendió?

El examen reveló sorpresas interesantes que los exámenes tradicionales no veían:

  • Los Estudiantes Ejemplares (CLIP, OpenCLIP, EVA02):
    Estos modelos son como detectives astutos.

    • Si cambias el estilo de la frase, no se alteran (son invariantes).
    • Si intentas engañarlos cambiando "perro" por "gato", inmediatamente dicen: "¡Eso no es!".
    • Analogía: Son como un chef experto que sabe que "pollo asado" y "pollo a la brasa" son lo mismo, pero si le pones "carne de vaca" en el plato, grita "¡Eso no es pollo!".
  • Los Estudiantes Confusos (La familia SigLIP):
    Estos modelos son como alumnos que han memorizado el libro de texto pero no entienden la historia.

    • Se confunden mucho si cambias las palabras de la frase (tienen un error alto de invarianza).
    • Lo peor: A veces prefieren la mentira. Si les muestras una foto de un perro y les dices "un gato", a veces piensan que esa frase describe mejor la foto que la descripción real hecha por humanos.
    • Analogía: Es como si un guardia de seguridad, al ver a un hombre con un traje, pensara que es un ladrón disfrazado, pero si le pones una peluca de payaso, diga "¡Ah, sí, eso es exactamente lo que buscaba!". No distinguen bien entre la realidad y la manipulación.

4. ¿Por qué importa esto?

Imagina que usas un modelo para buscar fotos en internet.

  • Si el modelo es como SigLIP, podrías buscar "un coche rojo" y te mostrará fotos de "un coche azul" porque no entiende bien la diferencia de color, o te mostrará fotos de "un coche" cuando escribiste "una bicicleta".
  • Si el modelo es como EVA02, entenderá que "un coche rojo" es lo mismo que "un vehículo de color rojo", y rechazará firmemente la idea de que es una bicicleta.

En resumen

Este paper nos dice que ser "inteligente" en exámenes estándar no significa ser robusto.

  • Los modelos CLIP y EVA son como personas que entienden el significado profundo de las cosas.
  • Los modelos SigLIP a veces son como máquinas que solo buscan coincidencias de palabras, sin entender realmente lo que ven en la foto.

El nuevo examen (LGIP) es una herramienta sencilla y barata para detectar estos fallos antes de que los modelos se usen en aplicaciones reales, asegurando que no nos engañen con simples cambios de palabras.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →