VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models

El artículo presenta VLM-RobustBench, un benchmark integral que evalúa la robustez de modelos de visión-lingüística frente a 133 tipos de perturbaciones y revela que, aunque estos modelos son semánticamente fuertes, son espacialmente frágiles, ya que las distorsiones geométricas y de muestreo degradan su rendimiento más que las corrupciones fotométricas visualmente severas.

Rohit Saxena, Alessandro Suglia, Pasquale Minervini

Publicado 2026-03-09
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que los Modelos de Visión y Lenguaje (VLM) son como estudiantes superdotados que han leído millones de libros y visto millones de fotos. Son increíbles respondiendo preguntas complejas cuando todo está perfecto: la foto es nítida, la luz es buena y el texto es claro.

Pero, ¿qué pasa si les das una foto borrosa, invertida o con un filtro raro? ¿Siguen siendo tan inteligentes?

Los autores de este paper, VLM-RobustBench, decidieron poner a estos "estudiantes geniales" a prueba en un escenario de caos controlado. Aquí te explico qué descubrieron usando analogías sencillas:

1. El Examen de la "Tormenta Perfecta"

Imagina que tienes un examen de matemáticas. Normalmente, te dan el papel limpio. Pero en este nuevo examen (el benchmark), los profesores le hacen trampa al papel de 49 maneras diferentes:

  • Lo manchan con lluvia, nieve o niebla.
  • Lo estiran como chicle (deformación elástica).
  • Lo hacen pixelado como un videojuego antiguo.
  • Le ponen un filtro de "vidrio sucio" o lo giran.

Hicieron esto con 11 modelos diferentes (como Qwen, InternVL, Gemma) y descubrieron algo muy curioso: La apariencia engaña.

2. La Gran Sorpresa: "El Borroso es Peor que el Roto"

Aquí está la parte más interesante. Pensarías que si una foto está muy oscura, llena de nieve o con mucho ruido (como una foto tomada con una cámara vieja bajo la lluvia), el modelo fallaría mucho.

¡Falso!
Resulta que los modelos son muy buenos ignorando el "ruido" visual. Pueden entender una foto aunque parezca que la han pasado por una lavadora.

Pero, si les haces algo muy sutil, como:

  • Cambiar el tamaño de la foto (hacerla un poco más grande o pequeña, como cuando estiras una imagen en Photoshop).
  • Girarla un poquito o deformarla como si fuera gelatina.

¡Entonces el modelo se vuelve un desastre! Es como si un chef experto pudiera cocinar un plato delicioso aunque la cocina esté llena de humo, pero si le cambian el tamaño del cuchillo o le giran la mesa un poco, se olvida de cómo cocinar.

La analogía: Imagina que tienes un amigo que puede leer un libro aunque esté en una habitación oscura (ruido). Pero si le giras el libro de cabeza o lo estiras un poco, no puede entender ni una sola palabra. Son expertos en el "significado" (lenguaje), pero muy frágiles con la "geometría" (espacio).

3. El Truco de la "Volteada"

Hicieron una prueba con transformaciones muy simples, como voltear la foto de arriba a abajo o invertir los colores (como un negativo de película).

  • En tareas de razonamiento (pensar cosas complejas), al modelo le importa poco.
  • Pero en tareas visuales (como "¿qué objeto hay aquí?"), voltear la foto le hace perder la cabeza por completo. Es como si le quitaran la brújula.

4. ¿Por qué pasa esto?

Los autores creen que es porque estos modelos están construidos como un rompecabezas de trocitos (llamados "parches"). Cuando distorsionas la imagen (la estiras o cambias su tamaño), los trocitos del rompecabezas se desalinean. El modelo ve los trocitos, pero ya no encajan en su memoria, así que se confunde.

5. ¿Qué nos dicen esto?

El mensaje principal es: No confíes ciegamente en estos modelos si van a funcionar en el mundo real.
En la vida real, las cámaras se sacuden, las imágenes se comprimen, los coches se mueven y las fotos se deforman. Si un modelo de IA es muy inteligente pero se rompe con un pequeño cambio de tamaño en la imagen, no es seguro para cosas importantes como:

  • Autos autónomos (que necesitan ver bien aunque la carretera esté borrosa).
  • Diagnósticos médicos (donde una radiografía puede tener un artefacto).

En resumen:

Los modelos actuales son como genios que han leído todo el mundo, pero que se marean si el suelo se mueve un poco.
Los autores nos dicen: "Oye, necesitamos entrenarlos mejor para que no se mareen con los cambios de tamaño y la geometría, no solo con el ruido".

¡Es un llamado a hacer que la IA sea más resistente a los "golpes" del mundo real, no solo a las preguntas de examen!