VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que los Modelos de Visión y Lenguaje (VLM) son como estudiantes superdotados que han leído millones de libros y visto millones de fotos. Son increíbles respondiendo preguntas complejas cuando todo está perfecto: la foto es nítida, la luz es buena y el texto es claro.

Pero, ¿qué pasa si les das una foto borrosa, invertida o con un filtro raro? ¿Siguen siendo tan inteligentes?

Los autores de este paper, VLM-RobustBench, decidieron poner a estos "estudiantes geniales" a prueba en un escenario de caos controlado. Aquí te explico qué descubrieron usando analogías sencillas:

1. El Examen de la "Tormenta Perfecta"

Imagina que tienes un examen de matemáticas. Normalmente, te dan el papel limpio. Pero en este nuevo examen (el benchmark), los profesores le hacen trampa al papel de 49 maneras diferentes:

Lo manchan con lluvia, nieve o niebla.
Lo estiran como chicle (deformación elástica).
Lo hacen pixelado como un videojuego antiguo.
Le ponen un filtro de "vidrio sucio" o lo giran.

Hicieron esto con 11 modelos diferentes (como Qwen, InternVL, Gemma) y descubrieron algo muy curioso: La apariencia engaña.

2. La Gran Sorpresa: "El Borroso es Peor que el Roto"

Aquí está la parte más interesante. Pensarías que si una foto está muy oscura, llena de nieve o con mucho ruido (como una foto tomada con una cámara vieja bajo la lluvia), el modelo fallaría mucho.

¡Falso!
Resulta que los modelos son muy buenos ignorando el "ruido" visual. Pueden entender una foto aunque parezca que la han pasado por una lavadora.

Pero, si les haces algo muy sutil, como:

Cambiar el tamaño de la foto (hacerla un poco más grande o pequeña, como cuando estiras una imagen en Photoshop).
Girarla un poquito o deformarla como si fuera gelatina.

¡Entonces el modelo se vuelve un desastre! Es como si un chef experto pudiera cocinar un plato delicioso aunque la cocina esté llena de humo, pero si le cambian el tamaño del cuchillo o le giran la mesa un poco, se olvida de cómo cocinar.

La analogía: Imagina que tienes un amigo que puede leer un libro aunque esté en una habitación oscura (ruido). Pero si le giras el libro de cabeza o lo estiras un poco, no puede entender ni una sola palabra. Son expertos en el "significado" (lenguaje), pero muy frágiles con la "geometría" (espacio).

3. El Truco de la "Volteada"

Hicieron una prueba con transformaciones muy simples, como voltear la foto de arriba a abajo o invertir los colores (como un negativo de película).

En tareas de razonamiento (pensar cosas complejas), al modelo le importa poco.
Pero en tareas visuales (como "¿qué objeto hay aquí?"), voltear la foto le hace perder la cabeza por completo. Es como si le quitaran la brújula.

4. ¿Por qué pasa esto?

Los autores creen que es porque estos modelos están construidos como un rompecabezas de trocitos (llamados "parches"). Cuando distorsionas la imagen (la estiras o cambias su tamaño), los trocitos del rompecabezas se desalinean. El modelo ve los trocitos, pero ya no encajan en su memoria, así que se confunde.

5. ¿Qué nos dicen esto?

El mensaje principal es: No confíes ciegamente en estos modelos si van a funcionar en el mundo real.
En la vida real, las cámaras se sacuden, las imágenes se comprimen, los coches se mueven y las fotos se deforman. Si un modelo de IA es muy inteligente pero se rompe con un pequeño cambio de tamaño en la imagen, no es seguro para cosas importantes como:

Autos autónomos (que necesitan ver bien aunque la carretera esté borrosa).
Diagnósticos médicos (donde una radiografía puede tener un artefacto).

En resumen:

Los modelos actuales son como genios que han leído todo el mundo, pero que se marean si el suelo se mueve un poco.
Los autores nos dicen: "Oye, necesitamos entrenarlos mejor para que no se mareen con los cambios de tamaño y la geometría, no solo con el ruido".

¡Es un llamado a hacer que la IA sea más resistente a los "golpes" del mundo real, no solo a las preguntas de examen!

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: VLM-RobustBench

1. El Problema

Los Modelos de Lenguaje y Visión (VLMs) han demostrado un rendimiento excepcional en conjuntos de datos curados y de alta calidad. Sin embargo, existe una brecha crítica en la comprensión de su comportamiento bajo distorsiones del mundo real.

Falta de Robustez en Despliegue: Los entornos reales presentan ruido de sensores, condiciones climáticas adversas, artefactos de compresión y variaciones geométricas que rara vez están presentes en los datos de entrenamiento.
Suposiciones Incorrectas: La comunidad asume a menudo que la "severidad visual" (cuánto se degrada la imagen perceptualmente) se correlaciona linealmente con la dificultad para el modelo. El artículo cuestiona esta premisa.
Vacío en la Evaluación: A diferencia de la visión por computadora tradicional (con benchmarks como ImageNet-C), la evaluación de la robustez de los VLMs modernos frente a perturbaciones naturales y operativas es menos sistemática, especialmente en tareas de razonamiento multimodal.

2. Metodología

Los autores presentan VLM-RobustBench, un benchmark a gran escala diseñado para evaluar sistemáticamente la robustez de los VLMs.

Modelos Evaluados: Se probaron 11 modelos de última generación pertenecientes a cuatro familias principales: Qwen3-VL, InternVL3.5, Molmo2 y Gemma 3. Los tamaños de los modelos oscilan entre 4B y 30B parámetros.
Conjuntos de Datos: La evaluación se realizó en dos benchmarks complementarios:
- MMBench: Enfocado en la percepción visual y el entendimiento grounded (anclado a la imagen).
- MMMU-Pro: Enfocado en el razonamiento experto y multidisciplinario.
Taxonomía de Perturbaciones: Se definieron 49 tipos de aumentos que se aplican a las imágenes de entrada:
- 42 perturbaciones basadas en severidad: Agrupadas en 9 categorías (ruido, desenfoque, clima, digital, geométricas, oclusión, color/tono, resolución y específicas de VLM). Cada una se evalúa en tres niveles: bajo, medio y alto.
- 7 transformaciones binarias: Aplicadas sin parámetros de severidad (ej. invertir colores, voltear verticalmente, escala de grises).
- Total: 133 configuraciones de corrupción por par modelo-conjunto de datos.
Métricas Clave:
- Caída de Precisión ( $\Delta$ ): Diferencia entre la precisión en imágenes limpias y corruptas.
- Visual Gain (VG): Mide cuánto depende el modelo de la información visual frente a los priores del lenguaje ( $Acc_{limpia} - Acc_{sin\_imagen}$ ).
- Error de Corrupción Relativo (RCE): Normaliza la caída de rendimiento en función del beneficio visual del modelo, permitiendo comparar modelos con diferentes niveles de dependencia visual.
- Tasas de Fallo Severo: Porcentaje de configuraciones donde la caída de precisión supera un umbral crítico.

3. Contribuciones Clave

El estudio identifica tres hallazgos fundamentales que desafían las intuiciones actuales:

Fragilidad Espacial (Spatial Fragility): Los VLMs son semánticamente fuertes pero espacialmente frágiles. Son desproporcionadamente sensibles a artefactos de muestreo y distorsiones geométricas.
- Ejemplo: Una operación de resampling (como upsample) o una distorsión geométrica leve puede causar fallos catastróficos (caídas de hasta 34 puntos porcentuales), mientras que degradaciones fotométricas severas (como ruido o compresión JPEG) a menudo se manejan con robustez.
Desacople Severidad-Dificultad (Severity Mismatch): La severidad visual no es un predictor fiable de la dificultad del modelo.
- Paradoja: Perturbaciones de baja severidad como el glass blur (desenfoque de vidrio) degradan el rendimiento más que muchas perturbaciones de alta severidad fotométrica. En MMBench, el glass blur de baja severidad redujo la precisión en un 8% en promedio, superando a degradaciones visuales más obvias.
Vulnerabilidades Específicas por Familia: La robustez no es una función lineal del número de parámetros. Diferentes familias arquitectónicas exhiben "huellas dactilares" de vulnerabilidad únicas, sugiriendo que las decisiones arquitectónicas (ej. cómo se procesan los parches) determinan los modos de fallo.

4. Resultados Principales

Impacto de Transformaciones Binarias: Transformaciones triviales como el volteo vertical (vertical flip) y la inversión de color causan fallos catastróficos en MMBench (caídas de ~10 pp), superando a la mayoría de las corrupciones de alta severidad. Esto indica que los VLMs codifican priores de orientación y color muy fuertes.
Anomalía del Glass Blur: El glass blur de baja severidad muestra un comportamiento no monótono, causando mayores caídas que niveles más altos de la misma corrupción, lo que demuestra la desconexión entre la percepción humana de la degradación y la dificultad para el modelo.
Diferencias entre Tareas:
- En MMBench (más visual), las caídas son mayores y la dependencia de la imagen es alta. Las perturbaciones espaciales son letales.
- En MMMU-Pro (más de razonamiento), los modelos dependen más de los priores del lenguaje. Curiosamente, en algunos casos (como Qwen3-VL-4B), las corrupciones mejoraron el rendimiento relativo (RCE negativo), confirmando que el modelo estaba "adivinando" basándose en el texto y la imagen le estorbaba.
Fallo Catastrófico: Las operaciones de resampling (upsample, downsample) y deformaciones elásticas (elastic transform) son los principales responsables de los fallos catastróficos (caídas >10 pp), llegando a destruir más del 65% de la contribución visual en algunos casos.

5. Significado e Implicaciones

Reevaluación de la Robustez: El trabajo demuestra que los modelos actuales, aunque capaces de razonamiento complejo, carecen de invariancia geométrica y de muestreo básica. Esto es crítico para aplicaciones de seguridad como la conducción autónoma o el diagnóstico médico, donde las imágenes pueden sufrir distorsiones de lentes o cambios de resolución.
Nuevos Protocolos de Entrenamiento: Se recomienda que los pipelines de entrenamiento incluyan aumentos de datos agresivos centrados en la geometría y el resampling (no solo ruido o mezcla de colores) para mejorar la invariancia espacial.
Evaluación de Despliegue: Los benchmarks futuros deben reportar el rendimiento en "particiones de corrupción espacial" para penalizar a los modelos frágiles ante cambios geométricos simples.
Seguridad en Sistemas Embebidos: Para la robótica y sistemas físicos que dependen de VLMs, estas vulnerabilidades representan un riesgo de seguridad inherente, ya que los entornos físicos están llenos de perturbaciones visuales que estos modelos no están preparados para manejar.

En conclusión, VLM-RobustBench revela que la fortaleza semántica de los VLMs actuales está oculta por una fragilidad espacial significativa, motivando un cambio de paradigma en cómo se evalúan y entrenan estos modelos para garantizar su fiabilidad en el mundo real.

VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models

1. El Examen de la "Tormenta Perfecta"

2. La Gran Sorpresa: "El Borroso es Peor que el Roto"

3. El Truco de la "Volteada"

4. ¿Por qué pasa esto?

5. ¿Qué nos dicen esto?

En resumen:

Resumen Técnico: VLM-RobustBench

1. El Problema

2. Metodología

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Implicaciones

Más como este

When both Grounding and not Grounding are Bad -- A Partially Grounded Encoding of Planning into SAT (Extended Version)

Teaching an Agent to Sketch One Part at a Time

Learning to Disprove: Formal Counterexample Generation with Large Language Models

ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions with Large Language Models

PA2D-MORL: Pareto Ascent Directional Decomposition based Multi-Objective Reinforcement Learning