VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que acabamos de descubrir un nuevo "examen de inteligencia" para las inteligencias artificiales que ven y hablan (llamadas MLLM), y la noticia es un poco preocupante: aunque son geniales describiendo fotos, son muy malos resolviendo acertijos visuales complejos.

Aquí te explico el papel "VOILA" como si estuviéramos tomando un café:

1. El Problema: La IA es un "Descritor", no un "Pensador"

Hasta ahora, las IAs multimodales (como GPT-4o) han sido como turistas muy observadores. Si les muestras una foto de un perro, te dicen: "¡Es un perro marrón corriendo!". Eso es genial.

Pero el mundo real no es solo describir; es razonar. Imagina que te muestran dos fotos:

Foto A: Un niño jugando con una pelota.
Foto B: Un niño jugando con un coche.
Foto C: Una niña jugando con una pelota.

La pregunta es: ¿Qué pasa en la Foto D?
Un humano piensa: "¡Ah! La regla es 'cambiar el juguete pero mantener al niño'. Entonces, en la Foto D, la niña debe jugar con el coche".

Las IAs actuales, según este estudio, se quedan atascadas. Intentan adivinar, pero a menudo fallan porque no entienden la relación entre las fotos, solo miran los objetos sueltos.

2. La Solución: VOILA (El Nuevo Examen)

Los autores crearon VOILA, que es como un gimnasio de lógica visual gigante y dinámico. No es un examen de opción múltiple (donde la IA solo elige A, B o C), sino un examen de creación.

La Metáfora del "Rompecabezas de 4 Piezas":
VOILA le da a la IA tres piezas de un rompecabezas visual y le pide que dibuje la cuarta pieza desde cero.
- Pieza 1 y 2: Muestran una transformación (ej. "de 1 perro a 2 perros").
- Pieza 3: Es el punto de partida para la nueva transformación.
- Pieza 4 (La respuesta): La IA debe inventar la imagen que completa el patrón.

3. Las Dos Modalidades: Con y Sin "Trampas"

Para hacer el examen más interesante, crearon dos versiones:

VOILA-ND (Sin Distracciones): Es como un acertijo limpio. "Si A cambia a B, y C es como A, entonces D debe ser como B".
VOILA-WD (Con Distracciones): Aquí es donde la IA se confunde. Imagina que les muestran las fotos, pero en la imagen hay un payaso de fondo que no tiene nada que ver con la regla.
- Ejemplo: La regla es sobre el número de personas. Pero en la foto hay un payaso, un globo y un perro. La IA a menudo se distrae con el payaso y olvida contar a las personas. Es como si en un examen de matemáticas te pusieran un dibujo de un gato gigante en la esquina y la IA empezara a hablar del gato en lugar de resolver la suma.

4. Los Resultados: Humanos vs. Robots

Los resultados fueron reveladores y un poco decepcionantes para la tecnología actual:

Los Humanos: Somos como detectives expertos. Logramos resolver el 70% de los acertijos, incluso con las trampas (distracciones).
Las IAs (GPT-4o, LLaMa, etc.): Son como niños pequeños que memorizan.
- En los acertijos fáciles, la mejor IA (GPT-4o) acertó solo el 29%.
- En los difíciles (con trampas), la mejor IA acertó solo el 13%.
- ¡Eso significa que fallan casi 7 de cada 10 veces!

5. ¿Por qué fallan? (El Diagnóstico)

El estudio descubrió tres cosas clave:

No entienden la "magia" de la relación: Pueden describir la foto 1 y la foto 2 perfectamente, pero cuando tienen que aplicar esa lógica a la foto 3, se pierden. Es como si pudieran leer la receta, pero no supieran cocinar el plato.
Las "Trampas" las cogen desprevenidas: Cuando hay elementos irrelevantes (como el payaso), las IAs se distraen y creen que esos elementos son parte de la regla.
El formato importa: Si les das las fotos una por una (como en una película), funcionan un poco mejor. Si les das todas juntas en un solo collage (como un póster), se confunden más, probablemente porque la resolución se vuelve un caos para sus "ojos".

6. La Esperanza: El Método "Paso a Paso"

El estudio encontró una pequeña luz al final del túnel. Si en lugar de pedirle a la IA que "adivine la respuesta final", le pedimos que haga el trabajo en pasos pequeños (como un maestro que guía a un alumno):

"Describe la foto 1".
"Describe la foto 2".
"¿Qué cambió entre ellas?".
"Ahora aplica ese cambio a la foto 3".

Con este método (llamado Least-to-Most o "de lo menos a lo más"), la IA mejora un poco, pero sigue estando muy lejos de la inteligencia humana.

En Resumen

VOILA es un espejo que nos muestra que, aunque nuestras IAs son increíbles para "ver" y "hablar", todavía les falta mucho para pensar y razonar como nosotros. Son como un actor que puede recitar un guion perfectamente, pero si le cambian el escenario de repente, no sabe improvisar.

Este examen nos dice que el futuro de la IA no es solo hacerlas más grandes, sino enseñarles a entender las relaciones ocultas detrás de las imágenes, no solo las imágenes en sí mismas.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "VOILA: EVALUATION OF MLLMS FOR PERCEPTUAL UNDERSTANDING AND ANALOGICAL REASONING", presentado en ICLR 2025.

1. El Problema

Aunque los Modelos de Lenguaje Multimodales (MLLMs) han demostrado un rendimiento excepcional en tareas de comprensión visual básica (como descripción de imágenes o preguntas y respuestas visuales), existe una brecha significativa en su capacidad para realizar razonamiento abstracto y relacional a través de múltiples imágenes.

Limitaciones actuales: La mayoría de los benchmarks existentes dependen de formatos de opción múltiple, lo que evalúa la selección de una respuesta predefinida en lugar de la capacidad de generar soluciones complejas que requieran interpretación de contexto visual y razonamiento de alto nivel.
La brecha cognitiva: Las tareas de razonamiento analógico (inferir relaciones entre pares de imágenes y aplicarlas a nuevos casos) requieren habilidades cognitivas superiores (creación y evaluación) que los modelos actuales no poseen plenamente. No se ha medido adecuadamente su capacidad para transferir patrones relacionales a nuevos conceptos visuales sin depender de opciones cerradas.

2. Metodología: El Benchmark VOILA

Los autores presentan VOILA, un benchmark de gran escala, abierto y dinámico diseñado específicamente para evaluar la comprensión perceptiva y el razonamiento relacional abstracto de los MLLMs.

Diseño del Dataset

Tarea: Razonamiento por analogía visual en el formato $A : A' :: B : B'$ . Dado un par de referencia (imágenes 1 y 2) y una imagen de aplicación (imagen 3), el modelo debe generar la imagen 4 que complete la analogía.
Generación Dinámica: Utilizando modelos de texto a imagen (SDXL), el benchmark genera automáticamente más de 6.4 millones de escenarios únicos. Se basa en tres propiedades clave:
1. Número de sujetos (1-4).
2. Tipo de sujeto (14 categorías, ej. animales, personas).
3. Acción (13 actividades, ej. correr, leer).
Reglas de Lógica: Se aplican cuatro tipos de reglas para estructurar las analogías:
- Estable: La propiedad se mantiene constante.
- Cambio: La propiedad cambia de un valor a otro.
- Aritmética: El número de sujetos cambia mediante una operación matemática (suma/resta).
- Distracción: Introduce cambios irrelevantes en las propiedades para forzar al modelo a filtrar información no esencial (solo presente en la sub-dataset VOILA-WD).

Configuración de Pruebas

El benchmark se divide en dos sub-datasets:

VOILA-ND (No Distractions): Contiene solo reglas lógicas claras.
VOILA-WD (With Distractions): Incluye reglas de distracción, aumentando la complejidad al requerir que el modelo ignore cambios irrelevantes en el número, tipo o acción.

Evaluación

Se evalúa a los modelos en un proceso de razonamiento paso a paso (Least-to-Most prompting):

Descripción del contenido visual.
Identificación de relaciones entre las imágenes 1 y 2.
Aplicación de esas relaciones a la imagen 3 para predecir la imagen 4.
Generación de la imagen final (o descripción textual de la misma).
La evaluación se realiza comparando las propiedades predichas (número, sujeto, acción) con la verdad fundamental (ground truth), utilizando tanto MLLMs como evaluadores humanos (MTurk).

3. Contribuciones Clave

VOILA Benchmark: Introducción de un nuevo estándar de evaluación abierto y dinámico que supera las limitaciones de los benchmarks estáticos y de opción múltiple, enfocándose en la generación de soluciones y el razonamiento relacional.
Evaluación Exhaustiva: Análisis de modelos de vanguardia (GPT-4o, LLaMa 3.2, Qwen2-VL, CogVLM2, etc.) en tareas de razonamiento visual de alto nivel.
Análisis de Factores de Rendimiento: Estudio detallado de cómo afectan al rendimiento:
- El formato de entrada (collage de imágenes vs. imágenes secuenciales).
- Técnicas de prompting (Direct Answer vs. Least-to-Most).
- La presencia de reglas de distracción.
- La provisión de información de verdad fundamental en pasos intermedios.

4. Resultados Principales

Los experimentos revelan una brecha de rendimiento masiva entre los humanos y los MLLMs actuales:

Rendimiento General:
- Humanos: Logran una precisión del 71% en VOILA-WD y 69% en VOILA-ND.
- MLLMs (Mejor caso):
  - En VOILA-WD (con distracciones), el mejor modelo (LLaMa 3.2) alcanza solo un 13% de precisión en la etapa de aplicación de relaciones.
  - En VOILA-ND (sin distracciones), GPT-4o lidera con un 29% de precisión.
- Brecha: Existe una diferencia de aproximadamente 58% (en WD) y 40% (en ND) entre los humanos y los mejores modelos.
Hallazgos Específicos:
- Dificultad de Razonamiento: Los modelos tienen dificultades para comprender las relaciones inter-imágenes. Aunque pueden describir imágenes con alta precisión (>70%), su capacidad para inferir y aplicar reglas abstractas cae drásticamente.
- Impacto de las Distracciones: La presencia de reglas de distracción (VOILA-WD) reduce significativamente el rendimiento de todos los modelos, excepto LLaMa 3.2, que muestra una capacidad superior para filtrar información irrelevante.
- Formato de Entrada: Utilizar imágenes secuenciales (una por una) mejora el rendimiento en un 40% en comparación con presentarlas como un collage único, debido a limitaciones de resolución y atención en los collages.
- Prompting: La estrategia Least-to-Most (L2M) (descomponer la tarea en pasos) mejora consistentemente el rendimiento en comparación con la respuesta directa, aunque sigue siendo insuficiente para alcanzar niveles humanos.
- Abordaje de la Generación: La etapa de generación de imágenes es el punto más débil; incluso con instrucciones perfectas, la precisión cae a niveles cercanos al azar en tareas complejas.
Estudios de Ablación:
- Incluso cuando se proporciona al modelo la descripción textual correcta de las relaciones (ground truth), su capacidad para aplicarlas a una nueva imagen visual sigue siendo baja (17% en GPT-4o), lo que sugiere una limitación fundamental en la transferencia de conocimiento lógico a contextos visuales nuevos.
- La entrada textual pura supera a la entrada visual en tareas de razonamiento analógico (49% vs 22% en GPT-4o), indicando una brecha entre el razonamiento textual y visual.

5. Significado e Impacto

El artículo VOILA establece que, a pesar de los avances en la percepción visual, los MLLMs actuales carecen de la inteligencia cognitiva necesaria para realizar razonamiento analógico abstracto y transferir patrones relacionales a nuevos casos visuales.

Limitación Cognitiva: Los modelos actuales funcionan bien en reconocimiento y descripción, pero fallan en la "creación" y el "razonamiento relacional", habilidades que según la taxonomía de Bloom son de nivel superior.
Necesidad de Nuevos Enfoques: La brecha de rendimiento sugiere que las arquitecturas actuales no han logrado integrar la comprensión visual profunda con el razonamiento lógico simbólico de manera efectiva.
Futuro de la Investigación: VOILA proporciona una plataforma rigurosa para medir el progreso hacia una inteligencia artificial que pueda emular el razonamiento humano en tareas complejas, más allá de la simple coincidencia de patrones. El benchmark es esencial para guiar el desarrollo de modelos capaces de entender y generar soluciones basadas en relaciones abstractas, no solo en datos visuales estáticos.

En resumen, VOILA demuestra que el razonamiento analógico visual sigue siendo un desafío abierto y no resuelto para la inteligencia artificial multimodal, marcando un punto de inflexión para evaluar la verdadera "inteligencia" de estos modelos.