Benchmarking Deflection and Hallucination in Large Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que los Modelos de Lenguaje y Visión Grandes (LVLM) son como estudiantes geniales y muy rápidos que han leído millones de libros y visto millones de fotos. Son capaces de responder preguntas complejas sobre cualquier cosa, desde "¿qué animal es este?" hasta "¿qué dice la receta en este libro de cocina?".

Pero, como cualquier estudiante, a veces tienen un problema: se inventan las respuestas.

El Problema: El "Efecto Alucinar" vs. El "Efecto Pedir Ayuda"

Imagina que le preguntas a tu amigo experto: "¿Qué hay en la foto de este coche antiguo?".

Si el experto no sabe, pero intenta adivinar por no parecer tonto, te dice: "¡Es un Ferrari rojo de 1950!" (aunque en la foto sea un Ford gris de 1980). Esto es una alucinación. Es peligroso porque te da información falsa con mucha seguridad.
Si el experto es honesto, dice: "No tengo suficiente información en la foto para saberlo, lo siento". Esto es una deflexión (o abstención). Es lo correcto cuando no se tiene la respuesta.

El problema es que, hasta ahora, los tests para medir a estas inteligencias artificiales solo preguntaban: "¿Acertó la respuesta?". No les importaba si se inventó la respuesta o si pidió ayuda. Además, muchos de estos tests se volvían obsoletos rápido porque los modelos aprendían las respuestas de memoria (como un estudiante que se sabe el examen de memoria) y ya no necesitaban buscar la información.

La Solución: El "Examen de Honestidad" (VLM-DeflectionBench)

Los autores de este paper crearon un nuevo tipo de examen llamado VLM-DeflectionBench. Piénsalo como un simulador de realidad para estas IAs.

En lugar de solo preguntar "¿sabes la respuesta?", este examen pone a los modelos en situaciones difíciles y variadas para ver cómo reaccionan:

La Trampa de la Memoria (Paramétrico): Les hacen una pregunta sin darles ninguna ayuda. Si el modelo no sabe la respuesta de memoria, debería decir "no sé". Si se inventa algo, reprueba.
La Respuesta Perfecta (Oráculo): Les dan la respuesta exacta en un papel. Aquí, el modelo debería acertar. Si falla, es que no sabe leer bien.
El Ruido de Fondo (Realista): Les dan la respuesta correcta, pero mezclada con 10 respuestas falsas y confusas. ¿El modelo se confunde y elige la falsa? ¿O logra encontrar la verdad?
La Trampa Total (Adversarial): Les dan solo respuestas falsas y confusas. Aquí, el modelo debe decir "no sé". Si intenta adivinar, está fallando gravemente.

¿Qué descubrieron? (La Gran Sorpresa)

Los autores probaron este examen con 20 de los modelos más inteligentes del mundo (incluyendo los de Google, OpenAI, Meta, etc.) y encontraron cosas muy interesantes:

Son muy tercos: Incluso cuando tienen información falsa o confusa frente a ellos, la mayoría de los modelos prefieren inventar una respuesta ("¡Es un Ferrari!") antes que decir "no sé". Les cuesta mucho admitir que no tienen la información.
El texto manda sobre la imagen: Si les muestran una foto clara de un perro, pero les dan un texto falso que dice "esto es un gato", ¡la mayoría de los modelos creerán el texto y dirán que es un gato! Ignoran lo que ven sus "ojos" porque confían demasiado en lo que "leen".
Pedir ayuda es difícil: Si les decimos "si no estás seguro, no respondas", a veces funcionan mejor, pero a veces se vuelven demasiado tímidos y dejan de responder incluso cuando sí saben la respuesta. Es un equilibrio muy difícil de lograr.

En resumen

Este paper nos dice que, aunque nuestras IAs son muy inteligentes, aún no son muy honestas. Necesitamos enseñarles no solo a ser inteligentes, sino a saber cuándo callarse.

El nuevo examen que crearon es como un entrenador de ética para estas máquinas. No solo mide cuánto saben, sino cómo se comportan cuando no saben. Y lo mejor es que este examen es "vivo": se actualiza constantemente para asegurarse de que los modelos no puedan simplemente memorizar las respuestas, obligándolos a pensar y a ser honestos en un mundo real lleno de información falsa y confusa.

La lección final: Una IA confiable no es solo la que da la respuesta correcta, sino la que sabe decir "no sé" cuando la evidencia no es suficiente.

Benchmarking Deflection and Hallucination in Large Vision-Language Models

El Problema: El "Efecto Alucinar" vs. El "Efecto Pedir Ayuda"

La Solución: El "Examen de Honestidad" (VLM-DeflectionBench)

¿Qué descubrieron? (La Gran Sorpresa)

En resumen

1. El Problema

2. Metodología: VLM-DeflectionBench

A. Pipeline de Curación Dinámica

B. Escenarios de Evaluación

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Benchmarking Deflection and Hallucination in Large Vision-Language Models

El Problema: El "Efecto Alucinar" vs. El "Efecto Pedir Ayuda"

La Solución: El "Examen de Honestidad" (VLM-DeflectionBench)

¿Qué descubrieron? (La Gran Sorpresa)

En resumen

1. El Problema

2. Metodología: VLM-DeflectionBench

A. Pipeline de Curación Dinámica

B. Escenarios de Evaluación

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

Filtered Reasoning Score: Evaluating Reasoning Quality on a Model's Most-Confident Traces

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

LLMs Struggle with Abstract Meaning Comprehension More Than Expected

Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration

Empirical Evaluation of PDF Parsing and Chunking for Financial Question Answering with RAG