VAUQ: Vision-Aware Uncertainty Quantification for LVLM Self-Evaluation

El artículo presenta VAUQ, un marco de cuantificación de incertidumbre consciente de la visión para la autoevaluación de Modelos de Lenguaje e Imagen Grandes (LVLM) que, mediante un puntaje de información de imagen y una estrategia de enmascaramiento, ofrece una función de puntuación sin entrenamiento que supera a los métodos existentes al medir la dependencia de la evidencia visual para detectar alucinaciones.

Seongheon Park, Changdae Oh, Hyeong Kyu Choi, Xuefeng Du, Sharon Li

Publicado 2026-02-25
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes un amigo muy inteligente que ha leído millones de libros y sabe muchísimo sobre el mundo, pero que también tiene una visión muy aguda para ver fotos. A este amigo le llamamos LVLM (Modelo de Lenguaje e Imagen Grande).

El problema es que a veces, cuando le muestras una foto, tu amigo "alucina". Es decir, te describe cosas que no están en la foto porque su cerebro, lleno de conocimientos previos, asume cosas. Por ejemplo, si le muestras una foto de un perro comiendo en un plato, pero el plato está vacío, tu amigo podría decirte: "¡Está comiendo una hamburguesa!", porque en su experiencia, los perros suelen comer hamburguesas.

Aquí es donde entra el problema: ¿Cómo sabe tu amigo si está mintiendo o si realmente está viendo lo que hay en la foto?

Las formas antiguas de preguntarle ("¿Estás seguro?") no funcionaban bien porque él respondía con mucha confianza basándose solo en lo que cree que debería pasar (sus "prejuicios lingüísticos"), ignorando la foto real.

La Solución: VAUQ (El Detective de la Realidad Visual)

Los autores de este paper crearon un nuevo sistema llamado VAUQ. Para explicarlo, usemos una analogía de un detective y una escena del crimen.

1. El Detective y la "Pista Visual"

Imagina que tu amigo (el modelo) es un detective que tiene que resolver un caso basándose en una foto (la evidencia).

  • El problema antiguo: El detective cerraba los ojos, pensaba en lo que probablemente pasó según las noticias que leyó, y daba su veredicto. Si la foto contradecía sus noticias, él seguía insistiendo en su historia falsa con total seguridad.
  • La solución VAUQ: Este nuevo sistema le obliga al detective a abrir los ojos y preguntarse: "¿Cuánto de mi respuesta se debe realmente a lo que veo en la foto y no a lo que imagino?".

2. La Prueba de la "Máscara de Ojos" (Enmascaramiento de la Región Central)

Aquí viene la parte más creativa. VAUQ hace una prueba muy sencilla: Le tapa los ojos al detective en las partes más importantes de la foto.

  • Paso 1: El detective mira la foto completa y da su respuesta.
  • Paso 2: El sistema identifica las partes de la foto que son cruciales para la respuesta (por ejemplo, el plato vacío o el perro).
  • Paso 3: El sistema pone una "máscara" negra sobre esas partes importantes (como si le taparan los ojos en la zona clave).
  • Paso 4: Le preguntan al detective de nuevo: "¿Qué hay en la foto ahora que no puedes ver lo importante?".

La lógica es simple:

  • Si el detective es honesto y realmente está mirando la foto, al taparle los ojos importantes, debería decir: "¡Uy! No sé, no puedo ver nada, estoy confundido". Su incertidumbre sube. Esto es bueno. Significa que su respuesta anterior se basaba en la evidencia visual.
  • Si el detective es un "alucinador", al taparle los ojos, seguirá diciendo: "¡Claro que hay una hamburguesa!" con la misma seguridad. Su incertidumbre no cambia. Esto es malo. Significa que estaba inventando la respuesta basándose en lo que cree, no en lo que ve.

3. La Puntuación de "Confianza Visual"

El sistema calcula una nota final (el VAUQ Score) combinando dos cosas:

  1. ¿Qué tan seguro estaba al principio? (La incertidumbre normal).
  2. ¿Cuánto se desmoronó su confianza cuando le taparon los ojos importantes? (La "Puntuación de Información de la Imagen").

Si la confianza se desmorona al tapar la foto, el sistema sabe que el modelo está siendo honesto y basado en la realidad. Si la confianza se mantiene alta aunque le tapen los ojos, el sistema lanza una alerta: "¡Ojo! Esto es una alucinación, el modelo está inventando cosas".

¿Por qué es genial esto?

  • No necesita entrenamiento: Es como darle un nuevo truco de magia al detective sin tener que volver a enseñarle a leer ni a ver. Funciona con los modelos que ya existen.
  • Es rápido: No necesita hacer la tarea 100 veces para ver si coincide (como hacían los métodos antiguos). Solo necesita mirar la foto, taparla un poco y comparar.
  • Funciona en la vida real: Ayuda a que estos modelos sean más seguros en hospitales, coches autónomos o juzgados, donde no podemos permitirnos que "alucinen" sobre lo que ven.

En resumen:
VAUQ es como un espejo de la realidad para la Inteligencia Artificial. En lugar de confiar en lo que la IA dice que ve, le preguntamos: "¿Qué pasaría si no pudieras ver lo importante?". Si la IA se queda sin argumentos, sabremos que estaba mintiendo. Si se queda sin argumentos porque realmente dependía de la foto, sabremos que fue honesta.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →