Selective Training for Large Vision Language Models via Visual Information Gain

Este trabajo introduce la Ganancia de Información Visual (VIG), una métrica basada en la perplejidad que cuantifica la utilidad de la entrada visual para guiar un esquema de entrenamiento selectivo en Modelos Grandes de Visión y Lenguaje, mejorando así la fundamentación visual y reduciendo el sesgo lingüístico con menos datos de supervisión.

Seulbi Lee, Sangheum Hwang

Publicado 2026-02-20
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que los Modelos de Lenguaje y Visión Grandes (LVLMs) son como estudiantes muy inteligentes que han leído millones de libros, pero apenas han abierto los ojos para ver el mundo real.

El problema es que, cuando les muestras una foto y les preguntas algo, a menudo no miran la foto. En su lugar, adivinan la respuesta basándose en lo que han leído en sus libros (sus "prejuicios de texto"). Es como si les mostraras una foto de un perro y te dijeran "¿Qué animal es?", y ellos respondieran "Un gato" porque en sus libros leen más sobre gatos, o simplemente alucinan cosas que no están ahí.

Los autores de este paper, Seulbi Lee y Sangheum Hwang, quieren solucionar esto. Aquí te explico su solución con una analogía sencilla:

1. El Problema: El Estudiante que "Adivina" en lugar de "Observar"

Imagina que tienes una clase llena de 100 preguntas con fotos.

  • 50 preguntas son fáciles y se pueden responder solo con la lógica (ej: "¿Qué color tiene el cielo en esta foto de un día soleado?"). El estudiante puede responder esto sin mirar la foto.
  • 50 preguntas requieren mirar de verdad (ej: "¿De qué color es el sombrero del hombre en la esquina?"). Aquí, si no miras la foto, fallas.

El problema es que el modelo estudia las 100 preguntas por igual. Como las primeras 50 son fáciles de "adivinar" con texto, el modelo se vuelve perezoso y deja de mirar las fotos. Se vuelve un experto en "hablar bonito" pero un mal observador.

2. La Solución: El "Medidor de Información Visual" (VIG)

Los autores crearon una herramienta llamada Ganancia de Información Visual (VIG).

Imagina que el VIG es un detector de mentiras o un termómetro de atención.

  • Le preguntas al modelo: "¿Qué respuesta darías si solo te diera la pregunta?" (Sin mirar la foto).
  • Luego le preguntas: "¿Qué respuesta darías si te diera la pregunta Y la foto?".
  • El VIG mide la diferencia.

La analogía del "Efecto Wow":

  • Si la foto no cambia la respuesta (porque ya la sabía por texto), el VIG es cero. (El estudiante no necesita la foto).
  • Si la foto hace que la respuesta sea mucho más segura y precisa, el VIG es alto. (¡El estudiante dijo: "¡Ah! ¡Gracias por la foto! Ahora sé que el sombrero es rojo y no azul!").

3. La Estrategia: "Entrenamiento Selectivo"

En lugar de obligar al modelo a estudiar todas las 100 preguntas igual, usan el VIG para hacer una limpieza inteligente:

  1. Filtrar las preguntas: Seleccionan solo las preguntas donde la foto fue crucial para la respuesta (las de alto VIG). Descartan las que el modelo podía responder sin mirar.
  2. Filtrar las palabras: Incluso dentro de una buena pregunta, no todas las palabras importan.
    • Palabras como "el", "de", "y" (artículos) no necesitan mirar la foto.
    • Palabras como "rojo", "arriba", "gato" necesitan mirar la foto.
    • El sistema entrena al modelo solo para aprender esas palabras que realmente dependen de la imagen.

4. El Resultado: Un Estudiante Más Atento y Eficiente

Al hacer esto, ocurren cosas mágicas:

  • Menos alucinaciones: El modelo deja de inventar cosas porque se ha obligado a mirar la foto antes de hablar.
  • Más rápido y barato: Al eliminar el "ruido" (las preguntas y palabras que no necesitan ver la foto), el modelo aprende mucho más rápido y necesita menos datos para ser inteligente.
  • Mejor comprensión: Se vuelve experto en detalles visuales (colores, posiciones, formas) en lugar de ser un experto en adivinanzas textuales.

En resumen

Imagina que quieres enseñar a alguien a reconocer frutas.

  • El método antiguo: Le das 1,000 fotos y le dices "estúdialas todas". El estudiante memoriza que "la manzana suele ser roja" (texto) y cuando ve una foto de una manzana verde, sigue diciendo "es roja" porque eso es lo que leyó.
  • El método VIG: Les dices: "Oye, solo vamos a estudiar las fotos donde la fruta tiene un color o forma extraña que no puedes adivinar solo con la lógica. Y cuando estudies, fíjate solo en los detalles visuales, no en las palabras de relleno".

El resultado es un modelo que realmente ve lo que tiene delante, en lugar de solo "leer" lo que espera ver. ¡Es como pasar de un estudiante que recita de memoria a un detective que investiga la escena del crimen!

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →