Enhancing Multi-Image Understanding through Delimiter Token Scaling

Este trabajo propone escalar los estados ocultos de los tokens delimitadores en modelos de lenguaje-vision grandes para mitigar la fuga de información entre imágenes, mejorando así el razonamiento en tareas de múltiples imágenes y documentos sin incurrir en costos adicionales de entrenamiento o inferencia.

Minyoung Lee, Yeji Park, Dongjun Hwang, Yejin Kim, Seong Joon Oh, Junsuk Choe

Publicado 2026-02-26
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes una explicación sencilla de este paper, usando analogías de la vida cotidiana:

Imagina que tienes un chef de cocina muy inteligente (esto es el modelo de Inteligencia Artificial, o LVLM). Este chef es un genio cuando le pones una sola foto de un plato para describirlo. Pero, si le pones cuatro fotos de platos diferentes al mismo tiempo en la mesa, se vuelve un poco confuso.

El Problema: "La Mezcla de Sabores"

Cuando le das al chef varias fotos a la vez, tiende a mezclar la información.

  • Le preguntas: "¿Qué hay en la foto 1?"
  • Él te responde: "Hay un pastel..." (pero el pastel estaba en la foto 3).

En el mundo de la IA, esto se llama "fuga de información entre imágenes". El modelo no sabe bien dónde termina una foto y empieza la otra, así que mezcla los detalles como si todo fuera un solo gran collage desordenado.

La Solución Actual (y por qué falla)

Los creadores de estos chefs ya habían intentado arreglarlo poniendo carteles de "FIN DE FOTO" (llamados tokens delimitadores) entre cada imagen. Es como poner una valla de plástico entre cada plato en la mesa.

Sin embargo, los autores del paper descubrieron que estos carteles eran demasiado débiles. El chef los veía, pero no les prestaba la suficiente atención, por lo que seguía saltando la valla y mezclando los ingredientes de un plato con los del otro.

La Innovación: "El Megáfono de los Carteles"

La idea genial de este paper es muy simple: Hacer que los carteles "FIN DE FOTO" sean gigantes y brillantes.

Los autores proponen una técnica llamada "Escalado de Tokens Delimitadores".

  • La analogía: Imagina que los carteles entre las fotos son pequeños letreros de papel. El modelo los ignora un poco. Lo que hacen los autores es pegar un megáfono a esos letreros y subirles el volumen al máximo.
  • Cómo funciona: En lugar de entrenar al chef de nuevo (lo cual costaría mucho dinero y tiempo), simplemente toman los "mensajes" que envían esos carteles dentro del cerebro de la IA y los amplifican (los multiplican por un número mayor que 1).

¿Qué logra esto?

  1. Aísla mejor las fotos: Al gritar más fuerte el "¡FIN DE FOTO!", el chef entiende claramente: "Ah, aquí termina la foto 1 y empieza la 2. No voy a mezclar el gato de la foto 1 con el perro de la foto 2".
  2. Mantiene la coherencia interna: Al mismo tiempo, ayuda a que los detalles dentro de la misma foto se conecten mejor entre sí. Es como si el cartel dijera: "¡Atención! Todo lo que está dentro de esta valla pertenece a este plato específico".

Los Resultados (La Magia)

  • Sin costo extra: Lo mejor de todo es que esto no requiere entrenar al modelo de nuevo ni usar más energía. Es como un "ajuste de software" instantáneo.
  • Funciona en todo: No solo sirve para fotos. También funciona si le das al chef varios documentos de texto o varias tablas de Excel a la vez, ayudándole a no mezclar la información de un documento con la de otro.
  • Mejor precisión: En las pruebas, el modelo cometía muchos menos errores al distinguir qué objeto pertenecía a qué imagen.

En resumen:
El paper descubre que los modelos de IA se confunden con varias imágenes porque los "separadores" entre ellas son demasiado débiles. La solución es simplemente hacer esos separadores más fuertes y visibles dentro del sistema, logrando que la IA entienda mejor cada imagen por separado sin necesidad de gastar dinero ni tiempo en reentrenarla. ¡Es como ponerle gafas de sol a la IA para que no se deslumbre y sepa exactamente dónde mirar!

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →