Enhancing Multi-Image Understanding through Delimiter Token Scaling

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes una explicación sencilla de este paper, usando analogías de la vida cotidiana:

Imagina que tienes un chef de cocina muy inteligente (esto es el modelo de Inteligencia Artificial, o LVLM). Este chef es un genio cuando le pones una sola foto de un plato para describirlo. Pero, si le pones cuatro fotos de platos diferentes al mismo tiempo en la mesa, se vuelve un poco confuso.

El Problema: "La Mezcla de Sabores"

Cuando le das al chef varias fotos a la vez, tiende a mezclar la información.

Le preguntas: "¿Qué hay en la foto 1?"
Él te responde: "Hay un pastel..." (pero el pastel estaba en la foto 3).

En el mundo de la IA, esto se llama "fuga de información entre imágenes". El modelo no sabe bien dónde termina una foto y empieza la otra, así que mezcla los detalles como si todo fuera un solo gran collage desordenado.

La Solución Actual (y por qué falla)

Los creadores de estos chefs ya habían intentado arreglarlo poniendo carteles de "FIN DE FOTO" (llamados tokens delimitadores) entre cada imagen. Es como poner una valla de plástico entre cada plato en la mesa.

Sin embargo, los autores del paper descubrieron que estos carteles eran demasiado débiles. El chef los veía, pero no les prestaba la suficiente atención, por lo que seguía saltando la valla y mezclando los ingredientes de un plato con los del otro.

La Innovación: "El Megáfono de los Carteles"

La idea genial de este paper es muy simple: Hacer que los carteles "FIN DE FOTO" sean gigantes y brillantes.

Los autores proponen una técnica llamada "Escalado de Tokens Delimitadores".

La analogía: Imagina que los carteles entre las fotos son pequeños letreros de papel. El modelo los ignora un poco. Lo que hacen los autores es pegar un megáfono a esos letreros y subirles el volumen al máximo.
Cómo funciona: En lugar de entrenar al chef de nuevo (lo cual costaría mucho dinero y tiempo), simplemente toman los "mensajes" que envían esos carteles dentro del cerebro de la IA y los amplifican (los multiplican por un número mayor que 1).

¿Qué logra esto?

Aísla mejor las fotos: Al gritar más fuerte el "¡FIN DE FOTO!", el chef entiende claramente: "Ah, aquí termina la foto 1 y empieza la 2. No voy a mezclar el gato de la foto 1 con el perro de la foto 2".
Mantiene la coherencia interna: Al mismo tiempo, ayuda a que los detalles dentro de la misma foto se conecten mejor entre sí. Es como si el cartel dijera: "¡Atención! Todo lo que está dentro de esta valla pertenece a este plato específico".

Los Resultados (La Magia)

Sin costo extra: Lo mejor de todo es que esto no requiere entrenar al modelo de nuevo ni usar más energía. Es como un "ajuste de software" instantáneo.
Funciona en todo: No solo sirve para fotos. También funciona si le das al chef varios documentos de texto o varias tablas de Excel a la vez, ayudándole a no mezclar la información de un documento con la de otro.
Mejor precisión: En las pruebas, el modelo cometía muchos menos errores al distinguir qué objeto pertenecía a qué imagen.

En resumen:
El paper descubre que los modelos de IA se confunden con varias imágenes porque los "separadores" entre ellas son demasiado débiles. La solución es simplemente hacer esos separadores más fuertes y visibles dentro del sistema, logrando que la IA entienda mejor cada imagen por separado sin necesidad de gastar dinero ni tiempo en reentrenarla. ¡Es como ponerle gafas de sol a la IA para que no se deslumbre y sepa exactamente dónde mirar!

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo en español:

Título: Mejora de la Comprensión de Múltiples Imágenes a través de la Escalación de Tokens Delimitadores

Autores: Minyoung Lee, Yeji Park, Dongjun Hwang, Yejin Kim, Seong Joon Oh, Junsuk Choe (Sogang University, KAIST, University of Tübingen).
Publicación: ICLR 2026.

1. El Problema: Fuga de Información entre Imágenes

Los Modelos de Lenguaje y Visión Grandes (LVLMs) actuales muestran un rendimiento sólido en tareas de imagen única, pero su desempeño se degrada significativamente cuando se les proporciona múltiples imágenes como entrada.

Causa Raíz: El artículo identifica este fenómeno como "fuga de información entre imágenes" (cross-image information leakage). El modelo falla al distinguir claramente los contextos visuales de diferentes imágenes, lo que provoca que la información se mezcle indeseablemente en la salida generada.
Limitación de las Soluciones Actuales: Aunque los modelos existentes utilizan tokens delimitadores especiales (como <|vision start|> y <|vision end|>) para separar las imágenes, el análisis de los autores revela que estos tokens no bloquean eficazmente la interacción cruzada entre imágenes. A pesar de ayudar a distinguir los bordes, la interacción no deseada persiste en los mapas de atención.

2. Metodología: Escalación de Estados Ocultos

Los autores proponen un método simple pero efectivo que no requiere entrenamiento adicional ni modifica la arquitectura del modelo.

Análisis Previo: El estudio descubre dos propiedades clave de los tokens delimitadores:
1. Reciben una atención fuerte de los tokens de su propia imagen (creando un mapeo uno a uno).
2. Actúan como "etiquetas" de imagen que refuerzan la interacción intra-imagen (dentro de la misma imagen).
La Solución (DelimScaling): Se propone escalar los estados ocultos de los tokens delimitadores de imagen.
- Fórmula: Si $h_t^{(l)}$ es el estado oculto del token $t$ en la capa $l$ , y $D$ es el conjunto de índices de los tokens delimitadores, se modifica el estado multiplicándolo por un factor $\lambda > 1$ :
  $h_t^{(l)*} = \begin{cases} \lambda \cdot h_t^{(l)} & \text{si } t \in D \\ h_t^{(l)} & \text{de lo contrario} \end{cases}$
Mecanismo de Acción:
- Al aumentar la magnitud de los estados ocultos de los delimitadores, se incrementa la atención que reciben (propiedad 1), actuando como "sumideros" (sink tokens) localizados.
- Esto reduce la atención que los tokens de una imagen asignan a tokens de otras imágenes (supresión de fuga).
- Simultáneamente, al aumentar la contribución de los vectores de valor ( $V$ ) de los delimitadores en la salida de atención, se preserva y refuerza la interacción dentro de la misma imagen (propiedad 2), evitando que la escalación degrade el contexto local.
Eficiencia: El método es compatible con kernels de atención optimizados como FlashAttention, ya que opera a nivel de estados ocultos y no requiere modificar los pesos de atención directamente ni realizar pasadas adicionales.

3. Contribuciones Clave

Análisis de Tokens Delimitadores: Primer estudio detallado que revela cómo los tokens delimitadores en LVLMs funcionan como etiquetas locales y cómo su debilidad actual causa la fuga de información.
Método sin Costo de Entrenamiento: Una técnica de inferencia que mejora el rendimiento sin necesidad de fine-tuning, datos adicionales ni sobrecarga computacional.
Generalización: Demuestra que el problema de la distinción de contextos no es solo visual, sino que aplica también a tareas de texto puro con múltiples documentos o tablas.

4. Resultados Experimentales

El método fue evaluado en múltiples benchmarks y familias de modelos (Qwen2.5-VL, InternVL3, LLaVA-OneVision):

Comprensión de Múltiples Imágenes: Mejoras consistentes en benchmarks como Mantis, MuirBench, MIRB y QBench2.
- Ejemplo: En MuirBench, Qwen2.5-VL-3B mejoró de 37.31 a 42.42.
- Ejemplo: En Mantis, InternVL3-2B mejoró de 52.07 a 54.38.
Tareas de Texto (Multi-documento y Multi-tabla): El método también mejoró el rendimiento en MultiNews, WCEP-10 (resumen de documentos) y TQABench (preguntas sobre tablas), demostrando su versatilidad.
Análisis Cualitativo: Los mapas de atención muestran una reducción clara de las interacciones cruzadas (leakage) y una preservación de los patrones triangulares que delimitan las imágenes. Las respuestas generadas son más precisas y evitan mezclar detalles de diferentes imágenes.
Costo Computacional: No hay aumento en el uso de memoria (VRAM) ni en el tiempo de inferencia en comparación con la línea base.

5. Significado e Impacto

Eficiencia y Sostenibilidad: Al ser un método de "inferencia en tiempo de prueba" (test-time) que no requiere reentrenamiento, reduce drásticamente el costo energético y económico de mejorar modelos multimodales.
Solución a un Problema Fundamental: Aborda una limitación estructural de los LVLMs actuales al mejorar la capacidad de discriminación de contextos múltiples, lo cual es crucial para aplicaciones del mundo real que requieren comparar o razonar sobre varias fuentes visuales simultáneamente.
Facilidad de Implementación: Al ser compatible con la infraestructura de inferencia estándar (FlashAttention), es fácilmente adoptable por la industria y la comunidad de investigación sin cambios arquitectónicos complejos.

En resumen, el artículo demuestra que simplemente amplificar la señal de los tokens delimitadores es una estrategia poderosa para resolver la confusión entre múltiples imágenes en los modelos de visión y lenguaje, logrando un rendimiento superior sin penalizaciones computacionales.

Enhancing Multi-Image Understanding through Delimiter Token Scaling

El Problema: "La Mezcla de Sabores"

La Solución Actual (y por qué falla)

La Innovación: "El Megáfono de los Carteles"

¿Qué logra esto?

Los Resultados (La Magia)

Título: Mejora de la Comprensión de Múltiples Imágenes a través de la Escalación de Tokens Delimitadores

1. El Problema: Fuga de Información entre Imágenes

2. Metodología: Escalación de Estados Ocultos

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation