iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que tienes un chef de cocina extremadamente talentoso (esto es el modelo de Inteligencia Artificial, o LVLM) que puede cocinar platos increíbles (responder preguntas, analizar fotos, entender videos). Pero hay un problema: este chef es muy lento y gasta una cantidad enorme de energía.

¿Por qué? Porque antes de cocinar, un ayudante (el codificador de imágenes) le entrega al chef una pila gigante de ingredientes (los "tokens" o trozos de la imagen).

El problema es que el ayudante no solo trae los ingredientes necesarios (como la carne y las verduras), sino que también trae muchas cajas vacías, papel de envoltura y tierra (redundancia visual). El chef tiene que revisar cada una de estas cajas, incluso las vacías, antes de poder empezar a cocinar. Esto hace que todo el proceso sea lento y costoso.

Hasta ahora, la mayoría de los métodos para acelerar a estos chefs intentaban simplemente tirar a la basura algunas de las cajas vacías justo antes de que llegaran a la mesa del chef. Pero el ayudante seguía gastando toda su energía preparando esa montaña de cajas vacías.

Aquí es donde entra iLLaVA (la propuesta de este paper). Es como un nuevo sistema de gestión de cocina que hace dos cosas inteligentes:

1. El "Filtro Inteligente" (Acelerar al Ayudante)

En lugar de dejar que el ayudante prepare todas las cajas y luego tirarlas, iLLaVA le dice al ayudante: "Oye, solo trae lo que realmente importa".

La analogía: Imagina que el ayudante tiene un detector de metales. En lugar de traer 1000 piedras, solo trae las 100 que tienen oro.
El resultado: El ayudante trabaja mucho más rápido porque no tiene que procesar la basura, y el chef recibe una pila mucho más pequeña para empezar a cocinar.

2. El "Reciclaje de Sabores" (La Estrategia de Fusión)

Aquí está la parte más creativa. Si simplemente tiras las cajas vacías, podrías perder un poco de sabor o información útil que estaba escondida en ellas.

La analogía: iLLaVA no tira las cajas "menos importantes" a la basura. En su lugar, las comprime. Imagina que tomas 10 cajas que tenían muy poco contenido y las fundes en una sola caja pequeña pero concentrada que guarda todo el "sabor" esencial de esas 10 cajas.
Cómo funciona: El sistema identifica qué partes de la imagen son vitales (como los ojos de un gato en una foto) y las guarda tal cual. Luego, toma las partes menos importantes (como el fondo borroso) y las mezcla inteligentemente en pequeños grupos para no perder información, pero ocupando mucho menos espacio.

¿Qué logra esto en la vida real?

El paper demuestra que con este sistema:

Velocidad: El chef cocina 2 veces más rápido.
Tiempo de espera: El tiempo para que el chef diga "¡Hola, estoy listo!" se reduce 4 veces.
Memoria: Se necesita mucha menos energía (memoria RAM) para cocinar.
Calidad: ¡Lo mejor de todo! Un chef grande (un modelo de 26 mil millones de parámetros) usando iLLaVA es más rápido y más inteligente que un chef pequeño (de 8 mil millones) que no lo usa.

En resumen

Imagina que tienes un camión de mudanzas (el modelo de IA).

El problema: El camión está lleno de cajas de cartón vacías y periódicos viejos (redundancia).
La solución vieja: Intentar quitar algunas cajas cuando el camión ya está en la carretera.
La solución iLLaVA: Antes de cargar el camión, un equipo inteligente comprime la ropa en bolsas al vacío y descarta lo que no sirve, pero guarda los recuerdos importantes en cajas pequeñas. El camión viaja más ligero, más rápido y llega a su destino con todo lo necesario intacto.

iLLaVA nos enseña que no hace falta tener un camión más grande para mover más cosas; a veces, solo necesitas ser más inteligente con cómo empacas lo que ya tienes. ¡Y eso es exactamente lo que hace que las inteligencias artificiales sean más rápidas y accesibles para todos!

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models", publicado en ICLR 2026.

1. El Problema

Los Modelos Grandes de Visión y Lenguaje (LVLMs) actuales enfrentan desafíos significativos en cuanto a complejidad computacional y demanda de recursos.

Redundancia Visual: Las entradas de imágenes y videos contienen una gran redundancia inherente, lo que genera miles o decenas de miles de tokens.
Complejidad Cuadrática: Los mecanismos de atención (self/cross-attention) tienen una complejidad de $O(n^2)$ , lo que hace que el costo computacional escale cuadráticamente con el número de tokens.
Limitaciones de las Métodos Existentes: Las aproximaciones actuales se centran casi exclusivamente en reducir o podar tokens dentro o antes de la etapa del Modelo de Lenguaje (LLM). Esto ignora un cuello de botella crítico: el codificador de imágenes (Image Encoder).
- El codificador de imágenes consume una parte sustancial del tiempo de inferencia (hasta un 45% en tareas de video).
- Es el principal proveedor de tokens para el LLM. Si no se reduce la redundancia en esta etapa temprana, el LLM sigue recibiendo una carga de entrada masiva, limitando la aceleración real de extremo a extremo.

2. Metodología: iLLaVA

El autores proponen iLLaVA, un marco que optimiza conjuntamente el codificador de imágenes y el LLM para lograr una aceleración integral. La metodología se basa en dos innovaciones clave:

A. Reducción de Tokens en Dos Etapas (Two-Stage Token Reduction)

A diferencia de métodos previos que solo actúan en el LLM, iLLaVA realiza la reducción de tokens en ambas fases:

En el Codificador de Imágenes: Se insertan módulos de fusión de tokens (token merging) después de los bloques de atención en capas intermedias del codificador (ViT). Esto reduce el número de tokens visuales antes de que pasen al proyector y al LLM.
En el LLM: Se realiza una fusión adicional de tokens en bloques específicos del modelo de lenguaje.

Beneficio: Al reducir los tokens en el codificador, no solo se acelera el codificador mismo, sino que se reduce drásticamente la carga de entrada para el LLM, logrando ganancias de eficiencia compuestas.

B. Estrategia de Fusión de Tokens con Reciclaje (Token Merging with Recycling)

Para evitar la degradación del rendimiento causada por la eliminación agresiva de tokens, iLLaVA introduce una estrategia inteligente de fusión que "recicla" información útil:

Selección de Tokens Informativos ( $P^i_v$ ): Se identifican los tokens con las puntuaciones de atención más altas (basadas en el mapa de atención promedio $S_{avg}$ ) y se conservan intactos.
Reciclaje de Tokens ( $P^c_v$ ): En lugar de descartar los tokens menos importantes, se seleccionan un subconjunto de ellos como "tokens reciclados". Estos actúan como clústeres para agregar información beneficiosa de los tokens descartados.
Mecanismo de Fusión: Se calculan las relaciones de atención entre los tokens reciclados y los descartados. Los tokens descartados se fusionan en sus grupos correspondientes mediante una suma ponderada según sus puntuaciones de atención normalizadas.
Resultado: El módulo de salida conserva los tokens informativos puros y los tokens reciclados enriquecidos, manteniendo la información crítica mientras reduce la cantidad total de tokens.

3. Contribuciones Clave

Aceleración de Extremo a Extremo: Es el primer enfoque que aborda conjuntamente la redundancia en el codificador de imágenes y el LLM, superando la limitación de los métodos que solo optimizan el LLM.
Estrategia de Reciclaje de Información: Propone un método novedoso para recuperar información de tokens que de otro modo serían descartados, mitigando la pérdida de rendimiento típica de la poda agresiva.
Eficiencia Superior: Logra reducir los tokens de entrada a menos de 1/3 (incluso reducciones del 88.9% y 95% en video) manteniendo un alto rendimiento.
Modelos Grandes vs. Pequeños: Demuestra que iLLaVA permite que un modelo grande (ej. InternVL-2.5 26B) supere a un modelo más pequeño (ej. InternVL-2.5 8B) tanto en precisión como en eficiencia (throughput).

4. Resultados Experimentales

Los experimentos se realizaron en más de 10 benchmarks de comprensión de imágenes y video (MMMU, MMBench, VideoMME, etc.) utilizando modelos base como Qwen2.5-VL, InternVL-2.5 y LLaVA-Onevision.

Rendimiento en Imágenes:
- Con una reducción del 66.7% de tokens, iLLaVA mantiene el 99.2% del rendimiento del modelo original.
- Con una reducción del 88.9%, mantiene el 95.2% del rendimiento, superando significativamente a métodos SOTA como SparseVLM, FasterVLM y PyramidDrop.
Rendimiento en Video:
- Con una reducción del 95% de tokens de video, iLLaVA supera a VisionZip en un 1.7% en métricas promedio, demostrando robustez en reducciones extremas.
Eficiencia Computacional:
- Throughput: Aumento de hasta 2.12× (hasta 2× en algunos casos).
- Tiempo de Prefilling: Reducción de 4.46× (hasta 4×).
- Uso de Memoria: Reducción de 1.59×.
Comparativa de Modelos: Un modelo de 26B con iLLaVA logra un throughput similar o mejor que un modelo de 8B, pero con una precisión significativamente superior (+4.2% en MMMU).

5. Significado e Impacto

El trabajo de iLLaVA es fundamental para la viabilidad de los LVLMs en escenarios del mundo real:

Despliegue Realista: Al reducir drásticamente los requisitos de memoria y el tiempo de inferencia, permite ejecutar modelos grandes en infraestructuras con recursos limitados.
Eficiencia sin Sacrificio: Rompe el compromiso tradicional entre velocidad y precisión, demostrando que se puede acelerar masivamente el modelo sin perder capacidad de razonamiento, gracias a la estrategia de reciclaje de tokens.
Nueva Dirección de Investigación: Establece que la optimización de LVLMs debe ser holística, considerando el codificador de imágenes como un componente crítico para la eficiencia, no solo como un preprocesador.

En resumen, iLLaVA demuestra que una imagen puede valer menos de 1/3 de sus tokens de entrada originales sin sacrificar la inteligencia del modelo, logrando una aceleración integral mediante la fusión inteligente y el reciclaje de información en todas las etapas de la red.

iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models

1. El "Filtro Inteligente" (Acelerar al Ayudante)

2. El "Reciclaje de Sabores" (La Estrategia de Fusión)

¿Qué logra esto en la vida real?

En resumen

1. El Problema

2. Metodología: iLLaVA

A. Reducción de Tokens en Dos Etapas (Two-Stage Token Reduction)

B. Estrategia de Fusión de Tokens con Reciclaje (Token Merging with Recycling)

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers