iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models

El paper presenta iLLaVA, un método que acelera de extremo a extremo los modelos multimodales grandes optimizando conjuntamente el codificador de imágenes y el modelo de lenguaje mediante una estrategia de fusión de tokens que recicla información útil, logrando mejoras significativas en velocidad y eficiencia sin sacrificar la precisión.

Lianyu Hu, Liqing Gao, Fanhua Shang, Liang Wan, Wei Feng

Publicado 2026-03-10
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que tienes un chef de cocina extremadamente talentoso (esto es el modelo de Inteligencia Artificial, o LVLM) que puede cocinar platos increíbles (responder preguntas, analizar fotos, entender videos). Pero hay un problema: este chef es muy lento y gasta una cantidad enorme de energía.

¿Por qué? Porque antes de cocinar, un ayudante (el codificador de imágenes) le entrega al chef una pila gigante de ingredientes (los "tokens" o trozos de la imagen).

El problema es que el ayudante no solo trae los ingredientes necesarios (como la carne y las verduras), sino que también trae muchas cajas vacías, papel de envoltura y tierra (redundancia visual). El chef tiene que revisar cada una de estas cajas, incluso las vacías, antes de poder empezar a cocinar. Esto hace que todo el proceso sea lento y costoso.

Hasta ahora, la mayoría de los métodos para acelerar a estos chefs intentaban simplemente tirar a la basura algunas de las cajas vacías justo antes de que llegaran a la mesa del chef. Pero el ayudante seguía gastando toda su energía preparando esa montaña de cajas vacías.

Aquí es donde entra iLLaVA (la propuesta de este paper). Es como un nuevo sistema de gestión de cocina que hace dos cosas inteligentes:

1. El "Filtro Inteligente" (Acelerar al Ayudante)

En lugar de dejar que el ayudante prepare todas las cajas y luego tirarlas, iLLaVA le dice al ayudante: "Oye, solo trae lo que realmente importa".

  • La analogía: Imagina que el ayudante tiene un detector de metales. En lugar de traer 1000 piedras, solo trae las 100 que tienen oro.
  • El resultado: El ayudante trabaja mucho más rápido porque no tiene que procesar la basura, y el chef recibe una pila mucho más pequeña para empezar a cocinar.

2. El "Reciclaje de Sabores" (La Estrategia de Fusión)

Aquí está la parte más creativa. Si simplemente tiras las cajas vacías, podrías perder un poco de sabor o información útil que estaba escondida en ellas.

  • La analogía: iLLaVA no tira las cajas "menos importantes" a la basura. En su lugar, las comprime. Imagina que tomas 10 cajas que tenían muy poco contenido y las fundes en una sola caja pequeña pero concentrada que guarda todo el "sabor" esencial de esas 10 cajas.
  • Cómo funciona: El sistema identifica qué partes de la imagen son vitales (como los ojos de un gato en una foto) y las guarda tal cual. Luego, toma las partes menos importantes (como el fondo borroso) y las mezcla inteligentemente en pequeños grupos para no perder información, pero ocupando mucho menos espacio.

¿Qué logra esto en la vida real?

El paper demuestra que con este sistema:

  1. Velocidad: El chef cocina 2 veces más rápido.
  2. Tiempo de espera: El tiempo para que el chef diga "¡Hola, estoy listo!" se reduce 4 veces.
  3. Memoria: Se necesita mucha menos energía (memoria RAM) para cocinar.
  4. Calidad: ¡Lo mejor de todo! Un chef grande (un modelo de 26 mil millones de parámetros) usando iLLaVA es más rápido y más inteligente que un chef pequeño (de 8 mil millones) que no lo usa.

En resumen

Imagina que tienes un camión de mudanzas (el modelo de IA).

  • El problema: El camión está lleno de cajas de cartón vacías y periódicos viejos (redundancia).
  • La solución vieja: Intentar quitar algunas cajas cuando el camión ya está en la carretera.
  • La solución iLLaVA: Antes de cargar el camión, un equipo inteligente comprime la ropa en bolsas al vacío y descarta lo que no sirve, pero guarda los recuerdos importantes en cajas pequeñas. El camión viaja más ligero, más rápido y llega a su destino con todo lo necesario intacto.

iLLaVA nos enseña que no hace falta tener un camión más grande para mover más cosas; a veces, solo necesitas ser más inteligente con cómo empacas lo que ya tienes. ¡Y eso es exactamente lo que hace que las inteligencias artificiales sean más rápidas y accesibles para todos!