HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes un chef de cocina muy talentoso (el modelo de Inteligencia Artificial) que intenta cocinar un plato increíble combinando una receta escrita (texto) con una foto de los ingredientes (imagen).

El problema es que la foto tiene demasiados detalles: miles de pequeños píxeles. Si el chef intenta mirar cada uno de esos miles de puntos al mismo tiempo, se agota, tarda horas y la cocina se vuelve un caos.

Aquí es donde entra HiDrop, el nuevo "asistente de cocina" que proponen los autores de este paper. Su misión es ayudar al chef a cocinar más rápido sin perder el sabor del plato.

Aquí te explico cómo funciona HiDrop usando una analogía sencilla:

1. El Problema: "Mirar todo a la vez"

Los modelos actuales intentan procesar todos los píxeles de la imagen desde el primer segundo. Es como si el chef intentara leer la receta y, al mismo tiempo, examinar cada grano de sal, cada gota de aceite y cada arruga en la mesa de la cocina.

Resultado: Se gasta mucha energía (computación) y tiempo, pero al principio, el chef no necesita esos detalles finos para entender la idea general.

2. La Gran Revelación: "Las capas de la mente"

Los autores descubrieron algo curioso sobre cómo piensa el chef (el modelo):

Al principio (Capas superficiales): El chef apenas está "despertando". Si le muestras la foto, sus ojos apenas la registran. No está mezclando la foto con la receta todavía. Es como si estuviera mirando por la ventana sin prestar atención.
En el medio (Capas centrales): ¡Aquí es donde ocurre la magia! El chef empieza a conectar la foto con la receta. Pero, ¡sorpresa! Solo necesita mirar unos pocos ingredientes clave (los más importantes) para entender el plato. El resto es "ruido" o redundancia.
Al final (Capas profundas): El chef ya entendió la foto. Ahora solo necesita pensar en la receta y escribir el nombre del plato. Ya no necesita mirar la foto en absoluto.

3. La Solución: HiDrop (El Asistente Inteligente)

HiDrop aplica tres trucos geniales basados en lo que descubrieron:

A. "Inyección Tardía" (Late Injection)

La analogía: Imagina que el chef está leyendo la receta en silencio. HiDrop le dice: "¡Espera! No te muestres la foto todavía. Sigue leyendo la receta un rato más. Solo te daré la foto justo cuando empieces a necesitarla para cocinar".
El beneficio: Ahorra energía porque el chef no pierde tiempo mirando la foto cuando aún no la necesita.

B. "Poda de Pirámide Cóncava" (Concave Pyramid Pruning)

La analogía: Una vez que el chef tiene la foto, HiDrop actúa como un editor de video muy rápido.
- Al principio de la "mezcla", corta muchos píxeles de golpe (porque la mayoría no son importantes).
- A medida que avanza, corta menos, dejando solo los ingredientes más sabrosos (los tokens más importantes).
- Es como esculpir una estatua: quitas mucha piedra al principio para dar forma, y luego solo haces pequeños ajustes finos al final.
El beneficio: El chef trabaja con una versión de la foto mucho más pequeña y ligera, pero sigue teniendo los detalles cruciales.

C. "Salida Temprana" (Early Exit)

La analogía: Cuando el chef ya ha entendido la foto y está pensando en el nombre del plato, HiDrop le dice: "¡Ya puedes guardar la foto! Ya no la necesitas. Sigue cocinando solo con la receta".
El beneficio: El chef deja de gastar energía mirando la imagen y se enfoca 100% en escribir el resultado final.

4. ¿Por qué es tan rápido?

HiDrop no solo elimina información, sino que organiza el trabajo de forma inteligente:

No rompe el ritmo: Usa una "etiqueta de posición" fija. Es como si cada ingrediente tuviera un número de asiento en la mesa. Aunque HiDrop quite algunos ingredientes de la mesa, los que quedan siguen sentados en sus lugares originales, así que el chef nunca se confunde.
Paralelismo: Mientras el chef lee la receta, HiDrop prepara la foto en el fondo. Cuando el chef está listo, la foto ya está lista para usarse.

El Resultado Final

Gracias a HiDrop:

Ahorro masivo: Eliminan hasta un 90% de los píxeles de la imagen.
Velocidad: El entrenamiento del modelo es 1.72 veces más rápido.
Calidad: El chef sigue cocinando platos deliciosos. La calidad del resultado es casi idéntica a la de un chef que miraba todos los píxeles.

En resumen: HiDrop es como un asistente que sabe exactamente cuándo mostrarle la foto al chef, cuántos detalles necesita ver y cuándo puede dejar de mirarla, haciendo que todo el proceso sea mucho más eficiente sin perder calidad. ¡Es la diferencia entre intentar leer un libro entero palabra por palabra y solo leer los títulos y párrafos clave para entender la historia!

Each language version is independently generated for its own context, not a direct translation.

Aquí presento un resumen técnico detallado del artículo "HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit", publicado en ICLR 2026.

1. El Problema

Los Modelos de Lenguaje Grandes Multimodales (MLLMs) enfrentan un cuello de botella computacional significativo debido al costo cuadrático de la atención auto-organizada en relación con el número de tokens visuales. Dado que los codificadores visuales generan muchos más tokens que los textos (debido a la alta densidad de información de las imágenes), el procesamiento se vuelve prohibitivo a medida que aumenta la resolución.

Las estrategias actuales de poda progresiva de tokens visuales (como FastV, PDrop, TwigVLM) intentan mitigar esto eliminando tokens menos informativos a medida que avanzan por las capas del modelo. Sin embargo, el paper identifica dos malentendidos fundamentales en los enfoques existentes:

Interpretación errónea de las capas superficiales: Se asume que las primeras capas son críticas para la fusión multimodal. El análisis de los autores demuestra que, en realidad, estas capas actúan como meros propagadores pasivos; los tokens visuales apenas sufren transformación y la influencia cruzada (texto-visual) es insignificante.
Programas de poda rígidos: Los métodos actuales utilizan esquemas de reducción fijos (piramidales o lineales) que no se adaptan a la dinámica real del flujo de información. No reconocen que la redundancia es máxima en las capas medias (donde ocurre la fusión) y que los tokens visuales pueden descartarse por completo en las capas profundas una vez completada la integración.

2. Metodología: HiDrop

HiDrop es un marco de trabajo que alinea la poda de tokens con la dinámica jerárquica real de los MLLMs. Divide el procesamiento en tres etapas y aplica estrategias específicas para cada una:

A. Inyección Tardía (Late Injection) - Capas Superficiales

En lugar de procesar tokens visuales desde la primera capa, HiDrop bypassea las primeras capas superficiales (ej. capas 1 a 8 en LLaVA-1.5-7B).

Mecanismo: Se realiza un paso hacia adelante solo con texto hasta una capa de inyección específica ( $L_{inj}$ ), donde se identifican los tokens visuales completos.
Justificación: Como las capas superficiales son redundantes para la integración visual, retrasar la inyección elimina el costo computacional innecesario de procesar tokens visuales en estas etapas.

B. Poda Piramidal Cóncava con Salida Temprana (Concave Pyramid Pruning & Early Exit) - Capas Medias y Profundas

Una vez que los tokens visuales entran en el modelo, HiDrop gestiona su reducción de manera dinámica:

Poda Piramidal Cóncava: En las capas medias (donde ocurre la fusión activa), se aplica una estrategia de poda agresiva al principio que se vuelve más gradual hacia el final. Esto se logra mediante un operador Top-k diferenciable (DTop-K), que permite una selección suave de tokens basada en su importancia, en lugar de cortes duros no diferenciables.
Selección de Capas de Filtrado (ILVAS): Para determinar dónde podar, se utiliza una métrica llamada Similitud de Atención Visual Inter-Capa (ILVAS). Identifica las capas donde la importancia de los tokens se estabiliza, marcándolas como puntos óptimos para la poda.
Salida Temprana (Early Exit): En las capas profundas, donde el razonamiento se vuelve dominado por el lenguaje, se descartan todos los tokens visuales restantes ( $L_{exit}$ ). El modelo continúa procesando solo con el flujo de texto, ya que la información visual fusionada ya ha sido absorbida.

C. Soluciones de Implementación para Eficiencia Real

Para asegurar que la reducción dinámica no introduzca sobrecargas ocultas, HiDrop incorpora:

Codificación Posicional Persistente: Asigna identificadores de posición fijos a los tokens visuales desde la entrada, evitando desalineaciones cuando los tokens se inyectan, se podan o se eliminan dinámicamente.
Compatibilidad con FlashAttention: La selección de tokens se maneja mediante un paso de atención auxiliar ligero separado del cálculo principal, manteniendo la compatibilidad con kernels eficientes como FlashAttention.
Desacoplamiento Paralelo: La computación relacionada con la visión se desacopla del paso de prellenado (prefill) principal, permitiendo paralelismo y reduciendo la latencia.

3. Contribuciones Clave

Diagnóstico de Dinámicas Internas: Demostración empírica de que las capas superficiales de los MLLMs son propagadores pasivos y que la fusión real ocurre en capas medias, permitiendo una poda más agresiva y temprana de lo que se creía posible.
Nuevo Marco de Poda Jerárquica (HiDrop): Introducción de la estrategia combinada de Late Injection, Concave Pyramid Pruning (con DTop-K) y Early Exit.
Eficiencia sin Pérdida de Rendimiento: Logro de una compresión extrema de tokens visuales manteniendo la precisión del modelo base.

4. Resultados Experimentales

Los experimentos se realizaron principalmente en LLaVA-1.5-7B con diferentes backbones (MobileLLaMA, Vicuna-7B, Vicuna-13B) en 11 benchmarks estándar (MME, MMBench, GQA, VQAv2, etc.).

Compresión de Tokens: HiDrop logra comprimir aproximadamente el 90% de los tokens visuales (reduciendo de 576 a ~64 tokens en promedio) manteniendo un rendimiento casi idéntico al modelo original.
- En el escenario de poda del 88.9%, HiDrop alcanza un 98.3% del rendimiento base, superando significativamente a métodos como PDrop y FastV.
- Incluso con una poda del 91.7%, mantiene un 96.5% del rendimiento.
Aceleración:
- Entrenamiento: Reduce el tiempo de entrenamiento en un 40.7% (de 159.3 a 94.4 horas GPU), logrando una aceleración de 1.72x.
- Inferencia: Reduce los FLOPs de visión en un 88.9% (de 3.82T a 0.42T) y disminuye la latencia de prellenado de 63.6 ms a 32.6 ms.
Comparativa: HiDrop supera consistentemente a los métodos de vanguardia (SOTA) en todos los ratios de compresión probados, ofreciendo un mejor equilibrio entre eficiencia y precisión.

5. Significado e Impacto

El trabajo de HiDrop representa un cambio de paradigma en la optimización de MLLMs:

Cuestiona supuestos establecidos: Demuestra que la intuición de "preservar siempre las primeras capas" para la integración multimodal es incorrecta, abriendo la puerta a arquitecturas más eficientes.
Eficiencia Práctica: No solo es una mejora teórica; las optimizaciones de implementación (como la compatibilidad con FlashAttention y la codificación posicional persistente) aseguran que las ganancias teóricas se traduzcan en aceleración real en hardware.
Escalabilidad: Al reducir drásticamente la carga computacional cuadrática de la atención visual, HiDrop facilita el entrenamiento y despliegue de modelos multimodales más grandes y complejos en entornos con recursos limitados.

En resumen, HiDrop establece un nuevo estado del arte en la eficiencia de entrenamiento e inferencia de MLLMs, proporcionando una comprensión más profunda de cómo estos modelos procesan y fusionan información visual a través de sus capas.