HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit

HiDrop es un marco innovador que optimiza la eficiencia de los Modelos de Lenguaje Multimodal (MLLM) mediante la reducción jerárquica de tokens visuales, combinando inyección tardía, poda piramidal cóncava y salida temprana para eliminar el 90% de los tokens sin sacrificar el rendimiento y acelerando el entrenamiento en 1,72 veces.

Hao Wu, Yingqi Fan, Jinyang Dai, Junlong Tong, Yunpu Ma, Xiaoyu Shen

Publicado 2026-03-02
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes un chef de cocina muy talentoso (el modelo de Inteligencia Artificial) que intenta cocinar un plato increíble combinando una receta escrita (texto) con una foto de los ingredientes (imagen).

El problema es que la foto tiene demasiados detalles: miles de pequeños píxeles. Si el chef intenta mirar cada uno de esos miles de puntos al mismo tiempo, se agota, tarda horas y la cocina se vuelve un caos.

Aquí es donde entra HiDrop, el nuevo "asistente de cocina" que proponen los autores de este paper. Su misión es ayudar al chef a cocinar más rápido sin perder el sabor del plato.

Aquí te explico cómo funciona HiDrop usando una analogía sencilla:

1. El Problema: "Mirar todo a la vez"

Los modelos actuales intentan procesar todos los píxeles de la imagen desde el primer segundo. Es como si el chef intentara leer la receta y, al mismo tiempo, examinar cada grano de sal, cada gota de aceite y cada arruga en la mesa de la cocina.

  • Resultado: Se gasta mucha energía (computación) y tiempo, pero al principio, el chef no necesita esos detalles finos para entender la idea general.

2. La Gran Revelación: "Las capas de la mente"

Los autores descubrieron algo curioso sobre cómo piensa el chef (el modelo):

  • Al principio (Capas superficiales): El chef apenas está "despertando". Si le muestras la foto, sus ojos apenas la registran. No está mezclando la foto con la receta todavía. Es como si estuviera mirando por la ventana sin prestar atención.
  • En el medio (Capas centrales): ¡Aquí es donde ocurre la magia! El chef empieza a conectar la foto con la receta. Pero, ¡sorpresa! Solo necesita mirar unos pocos ingredientes clave (los más importantes) para entender el plato. El resto es "ruido" o redundancia.
  • Al final (Capas profundas): El chef ya entendió la foto. Ahora solo necesita pensar en la receta y escribir el nombre del plato. Ya no necesita mirar la foto en absoluto.

3. La Solución: HiDrop (El Asistente Inteligente)

HiDrop aplica tres trucos geniales basados en lo que descubrieron:

A. "Inyección Tardía" (Late Injection)

  • La analogía: Imagina que el chef está leyendo la receta en silencio. HiDrop le dice: "¡Espera! No te muestres la foto todavía. Sigue leyendo la receta un rato más. Solo te daré la foto justo cuando empieces a necesitarla para cocinar".
  • El beneficio: Ahorra energía porque el chef no pierde tiempo mirando la foto cuando aún no la necesita.

B. "Poda de Pirámide Cóncava" (Concave Pyramid Pruning)

  • La analogía: Una vez que el chef tiene la foto, HiDrop actúa como un editor de video muy rápido.
    • Al principio de la "mezcla", corta muchos píxeles de golpe (porque la mayoría no son importantes).
    • A medida que avanza, corta menos, dejando solo los ingredientes más sabrosos (los tokens más importantes).
    • Es como esculpir una estatua: quitas mucha piedra al principio para dar forma, y luego solo haces pequeños ajustes finos al final.
  • El beneficio: El chef trabaja con una versión de la foto mucho más pequeña y ligera, pero sigue teniendo los detalles cruciales.

C. "Salida Temprana" (Early Exit)

  • La analogía: Cuando el chef ya ha entendido la foto y está pensando en el nombre del plato, HiDrop le dice: "¡Ya puedes guardar la foto! Ya no la necesitas. Sigue cocinando solo con la receta".
  • El beneficio: El chef deja de gastar energía mirando la imagen y se enfoca 100% en escribir el resultado final.

4. ¿Por qué es tan rápido?

HiDrop no solo elimina información, sino que organiza el trabajo de forma inteligente:

  • No rompe el ritmo: Usa una "etiqueta de posición" fija. Es como si cada ingrediente tuviera un número de asiento en la mesa. Aunque HiDrop quite algunos ingredientes de la mesa, los que quedan siguen sentados en sus lugares originales, así que el chef nunca se confunde.
  • Paralelismo: Mientras el chef lee la receta, HiDrop prepara la foto en el fondo. Cuando el chef está listo, la foto ya está lista para usarse.

El Resultado Final

Gracias a HiDrop:

  1. Ahorro masivo: Eliminan hasta un 90% de los píxeles de la imagen.
  2. Velocidad: El entrenamiento del modelo es 1.72 veces más rápido.
  3. Calidad: El chef sigue cocinando platos deliciosos. La calidad del resultado es casi idéntica a la de un chef que miraba todos los píxeles.

En resumen: HiDrop es como un asistente que sabe exactamente cuándo mostrarle la foto al chef, cuántos detalles necesita ver y cuándo puede dejar de mirarla, haciendo que todo el proceso sea mucho más eficiente sin perder calidad. ¡Es la diferencia entre intentar leer un libro entero palabra por palabra y solo leer los títulos y párrafos clave para entender la historia!