Variation-aware Vision Token Dropping for Faster Large Vision-Language Models

Este artículo presenta V²Drop, un método innovador que acelera la inferencia de los grandes modelos de visión y lenguaje eliminando dinámicamente las tokens visuales con menor variación, logrando una reducción significativa en la latencia sin comprometer el rendimiento en tareas de comprensión de imágenes y videos.

Junjie Chen, Xuyang Liu, Zichen Wen, Yiyu Wang, Siteng Huang, Honggang Chen

Publicado 2026-02-26
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que los Modelos de Visión y Lenguaje Grandes (LVLMs) son como unos detectives geniales que pueden ver fotos, videos y leer textos al mismo tiempo para responder preguntas. Son muy inteligentes, pero tienen un gran problema: son muy lentos y gastan mucha energía cuando tienen que analizar imágenes de alta resolución o videos largos.

¿Por qué? Porque para "ver" una imagen, el detective la divide en miles de pequeños trozos (llamados "tokens"). Es como si, para describir una foto de un partido de fútbol, el detective tuviera que analizar cada gramo de césped, cada gota de sudor y cada sombra en el estadio, incluso si la pregunta es solo "¿Qué número lleva el jugador?". Analizar todo eso es un trabajo enorme y lento.

Aquí es donde entra el nuevo método del paper, llamado V2Drop. Vamos a explicarlo con una analogía sencilla:

🎭 La Analogía del "Actor de Reparto" vs. "El Protagonista"

Imagina que el modelo está leyendo una obra de teatro (la imagen o video).

  • Los métodos antiguos eran como un director de casting que decía: "¡Guarda a todos los actores que están al final del guion y tira a los que están al principio!".

    • El problema: Esto no tiene sentido. A veces el actor más importante (el que tiene la respuesta) está al principio, y los que están al final son solo decorado. Los métodos antiguos se quedaban con el decorado y perdían la trama, además de gastar mucha memoria.
  • V2Drop es un director muy astuto que observa cómo se mueven los actores.

    • La idea clave: Si un actor en la escena apenas se mueve, no cambia su expresión y se queda quieto (como un mueble), probablemente no es importante para la historia. Pero si un actor cambia de postura, hace gestos o reacciona (tiene "variación"), ¡ese es el protagonista!

🔍 ¿Cómo funciona V2Drop en la vida real?

  1. Observa el "movimiento": En lugar de mirar dónde está el actor (su posición), V2Drop mira cuánto cambia la información de cada trozo de imagen a medida que el modelo lo procesa.

    • Si un trozo de la imagen (por ejemplo, el fondo borroso de un árbol) no cambia nada al pasar por las capas del modelo, V2Drop dice: "Este trozo es un 'perezoso'. No aporta nada nuevo, ¡puedo borrarlo!".
    • Si un trozo (por ejemplo, la cara del jugador o el texto en una botella) cambia mucho y se vuelve más claro o detallado, V2Drop dice: "¡Este es vital! ¡Quédate!".
  2. Limpieza progresiva: No lo hace de golpe. Es como si el detective fuera limpiando la mesa poco a poco mientras trabaja, tirando solo lo que no necesita en cada paso, hasta que queda solo lo esencial.

  3. Sin reglas tontas: A diferencia de los métodos viejos que siempre guardaban la parte final de la imagen (posición), V2Drop es justo. Si la respuesta está en la esquina superior izquierda, la guarda. Si está abajo, la guarda. No le importa dónde esté, solo importa si es importante.

🚀 ¿Qué logran con esto?

Gracias a esta "limpieza inteligente":

  • Son más rápidos: El modelo deja de analizar la basura (los trozos que no cambian). En las pruebas, las respuestas de imágenes fueron 1.3 veces más rápidas y los videos casi 2 veces más rápidos.
  • Ahorran memoria: Al no tener que guardar tantos trozos, el ordenador no se satura.
  • Siguen siendo listos: A pesar de tirar mucha información "aburrida", el modelo sigue respondiendo casi tan bien como si hubiera visto todo (mantiene el 94% - 98% de su inteligencia original).

En resumen

V2Drop es como tener un asistente personal que sabe filtrar el ruido. En lugar de leer todo el periódico palabra por palabra (incluso los anuncios de fondo), el asistente salta directamente a las noticias importantes que realmente cambian la historia, ignorando lo que es estático y aburrido.

Esto permite que las inteligencias artificiales vean videos largos y fotos gigantes sin tardar una eternidad, haciendo que la tecnología sea más rápida y accesible para todos.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →