Rethinking Visual Token Reduction in LVLMs Under Cross-Modal Misalignment

El artículo presenta VisionDrop, un marco de poda sin entrenamiento que mejora la eficiencia de los modelos de lenguaje y visión grandes al seleccionar tokens visuales basándose únicamente en la atención intra-modal para evitar las desalineaciones cruzadas que limitan a los métodos anteriores, logrando reducciones significativas en latencia y FLOPs sin sacrificar el rendimiento.

Rui Xu, Yunke Wang, Yong Luo, Bo Du

Publicado 2026-03-03
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un chef de cocina muy inteligente (el modelo de IA) al que le pides que describa una foto de un paisaje.

El problema es que, antes de que el chef pueda cocinar (pensar), un asistente le entrega la foto cortada en miles de pequeños trozos (llamados "tokens visuales"). Si la foto es grande, el asistente le entrega 2.800 trozos. El chef tiene que leer y procesar cada uno de esos trozos antes de poder escribir su respuesta. Esto es como si tuvieras que leer 2.800 páginas de un libro solo para responder una pregunta simple: ¡es lento, cansado y gasta mucha energía!

Los investigadores de este artículo, VisionDrop, se dieron cuenta de que los métodos actuales para reducir estos trozos tienen un defecto grave. Aquí te explico cómo funciona su solución con analogías sencillas:

1. El Problema: "El Chef distraído"

Antes, los métodos intentaban decidir qué trozos de la foto eran importantes basándose en lo que el chef ya había escrito (el texto).

  • La analogía: Imagina que el chef está escribiendo una receta. Si le preguntas: "¿Qué ingredientes son importantes?", el chef podría decir: "Los que mencioné en la última frase".
  • El error: A veces, el chef se distrae o se confunde. Si la pregunta es "¿Qué hay en el cielo?", pero el chef acaba de escribir sobre el suelo, podría ignorar las nubes porque su atención está sesgada hacia lo que acaba de escribir. Además, al mezclar la foto y el texto, el chef pierde la noción de dónde están las cosas en la imagen (la ubicación espacial).

Los autores descubrieron que confiar en el texto para decidir qué partes de la foto guardar es como pedirle a un turista que te guíe por un mapa que él mismo está dibujando en tiempo real: a menudo se equivoca.

2. La Solución: "El Ojo que todo lo ve" (VisionDrop)

En lugar de preguntar al chef qué es importante, VisionDrop le dice al asistente: "Mira solo la foto. Tú decides qué trozos son vitales, sin leer lo que el chef está escribiendo."

Lo hacen de dos formas inteligentes:

  • Selección de los "Estrellas" (Dominant Token Selection):
    Imagina que tienes un equipo de fútbol (la foto). En lugar de preguntar al entrenador (el texto) quién es el mejor jugador, miras a los jugadores y ves quién recibe más pases (atención visual). Si un jugador recibe muchos pases de sus compañeros, es porque es importante. VisionDrop guarda a esos "jugadores estrella" y descarta a los que nadie está mirando.

  • El "Agrupamiento Inteligente" (Contextual Merging):
    A veces, hay trozos de la foto que no son estrellas, pero son útiles para dar contexto (como el césped alrededor de un árbol). En lugar de tirarlos a la basura, VisionDrop los pega con trozos similares.

    • La analogía: Es como hacer un collage. Si tienes 10 trozos de cielo azul muy parecidos, en lugar de guardar los 10, los fusionas en uno solo que representa "el cielo". Así ahorras espacio, pero sigues teniendo la información del color y la textura.

3. El Progreso: "Cortando poco a poco"

No hacen todo el trabajo de una sola vez. Imagina que tienes que reducir una pila de papeles de 1.000 a 100.

  • Método antiguo: Tirar 900 papeles al azar al principio.
  • Método VisionDrop: Van revisando la pila en varias etapas. Primero quitan lo obvio, luego miran de nuevo y quitan más, y así sucesivamente. Esto asegura que, incluso si tienes que reducir la foto a un 5% de su tamaño original, sigas teniendo los detalles más finos y la estructura correcta.

¿Qué lograron?

Gracias a este método, que no necesita volver a entrenar al chef (es "training-free", o sea, gratis y rápido de aplicar):

  • Velocidad: El chef ahora cocina (responde) 2.7 veces más rápido.
  • Eficiencia: Gasta 6 veces menos energía (computación).
  • Calidad: A pesar de usar solo un puñado de trozos de la foto, el chef sigue siendo 95% tan inteligente como antes.

En resumen: VisionDrop es como un editor de video muy listo que, en lugar de preguntar al director qué escenas cortar, mira la película y sabe exactamente qué planos son esenciales y cuáles se pueden fundir, logrando una película corta que se ve igual de bien que la original, pero que se reproduce instantáneamente.