What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Imagina que un Modelo de Lenguaje Multimodal (MLLM) es como un traductor muy inteligente que intenta entender una foto y contarte una historia sobre ella. Para hacer esto, el modelo primero convierte la foto en una larga lista de "trozos" digitales (llamados tokens visuales) y luego los pasa a su cerebro de lenguaje para que los lea.

La pregunta que se hacen los autores de este paper es: ¿Qué es lo que realmente están "pensando" esos trozos de la foto antes de entrar al cerebro del modelo?

Aquí tienes la explicación sencilla, usando analogías de la vida real:

1. El Gran Descubrimiento: No todos los trozos son iguales

Imagina que la foto es un mapa del tesoro. Tradicionalmente, pensábamos que cada trozo de la foto (cada "token") era una pieza valiosa del mapa. Pero los autores descubrieron que el 40% de esos trozos son basura.

Dividen los trozos en tres grupos, como si fueran invitados a una fiesta:

Los "Huecos" (Sink Tokens): Son como los guardias de seguridad en la puerta. Siempre están ahí, siempre hacen lo mismo, sin importar si en la foto hay un perro, un coche o un paisaje. No traen información de la foto, solo sirven para que la fiesta (el modelo) funcione ordenadamente. Si los quitas, la fiesta sigue igual.
Los "Muertos" (Dead Tokens): Son como los invitados que se quedaron dormidos en el sofá. Están en la foto, pero no dicen nada, no miran nada y no interactúan con nadie. Son puro ruido. De hecho, si los quitas, ¡la fiesta funciona mejor porque hay menos distracciones!
Los "Vivos" (Alive Tokens): ¡Estos son los únicos que importan! Son como los invitados que realmente están bailando y contando historias. Solo representan el 60% de la foto, pero son los únicos que realmente describen el objeto, el color o el texto de la imagen.

La moraleja: La mayoría de la información visual que entra al modelo es redundante. El modelo está cargando con un equipaje innecesario.

2. El Secreto de los "Vivos": Ya saben hablar

Lo más sorprendente es que los "tokens vivos" ya llegan casi listos para hablar.

Imagina que tienes un traductor que recibe notas escritas en un idioma extraño. Normalmente, pensabas que el traductor tenía que trabajar duro para descifrar cada nota. Pero los autores descubrieron que, para la mayoría de las tareas, la nota ya está escrita en un idioma que el traductor entiende perfectamente.

Si la foto tiene un "gato rojo", el token "vivo" ya trae la idea de "gato" y "rojo" empaquetada.
El cerebro del modelo (el LLM) no necesita "pensar" mucho para entenderlo; solo necesita leerlo.

3. El Viaje Innecesario: ¿Por qué dar tantas vueltas?

Aquí viene la parte más divertida. El modelo suele hacer que estos trozos de la foto pasen por muchas capas de procesamiento (como pasar por varios filtros de seguridad o salas de espera) antes de que el cerebro de lenguaje los lea.

Los autores descubrieron que esto es una pérdida de tiempo.

La analogía: Es como si fueras a un restaurante y el camarero te pidiera que te sentaras en la sala de espera, luego en la cocina, luego en el baño, y solo después te llevaran a tu mesa para comer.
El hallazgo: Los "tokens vivos" ya están listos para ser leídos en la mitad del camino. Si los metes directamente en la mitad del cerebro del modelo (saltándose las primeras capas), el modelo funciona igual de bien, e incluso a veces mejor, porque evita que se "ensucien" con información innecesaria.

4. El Error de Color: La trampa del contexto

El estudio también encontró un defecto curioso. A veces, el modelo confunde el color de un objeto con el color de lo que lo rodea.

Ejemplo: Si ves una letra "A" negra sobre un fondo verde, el modelo a veces piensa que la letra es verde.
¿Por qué? Porque el modelo es un poco "perezoso" y mira el color dominante de toda la zona (el fondo) en lugar de enfocarse solo en el objeto. Es como si alguien te preguntara "¿De qué color es tu camisa?" y tú respondieras "Verde" porque estás sentado en un sofá verde, olvidándote de tu camisa roja.

¿Qué significa todo esto para el futuro?

Los autores nos dicen que podemos hacer estos modelos más rápidos, más baratos y más inteligentes haciendo tres cosas simples:

Podar el jardín: Eliminar los "Huecos" y los "Muertos" (el 40% de la basura) antes de que entren al cerebro.
Cortar el camino: No hacer que la información visual pase por todas las capas del modelo; inyectarla directamente en la mitad, donde es más útil.
Entender mejor: Saber que el modelo no necesita "pensar" tanto sobre la imagen porque la imagen ya le llega casi lista.

En resumen: Los modelos actuales están cargando con mucho equipaje innecesario y dando vueltas de más. Si les quitamos la basura y les damos un atajo directo, seguirán siendo genios, pero serán mucho más eficientes.

What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

1. El Gran Descubrimiento: No todos los trozos son iguales

2. El Secreto de los "Vivos": Ya saben hablar

3. El Viaje Innecesario: ¿Por qué dar tantas vueltas?

4. El Error de Color: La trampa del contexto

¿Qué significa todo esto para el futuro?

1. Problema y Motivación

2. Metodología

3. Hallazgos Clave y Contribuciones

A. Tripartición de Tokens Visuales

B. Redundancia en el Procesamiento Interno

C. Benchmark de Multi-Trajectoria

4. Resultados Experimentales

5. Significado e Impacto

What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

1. El Gran Descubrimiento: No todos los trozos son iguales

2. El Secreto de los "Vivos": Ya saben hablar

3. El Viaje Innecesario: ¿Por qué dar tantas vueltas?

4. El Error de Color: La trampa del contexto

¿Qué significa todo esto para el futuro?

1. Problema y Motivación

2. Metodología

3. Hallazgos Clave y Contribuciones

A. Tripartición de Tokens Visuales

B. Redundancia en el Procesamiento Interno

C. Benchmark de Multi-Trajectoria

4. Resultados Experimentales

5. Significado e Impacto

Más como este

Bitboard version of Tetris AI

Multiverse: Language-Conditioned Multi-Game Level Blending via Shared Representation

Concerning Uncertainty -- A Systematic Survey of Uncertainty-Aware XAI

Neuro-Symbolic Learning for Predictive Process Monitoring via Two-Stage Logic Tensor Networks with Rule Pruning

Compliance-Aware Predictive Process Monitoring: A Neuro-Symbolic Approach