What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Immagina che un Modello Linguistico Multimodale (MLLM) sia come un chef stellato molto intelligente, capace di cucinare piatti deliziosi (rispondere a domande) basandosi su due ingredienti principali: le parole (il testo) e le immagini (la vista).

Fino a poco tempo fa, pensavamo che quando questo chef guardava una foto, la vedesse come un mosaico perfetto: ogni tessera del mosaico (chiamata "token visivo") conteneva un pezzo importante dell'immagine, come un pezzo di un puzzle che doveva essere assemblato.

Questo studio, però, ha scoperto che la realtà è molto diversa e, in un certo senso, molto più "pigra" di quanto pensassimo. Ecco cosa hanno scoperto, spiegato con parole semplici:

1. Il Mosaico è pieno di "Tasselli Vuoti" (Sparsità)

Quando l'immagine entra nella mente dello chef, non tutti i tasselli sono uguali. Gli scienziati hanno scoperto che i tasselli si dividono in tre gruppi, come se fossero tre tipi di ospiti a una festa:

I "Tasselli Morti" (Dead Tokens): Sono come i tasselli grigi e noiosi del bordo del mosaico. Non raccontano nulla. Se li togli, l'immagine non cambia. In realtà, sono così inutili che toglierli rende lo chef più veloce e a volte persino più preciso, perché non si distrae con spazzatura inutile. Rappresentano circa il 30% dei tasselli!
I "Tasselli Affamati" (Sink Tokens): Sono come i tavoli vuoti al centro della festa. Attirano l'attenzione dello chef (il modello) solo per abitudine, per mantenere l'ordine, ma non contengono informazioni sull'immagine. Sono come un "segnaposto" strutturale. Anche questi possono essere rimossi senza problemi.
I "Tasselli Vivi" (Alive Tokens): Questi sono gli ospiti importanti. Sono circa il 60% dei tasselli e contengono davvero il significato dell'immagine (il colore di un'auto, la forma di un gatto, le lettere di un cartello). Sono gli unici che contano davvero.

La metafora: Immagina di ricevere una lettera piena di fogli. Il 30% sono fogli bianchi (morti), il 10% sono fogli con scritto "fai attenzione" ma senza contenuto (affamati), e solo il 60% contiene la storia vera. Fino ad ora, lo chef leggeva tutti i fogli. Ora sappiamo che può saltare quelli inutili e concentrarsi solo sulla storia.

2. L'Immagine è già "Cotta" prima di Arrivare allo Chef

C'è un'altra sorpresa: i "Tasselli Vivi" arrivano già pronti all'uso.
Pensavamo che lo chef dovesse lavorare sodo per trasformare i pixel dell'immagine in concetti comprensibili (come dire: "questo è un cane"). Invece, lo studio scopre che quando questi tasselli arrivano, sono già "parlanti". Contengono già informazioni ricche e dettagliate (come "rosso", "gatto", "scritto").

È come se l'immagine arrivasse in cucina già preparata e tagliata a pezzi perfetti, invece che come un intero maiale da macellare. Lo chef non ha bisogno di lavorarla molto; può quasi subito iniziare a cucinare (rispondere).

3. Non serve cucinare tutto il tempo (Ridondanza)

Lo studio ha anche scoperto che lo chef non ha bisogno di usare tutte le sue "stufe" (i livelli profondi del cervello artificiale) per capire l'immagine.

Le prime stufe (i livelli iniziali) fanno poco o nulla, e a volte addirittura confondono le cose (ad esempio, confondono il colore di un oggetto con lo sfondo).
La vera magia avviene a metà strada.

La metafora: È come se tu dovessi leggere un libro. Non hai bisogno di rileggere la prima pagina dieci volte per capire la trama. Se salti le prime pagine ripetitive e vai dritto al cuore della storia (i livelli intermedi), capisci tutto meglio e più velocemente.

4. Cosa ci insegna tutto questo? (Il Futuro)

Questa ricerca è come trovare un manuale di istruzioni per risparmiare energia.
Se sappiamo che:

Molti tasselli sono spazzatura (li possiamo buttare via).
L'immagine arriva già comprensibile (non serve lavorarla troppo).
Possiamo saltare i primi passaggi inutili (iniettare l'immagine a metà del processo).

Allora possiamo costruire chef molto più veloci, più economici e più chiari. Possiamo creare intelligenze artificiali che non sprecano energia a guardare cose che non servono, rendendo i sistemi più intelligenti e meno "confusi".

In sintesi: Le immagini per le intelligenze artificiali sono piene di "rumore" e ripetizioni inutili. Se impariamo a filtrare questo rumore e a saltare i passaggi inutili, le macchine diventeranno molto più efficienti, proprio come un cuoco che impara a non sprecare ingredienti.

What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

1. Il Mosaico è pieno di "Tasselli Vuoti" (Sparsità)

2. L'Immagine è già "Cotta" prima di Arrivare allo Chef

3. Non serve cucinare tutto il tempo (Ridondanza)

4. Cosa ci insegna tutto questo? (Il Futuro)

1. Il Problema

2. Metodologia

3. Scoperte Chiave e Risultati

A. Tripartizione dei Token Visivi

B. Ridondanza del Calcolo Visivo Interno

C. Ottimizzazione dell'Iniezione

4. Contributi Principali

5. Significato e Implicazioni

What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

1. Il Mosaico è pieno di "Tasselli Vuoti" (Sparsità)

2. L'Immagine è già "Cotta" prima di Arrivare allo Chef

3. Non serve cucinare tutto il tempo (Ridondanza)

4. Cosa ci insegna tutto questo? (Il Futuro)

1. Il Problema

2. Metodologia

3. Scoperte Chiave e Risultati

A. Tripartizione dei Token Visivi

B. Ridondanza del Calcolo Visivo Interno

C. Ottimizzazione dell'Iniezione

4. Contributi Principali

5. Significato e Implicazioni

Articoli simili

DualDynamics: Synergizing Implicit and Explicit Methods for Robust Irregular Time Series Analysis

Robot Collapse: Supply Chain Backdoor Attacks Against VLM-based Robotic Manipulation

ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis

SafePLUG: Empowering Multimodal LLMs with Pixel-Level Insight and Temporal Grounding for Traffic Accident Understanding

Advanced Assistance for Traffic Crash Analysis: An AI-Driven Multi-Agent Approach to Pre-Crash Reconstruction