Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering

Il paper propone MoB, un metodo di pruning dei token visivi basato sulla teoria della copertura multi-obiettivo che risolve il compromesso tra allineamento e preservazione visiva garantendo prestazioni superiori e scalabilità lineare nei modelli MLLM.

Yangfu Li, Hongjian Zhan, Tianyi Chen, Qi Liu, Yue Lu

Pubblicato 2026-03-05
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un enorme archivio fotografico (le immagini) e un libro di istruzioni (il testo o "prompt") che ti chiede di trovare qualcosa di specifico. Per capire l'immagine, un'intelligenza artificiale (come un modello linguistico multimodale) deve guardare ogni singolo pixel, trasformandolo in migliaia di piccoli "biglietti" chiamati token.

Il problema? Ci sono troppi biglietti. Guardare tutti è lento, costoso e spesso inutile, perché molti sono ridondanti (come guardare 1000 volte lo stesso cielo blu in una foto).

Fino a oggi, i ricercatori hanno provato a risolvere questo problema in due modi:

  1. Salvare l'immagine: Tenere i biglietti che mostrano meglio l'immagine (es. un gatto, un paesaggio).
  2. Ascoltare il testo: Tenere solo i biglietti che rispondono alla domanda specifica (es. se chiedi "dov'è il gatto?", tieni solo i biglietti del gatto).

Il problema è che mescolare questi due approcci spesso non funziona bene. A volte è meglio concentrarsi sull'immagine, a volte sulla domanda. È come cercare di guidare un'auto guardando sia la strada che il navigatore: se non sai quale dei due è più importante in quel momento, rischi di fare un incidente.

La soluzione: MoB (Multi-Objective Balanced Covering)

Gli autori di questo paper hanno creato un metodo intelligente chiamato MoB. Ecco come funziona, usando un'analogia semplice:

1. Il problema del "1 + 1 < 1"

Immagina di dover preparare un picnic (l'output dell'AI) con un cestino limitato (il budget di calcolo).

  • Se metti solo panini (salvaguardia visiva), il picnic è bello ma non sai cosa bere.
  • Se metti solo bibite (allineamento al testo), hai sete ma non hai da mangiare.
  • Se provi a mettere un po' di tutto a caso, il cestino si riempie di cose inutili e non hai spazio per le cose importanti.

I vecchi metodi provavano a mettere tutto insieme in modo fisso, ma spesso finivano per avere un cestino disordinato.

2. La scoperta: "L'Intensità della Relazione"

Gli autori hanno scoperto che ogni domanda e ogni immagine hanno un livello di connessione diverso.

  • Connessione Debole: Immagina di chiedere "Che tempo fa?" guardando una foto di un deserto. La domanda è generica, l'immagine è vasta. Qui devi guardare tutta l'immagine per capire il contesto.
  • Connessione Forte: Immagina di chiedere "Dov'è il cane rosso?" in una foto di un parco affollato. La domanda è specifica. Qui devi ignorare il resto e guardare solo il cane.

I vecchi metodi trattavano tutte le foto allo stesso modo. MoB, invece, capisce prima la relazione tra domanda e immagine.

3. Come funziona MoB (Il Gioco del "Baratto")

MoB divide il cestino del picnic in due zone:

  • Zona A (Per la domanda): Mette qui i biglietti che rispondono esattamente alla domanda.
  • Zona B (Per l'immagine): Mette qui i biglietti che descrivono il resto della scena.

La magia sta nel baratto dinamico:

  • Se la domanda è generica (connessione debole), MoB dice: "Ok, diamo più spazio alla Zona B (l'immagine) e meno alla Zona A".
  • Se la domanda è specifica (connessione forte), MoB dice: "Ok, diamo più spazio alla Zona A (la domanda) e meno alla Zona B".

Non c'è bisogno di riaddestrare il modello o di fare calcoli complicati. È come avere un custode intelligente che, prima di chiudere il cestino, decide quanti panini e quante bibite mettere in base a cosa stai chiedendo.

Perché è rivoluzionario?

  • Velocità: Taglia fino all'89% dei "biglietti" inutili, rendendo l'AI molto più veloce (fino a 1,5 volte più veloce).
  • Precisione: Non perde quasi nessuna informazione importante. In molti test, MoB mantiene il 96-97% della capacità del modello originale, anche con pochissimi token.
  • Flessibilità: Funziona su qualsiasi modello moderno (come LLaVA o Qwen) e su qualsiasi compito, dalle domande su immagini statiche fino ai video.

In sintesi

MoB è come un chef esperto che, invece di buttare ingredienti a caso, sa esattamente quanto sale (testo) e quanto pepe (immagine) mettere in una ricetta in base al gusto del cliente. Non serve una nuova cucina (nuovo modello), basta un nuovo modo di organizzare gli ingredienti.

Il risultato? Un'intelligenza artificiale che vede più velocemente, pensa meglio e non si perde nei dettagli inutili.