EvoPrune: Early-Stage Visual Token Pruning for Efficient MLLMs

Il paper presenta EvoPrune, un metodo di pruning dei token visivi eseguito durante la fase di codifica nei MLLM che, riducendo i costi computazionali, garantisce un raddoppio della velocità di inferenza con una minima perdita di prestazioni.

Yuhao Chen, Bin Shan, Xin Ye, Cheng Chen

Pubblicato 2026-03-05
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

🎬 Il Problema: L'Intelligenza Artificiale che "mangia" troppe risorse

Immagina di avere un genio della lampada (l'Intelligenza Artificiale Multimodale, o MLLM) a cui devi raccontare una storia.

  • Se gli mostri una foto, è facile: lui la guarda e ti risponde subito.
  • Ma se gli mostri un video di un'ora o una foto ad altissima risoluzione, il genio deve analizzare milioni di piccoli pezzi (chiamati "token visivi") per capire cosa succede.

Il problema è che, per fare questo, il genio deve prima leggere e processare tutti questi pezzi uno per uno (la fase di "codifica visiva") prima di poter iniziare a parlare. È come se, per rispondere a una domanda su un film, dovessi prima leggere ogni singolo fotogramma del film a velocità normale, anche se molti fotogrammi sono identici (ad esempio, uno sfondo statico). Questo rende tutto lentissimo e consuma molta energia, rendendo impossibile usare queste intelligenze in tempo reale (ad esempio, su un telefono o per analizzare video dal vivo).

✂️ La Soluzione Vecchia: Tagliare alla fine

Fino ad oggi, i ricercatori provavano a velocizzare le cose tagliando i pezzi in eccesso dopo che il genio aveva già finito di leggere tutto il film.

  • L'analogia: È come se tu avessi già cucinato un enorme piatto di pasta per 100 persone, e solo dopo averlo cucinato decidessi di buttarne via metà perché ti sei accorto che erano troppe. Hai sprecato tempo e gas per cucinare quella pasta che poi hai buttato!
  • Il risultato: Si risparmia un po' di tempo alla fine, ma la parte più pesante (la cottura, ovvero l'analisi dell'immagine) rimane comunque lenta.

🚀 La Novità: EvoPrune (Il Taglio Intelligente)

EvoPrune è un nuovo metodo che cambia le regole del gioco. Invece di aspettare la fine, decide di tagliare i pezzi inutili mentre il genio sta ancora "guardando" il video.

Ecco come funziona, passo dopo passo, con un'analogia culinaria:

1. Il Cuoco e gli Ingredienti (I Token)

Immagina che ogni piccolo pezzo dell'immagine sia un ingrediente. Alcuni sono fondamentali (il pomodoro, la mozzarella), altri sono ridondanti (un altro pezzetto di pomodoro identico al primo, o un granello di sale invisibile).

2. La Strategia dei Tre Filtri

EvoPrune non taglia a caso. Mentre il genio analizza l'immagine, applica tre filtri intelligenti per decidere cosa tenere e cosa scartare subito:

  • Somiglianza (Il "Copione"): Se due pezzi di immagine sono quasi identici (come due foglie vicine sullo stesso ramo), EvoPrune dice: "Non serve tenerli entrambi, sono la stessa cosa. Uniscili in uno solo!". È come dire al cuoco: "Non servono 100 pomodori, ne basta uno grande che li rappresenta tutti".
  • Diversità (Il "Sapore"): Se un pezzo è unico e speciale (come un peperoncino rosso in mezzo a tutto il verde), EvoPrune lo protegge. Dice: "Questo è diverso dagli altri, non lo toccare, altrimenti perdi il sapore del piatto!".
  • Attenzione (Il "Faro"): Il genio guarda l'immagine con i suoi "occhi" (l'attenzione). Se i suoi occhi si fissano su un oggetto importante (un viso, un'auto che si muove), EvoPrune dice: "Quello è importante! Non toccarlo mai!".

3. Il Risultato: Un Video più Leggero

Invece di processare 1.000 pezzi, il genio ne processa solo 100, ma i 100 scelti contengono tutta l'informazione importante.

  • Vantaggio: Il genio non deve più "cuocere" (processare) i pezzi inutili. Risparmia tempo, energia e memoria.
  • Efficienza: Il paper mostra che con EvoPrune, l'analisi dei video diventa due volte più veloce (2x) con una perdita di qualità quasi impercettibile (meno dell'1%).

🌟 Perché è così importante?

Prima, se volevi analizzare un video in tempo reale, l'IA era troppo lenta. Con EvoPrune:

  • È come passare da un camion lento a una Ferrari: L'IA può analizzare video lunghi o immagini ad alta risoluzione in tempo reale.
  • Funziona ovunque: Può essere usata su telefoni o dispositivi piccoli, non solo nei supercomputer.
  • Non serve riaddestrare: È come un "filtro" che puoi attaccare a qualsiasi IA esistente senza doverla ricostruire da zero.

In sintesi

EvoPrune è come un assistente molto sveglio che, mentre tu mostri un video all'IA, le sussurra: "Ehi, guarda solo qui, qui e qui. Quella parte là è noiosa e uguale a questa, saltiamola!". In questo modo, l'IA risponde velocemente, senza perdere il senso della storia, rendendo possibile l'uso di queste tecnologie potenti nella vita di tutti i giorni.