HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit

Il paper presenta HiDrop, un framework innovativo che ottimizza l'efficienza dei Modelli Linguistici Multimodali riducendo il 90% dei token visivi tramite iniezione tardiva, potatura piramidale concava e uscita anticipata, mantenendo le prestazioni originali e accelerando l'addestramento di 1,72 volte.

Hao Wu, Yingqi Fan, Jinyang Dai, Junlong Tong, Yunpu Ma, Xiaoyu Shen

Pubblicato 2026-03-02
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

🧠 Il Problema: La "Festa" Troppo Affollata

Immagina che un Modello Linguistico Multimodale (MLLM) sia come un grande chef che sta preparando una ricetta complessa.

  • Il testo sono gli ingredienti principali (pochi, ma essenziali).
  • Le immagini sono un'enorme montagna di verdure, spezie e decorazioni (migliaia di pezzi!).

Il problema è che lo chef deve controllare ogni singolo pezzo di verdura, uno per uno, per capire cosa c'è nell'immagine. Più pezzi ci sono, più tempo impiega e più si stanca. Se l'immagine è ad alta risoluzione, lo chef impiega ore solo per guardare le verdure, rallentando tutto il processo.

🔍 La Scoperta: Non tutti gli ingredienti servono subito

Gli autori di HiDrop hanno osservato come lavora lo chef (il modello) e hanno notato due cose strane che gli altri non avevano visto:

  1. L'ingresso (I primi piani): Quando le verdure arrivano in cucina, lo chef le guarda appena. Non le mescola ancora con le spezie. Le lascia semplicemente passare attraverso il corridoio. È come se le verdure camminassero da sole verso il tavolo principale. Perché farle lavorare subito?
  2. L'uscita (Gli ultimi piani): Una volta che lo chef ha capito l'immagine e l'ha mescolata con il testo, le verdure non servono più. Lo chef inizia a scrivere la ricetta usando solo la sua memoria e il testo. Perché continuare a portare le verdure in cucina se non le usa più?

🚀 La Soluzione: HiDrop (Il "Filtro Intelligente")

HiDrop è come un assistente di cucina super intelligente che riorganizza il lavoro dello chef in tre fasi magiche:

1. L'Iniezione Tardiva (Late Injection) 🚪

Invece di far entrare tutte le verdure nel corridoio fin dall'inizio (dove lo chef le ignora), HiDrop dice: "Aspetta! Non farle entrare finché non siamo nella stanza giusta!".

  • Metafora: Immagina di non far entrare i turisti in un museo finché non arrivano alla sala principale dell'arte. Risparmi spazio e tempo nel corridoio d'ingresso. HiDrop fa entrare le immagini solo quando lo chef è pronto a mescolarle davvero con il testo.

2. La Potatura a Piramide Concava (Concave Pyramid Pruning) ✂️

Una volta che le verdure sono nella stanza principale, HiDrop inizia a buttarne via alcune, ma in modo intelligente.

  • Come funziona: All'inizio della fusione, butta via tante verdure subito (perché molte sono ridondanti, come 100 foglie di insalata che sembrano tutte uguali). Poi, man mano che ci si avvicina alla fine, ne butta via meno, perché quelle rimaste sono le "stelle" dell'immagine (gli occhi, la bocca, l'oggetto importante).
  • L'analogia: È come setacciare la sabbia. All'inizio butti via la sabbia grossa e i sassi (facile e veloce). Alla fine, ti prendi cura di non perdere le piccole perle preziose.

3. L'Uscita Anticipata (Early Exit) 🏃‍♂️

Appena lo chef ha finito di capire l'immagine e inizia a scrivere la ricetta finale, HiDrop dice: "Via! Uscite tutte!".

  • Metafora: È come se, una volta capito il messaggio, i turisti uscissero dal museo per non disturbare lo chef mentre scrive. Lo chef continua a lavorare solo con il testo, diventando velocissimo.

🛠️ I Trucchi Tecnici (Semplificati)

Per far funzionare tutto questo senza creare confusione, HiDrop usa tre trucchi:

  • Etichette Fisse: Anche se butti via le verdure, a quelle che resti dai un'etichetta fissa (posizione) che non cambia mai. Così lo chef non si perde e sa sempre dove sono le cose.
  • Scelta Differenziabile: Invece di dire "butta via il 50% a caso", HiDrop impara quali verdure tenere e quali buttare mentre si allena, come un cuoco che impara a riconoscere gli ingredienti migliori.
  • Lavoro in Parallelo: Mentre lo chef legge il testo, HiDrop prepara le verdure in un'altra stanza. Quando servono, le unisce. Niente attese!

🏆 I Risultati: Velocità e Intelligenza

Grazie a HiDrop:

  • Si eliminano circa il 90% delle immagini (le verdure superflue).
  • Il modello rimane altrettanto intelligente (la ricetta viene scritta benissimo).
  • L'addestramento diventa 1,7 volte più veloce.

In sintesi: HiDrop ha capito che non serve portare tutto il carico di lavoro in ogni momento. Sa quando aspettare, quando pulire e quando lasciare andare, rendendo l'intelligenza artificiale molto più veloce ed efficiente senza perdere la sua "saggezza".

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →