HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit

Each language version is independently generated for its own context, not a direct translation.

🎬 De Film van de AI: Waarom HiDrop de Regisseur is

Stel je voor dat een Multimodaal Groot Taalmodel (MLLM) als een regisseur is die een film draait. Deze regisseur krijgt twee soorten informatie:

Tekst: Het script (kort en krachtig).
Beeld: Duizenden foto's van de scène (zeer gedetailleerd, maar vaak overbodig).

Het probleem is dat de computer (de "camera") al die duizenden foto's één voor één moet bekijken. Dat kost enorm veel tijd en energie, net als het bekijken van elke pixel van een film in slow-motion. Bestaande methoden proberen dit op te lossen door simpelweg "snel te prunen" (weg te gooien) van de foto's, maar ze gooien vaak de verkeerde foto's weg of gooien ze weg op het verkeerde moment.

HiDrop is een nieuwe, slimme regisseur die de film op een veel efficiëntere manier draait, zonder de kwaliteit te verliezen. HiDrop doet dit met drie slimme trucs:

1. De "Late Injection" (De late gast)

Het probleem: In de eerste paar lagen van het model (de "shallow layers") kijkt de AI naar de tekst en de beelden, maar ze praten nog niet echt met elkaar. Het is alsof de regisseur de acteurs laat wachten in de kleedkamer terwijl hij het script leest. Bestaande methoden laten de beelden hier al doorheen komen, wat tijd kost voor niets.

De HiDrop-oplossing: HiDrop zegt: "Wacht even! Laat de beelden niet binnenkomen totdat het echt nodig is."

Analogie: Stel je voor dat je een vergadering hebt. De eerste 10 minuten bespreek je alleen de agenda (tekst). De experts met de foto's (beelden) hoeven pas binnen te komen op het moment dat je echt over de foto's gaat praten.
Het resultaat: De computer hoeft de eerste paar lagen niet te belasten met beeldverwerking. Dat bespaart enorm veel energie.

2. De "Concave Pyramid Pruning" (De slimme schaar)

Het probleem: Zodra de beelden binnen zijn, beginnen ze te "praten" met de tekst. In het midden van het proces (de "middle layers") zijn er duizenden beelden, maar slechts een paar zijn echt belangrijk. Bestaande methoden gooien er vaak op een starre manier een stuk af (bijvoorbeeld: "gooi altijd 10% weg per laag"). Dat is als een tuinschaar die elke keer precies hetzelfde stukje afknipt, ongeacht of je een tak of een bloem knipt.

De HiDrop-oplossing: HiDrop gebruikt een Concave Pyramid (een piramide die aan de onderkant breed is en snel smaller wordt, maar dan op een slimme manier).

Analogie: Stel je voor dat je een grote berg zand (alle beelden) moet verkleinen tot een klein hoopje. HiDrop gooit eerst heel snel een grote hoeveelheid zand weg (want veel is duidelijk onbelangrijk), maar wordt daarna heel voorzichtig en selecteert alleen de allerbeste zandkorrels.
De "Differentiable Top-K": HiDrop gebruikt een slimme schaar die "leert" welke korrels belangrijk zijn. In plaats van hard te knippen (wat fouten maakt), maakt hij zachte keuzes tijdens het trainen, zodat hij precies weet wat hij moet bewaren.

3. De "Early Exit" (Het vroege vertrek)

Het probleem: Na het midden van het proces is de AI klaar met het begrijpen van de beelden. De rest van de film is puur taal en redenering. Toch blijven bestaande methoden de beelden meenemen tot het einde, alsof je een zware koffer blijft dragen nadat je al bij je bestemming bent aangekomen.

De HiDrop-oplossing: HiDrop laat de beelden vóór het einde van de film vertrekken.

Analogie: Je bent met een groep vrienden op reis. Zodra jullie de bestemming hebben bereikt en de foto's hebben gemaakt, hoeft de fotograaf niet mee naar het restaurant. Hij kan al eerder vertrekken. De rest van de reis (het redeneren en antwoorden) doen jullie alleen nog maar met jullie hersenen (de tekst).
Het resultaat: De laatste lagen van de AI zijn veel sneller omdat ze geen zware beelden hoeven te verwerken.

🚀 Wat levert dit op?

Door deze drie stappen te combineren, gebeurt er iets magisch:

Snelheid: De AI is 1,72 keer sneller in het trainen.
Efficiëntie: HiDrop gooit ongeveer 90% van de beeld-pixels weg (van 576 naar slechts 64 belangrijke tokens), maar de AI wordt niet dommer.
Kwaliteit: De resultaten op tests (zoals het beantwoorden van vragen over afbeeldingen) blijven bijna hetzelfde als het originele, trage model.

📝 Samenvatting in één zin

HiDrop is als een slimme regisseur die de beelden pas laat binnenkomen als ze nodig zijn, in het midden van de film snel de onbelangrijke beelden weggooit, en de beelden laat vertrekken zodra het verhaal klaar is, waardoor de film veel sneller en goedkoper wordt gemaakt zonder dat het verhaal verandert.

De code is openbaar gemaakt, zodat iedereen deze slimme regisseur kan gebruiken!

Each language version is independently generated for its own context, not a direct translation.

Hieronder volgt een gedetailleerde technische samenvatting van het paper "HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit", gepubliceerd bij ICLR 2026.

Probleemstelling

Multimodale Grootte Taalmodellen (MLLM's) kampen met een aanzienlijke rekenkundige inefficiëntie veroorzaakt door de verwerking van visuele tokens. Omdat visuele encoders vaak veel meer tokens genereren dan tekst (vanwege de hogere informatiedichtheid van afbeeldingen), schaalt de rekentijd van de self-attention mechanismen kwadratisch met het aantal tokens ( $O(N^2)$ ).

Bestaande oplossingen voor progressieve visuele token-pruning (zoals FastV, PDrop) hebben twee fundamentele tekortkomingen:

Misinterpretatie van de functies van de lagen: Bestaande methoden gaan er ten onrechte van uit dat de vroeke (shallow) lagen van het LLM cruciaal zijn voor multimodale integratie en daarom bewaard moeten worden.
Rigide plannen: Ze gebruiken starre, uniforme pruning-schema's (bijv. lineaire of convexe afname) die niet inspelen op de niet-uniforme stroom van visuele informatie door het model. Dit leidt tot suboptimale trade-offs tussen efficiëntie en nauwkeurigheid.

Methodologie: HiDrop Framework

HiDrop (Hierarchical Vision Token Dropping) is een raamwerk dat token-pruning afstemt op de werkelijke hiërarchische dynamiek van MLLM's. De auteurs hebben de interne dynamiek van het model geanalyseerd en drie distincte fasen geïdentificeerd, waarvoor specifieke strategieën zijn ontwikkeld:

1. Analyse van de LLM-dynamiek

Shallow Layers (Propagators): De vroege lagen fungeren als passieve geleiders. Visuele tokens ondergaan hier nauwelijks transformatie en er is nog geen significante kruismodale interactie (visie + taal).
Middle Layers (Sparse Fusion Hubs): Dit is het kerngebied waar actieve fusie plaatsvindt. Visuele informatie wordt geïntegreerd met tekst, maar er is een hoge mate van redundantie; slechts een klein aantal visuele tokens is essentieel voor de betekenisdracht.
Deep Layers (Language-Dominant Reasoning): Na de fusie fase overheerst de taalredenering. De directe invloed van visuele tokens neemt af tot het punt waarop ze overbodig worden voor de conclusie.

2. Kerninnovaties

Op basis van deze inzichten introduceert HiDrop drie mechanismen:

Late Injection (Voor de Shallow Layers):
In plaats van visuele tokens vanaf laag 1 te verwerken, omzeilt HiDrop de eerste $L_{inj}-1$ lagen volledig. Visuele tokens worden pas ingebracht op het moment dat de actieve fusie begint (de "Late Injection" punt). Dit elimineert de rekenkosten voor passieve lagen.
- Implementatie: De tekst-stroom loopt door tot injectie-laag, waarna visuele tokens worden gekoppeld.
Concave Pyramid Pruning (Voor de Middle Layers):
In het fusie-gebied wordt een agressieve, niet-uniforme pruning toegepast. Het schema versnelt de token-reductie aan het begin van de fusie en vertraagt deze later, vormend een "concave piramide".
- ILVAS (Inter-Layer Visual Attention Similarity): Een metriek om de beste lagen te identificeren voor pruning. Lagen met een hoge stabiliteit in de aandachtverdeling (waar de belangrijkste tokens consistent blijven) worden geselecteerd als "filterlagen".
- Differentiable Top-K: In plaats van een harde, niet-differentieerbare Top-K selectie, gebruikt HiDrop een differentieerbare operator. Dit zorgt voor een gladde, leerbare selectie van de meest informatieve tokens, wat de prestaties behoudt tijdens het trainen.
Early Exit (Voor de Deep Layers):
Zodra de fusie voltooid is en het model overgaat naar taalgedreven redenering, worden alle resterende visuele tokens verwijderd. De forward pass gaat door met alleen de tekst-stroom.
- Implementatie: Dit wordt bepaald op het punt waar de prestaties plateauën bij het maskeren van visuele tokens in diepere lagen.

3. Technische Implementatie voor Efficiëntie

Om ervoor te zorgen dat dynamische tokenreductie geen verborgen overhead introduceert, introduceert HiDrop:

Persistent Positional Encoding: Tokens behouden hun oorspronkelijke posities-ID's (RoPE indices) over de lagen heen, ondanks injectie en verwijdering, om positiesynchronisatieproblemen te voorkomen.
FlashAttention-Compatibiliteit: Token-selectie wordt gescheiden van de hoofd-attention berekening via een lichte hulp-pass, waardoor de efficiënte FlashAttention-kernen intact blijven.
Parallelle Ontkoppeling: Visuele berekeningen (encoder + projector) worden parallel uitgevoerd met de tekst-only prefill, waarna de visuele KV-tensors worden gecached en pas bij injectie worden samengevoegd.

Resultaten

De experimenten zijn uitgevoerd op LLaVA-1.5 met verschillende backbones (MobileLLaMA-2.7B, Vicuna-7B, Vicuna-13B) en 11 benchmarks (o.a. MME, MMBench, GQA, MMStar).

Prestaties: HiDrop kan ongeveer 90% van de visuele tokens verwijderen (reduceren van 576 naar ~64 tokens) terwijl het 98,3% van de originele prestaties behoudt.
Vergelijking met SOTA: HiDrop presteert significant beter dan state-of-the-art methoden zoals PDrop en FastV. Bij een pruning-ratio van 88,9% behaalt HiDrop een gemiddelde verbetering van 4,1% ten opzichte van PDrop.
Efficiëntie:
- Training: Versnelling van 1,72x (reductie van 159,3 naar 94,4 GPU-uren voor LLaVA-7B).
- Inferentie: Een reductie van 88,9% in FLOPs voor visuele tokens.
- Latentie: De prefill-latentie daalt van 63,6 ms naar 32,6 ms (en tot 28,8 ms met parallelle decoupling).

Bijdragen en Significantie

Diagnose van Fundamentele Zwaktes: Het paper weerlegt de bestaande aanname dat vroege lagen essentieel zijn voor visuele integratie, en toont aan dat ze passief zijn. Het identificeert ook dat uniforme pruning-schema's inefficiënt zijn.
HiDrop Framework: Introductie van een nieuw paradigma dat token-reductie synchroniseert met de hiërarchische verwerking van het model via Late Injection, Concave Pyramid Pruning en Early Exit.
State-of-the-Art Efficiëntie: Het bereiken van een nieuwe SOTA in de trade-off tussen efficiëntie en nauwkeurigheid, met een aanzienlijke versnelling van zowel training als inferentie zonder kwaliteitsverlies.
Inzicht in Multimodale Fusie: Het werk biedt waardevolle inzichten in hoe MLLM's visuele informatie verwerken, wat de weg vrijmaakt voor meer principes-gedreven en schaalbare multimodale architecturen.

Samenvattend biedt HiDrop een robuuste oplossing voor de rekenkundige bottleneck in MLLM's door slimme, dynamische tokenbeheerstrategieën toe te passen die gebaseerd zijn op de interne werking van het model, in plaats van op handmatige heuristieken.