HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit

Het paper introduceert HiDrop, een innovatief framework voor Multimodal Large Language Models dat door middel van late injectie, concaaf piramide-pruning en vroege exit ongeveer 90% van de visuele tokens verwijdert zonder prestatieverlies, waardoor de training tot 1,72 keer sneller verloopt.

Hao Wu, Yingqi Fan, Jinyang Dai, Junlong Tong, Yunpu Ma, Xiaoyu Shen

Gepubliceerd 2026-03-02
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

🎬 De Film van de AI: Waarom HiDrop de Regisseur is

Stel je voor dat een Multimodaal Groot Taalmodel (MLLM) als een regisseur is die een film draait. Deze regisseur krijgt twee soorten informatie:

  1. Tekst: Het script (kort en krachtig).
  2. Beeld: Duizenden foto's van de scène (zeer gedetailleerd, maar vaak overbodig).

Het probleem is dat de computer (de "camera") al die duizenden foto's één voor één moet bekijken. Dat kost enorm veel tijd en energie, net als het bekijken van elke pixel van een film in slow-motion. Bestaande methoden proberen dit op te lossen door simpelweg "snel te prunen" (weg te gooien) van de foto's, maar ze gooien vaak de verkeerde foto's weg of gooien ze weg op het verkeerde moment.

HiDrop is een nieuwe, slimme regisseur die de film op een veel efficiëntere manier draait, zonder de kwaliteit te verliezen. HiDrop doet dit met drie slimme trucs:

1. De "Late Injection" (De late gast)

Het probleem: In de eerste paar lagen van het model (de "shallow layers") kijkt de AI naar de tekst en de beelden, maar ze praten nog niet echt met elkaar. Het is alsof de regisseur de acteurs laat wachten in de kleedkamer terwijl hij het script leest. Bestaande methoden laten de beelden hier al doorheen komen, wat tijd kost voor niets.

De HiDrop-oplossing: HiDrop zegt: "Wacht even! Laat de beelden niet binnenkomen totdat het echt nodig is."

  • Analogie: Stel je voor dat je een vergadering hebt. De eerste 10 minuten bespreek je alleen de agenda (tekst). De experts met de foto's (beelden) hoeven pas binnen te komen op het moment dat je echt over de foto's gaat praten.
  • Het resultaat: De computer hoeft de eerste paar lagen niet te belasten met beeldverwerking. Dat bespaart enorm veel energie.

2. De "Concave Pyramid Pruning" (De slimme schaar)

Het probleem: Zodra de beelden binnen zijn, beginnen ze te "praten" met de tekst. In het midden van het proces (de "middle layers") zijn er duizenden beelden, maar slechts een paar zijn echt belangrijk. Bestaande methoden gooien er vaak op een starre manier een stuk af (bijvoorbeeld: "gooi altijd 10% weg per laag"). Dat is als een tuinschaar die elke keer precies hetzelfde stukje afknipt, ongeacht of je een tak of een bloem knipt.

De HiDrop-oplossing: HiDrop gebruikt een Concave Pyramid (een piramide die aan de onderkant breed is en snel smaller wordt, maar dan op een slimme manier).

  • Analogie: Stel je voor dat je een grote berg zand (alle beelden) moet verkleinen tot een klein hoopje. HiDrop gooit eerst heel snel een grote hoeveelheid zand weg (want veel is duidelijk onbelangrijk), maar wordt daarna heel voorzichtig en selecteert alleen de allerbeste zandkorrels.
  • De "Differentiable Top-K": HiDrop gebruikt een slimme schaar die "leert" welke korrels belangrijk zijn. In plaats van hard te knippen (wat fouten maakt), maakt hij zachte keuzes tijdens het trainen, zodat hij precies weet wat hij moet bewaren.

3. De "Early Exit" (Het vroege vertrek)

Het probleem: Na het midden van het proces is de AI klaar met het begrijpen van de beelden. De rest van de film is puur taal en redenering. Toch blijven bestaande methoden de beelden meenemen tot het einde, alsof je een zware koffer blijft dragen nadat je al bij je bestemming bent aangekomen.

De HiDrop-oplossing: HiDrop laat de beelden vóór het einde van de film vertrekken.

  • Analogie: Je bent met een groep vrienden op reis. Zodra jullie de bestemming hebben bereikt en de foto's hebben gemaakt, hoeft de fotograaf niet mee naar het restaurant. Hij kan al eerder vertrekken. De rest van de reis (het redeneren en antwoorden) doen jullie alleen nog maar met jullie hersenen (de tekst).
  • Het resultaat: De laatste lagen van de AI zijn veel sneller omdat ze geen zware beelden hoeven te verwerken.

🚀 Wat levert dit op?

Door deze drie stappen te combineren, gebeurt er iets magisch:

  1. Snelheid: De AI is 1,72 keer sneller in het trainen.
  2. Efficiëntie: HiDrop gooit ongeveer 90% van de beeld-pixels weg (van 576 naar slechts 64 belangrijke tokens), maar de AI wordt niet dommer.
  3. Kwaliteit: De resultaten op tests (zoals het beantwoorden van vragen over afbeeldingen) blijven bijna hetzelfde als het originele, trage model.

📝 Samenvatting in één zin

HiDrop is als een slimme regisseur die de beelden pas laat binnenkomen als ze nodig zijn, in het midden van de film snel de onbelangrijke beelden weggooit, en de beelden laat vertrekken zodra het verhaal klaar is, waardoor de film veel sneller en goedkoper wordt gemaakt zonder dat het verhaal verandert.

De code is openbaar gemaakt, zodat iedereen deze slimme regisseur kan gebruiken!

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →