iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models

Each language version is independently generated for its own context, not a direct translation.

Samenvatting van het onderzoek: iLLaVA – Slimmer kijken, sneller denken

Stel je voor dat een kunstmatige intelligentie (AI) als een zeer intelligente, maar soms wat traag werkende detective is. Deze detective moet foto's en video's bekijken om vragen te beantwoorden. Het probleem is dat deze detective vaak te veel "robuust" werkt: hij bekijkt elk klein detail van een foto, zelfs de lege lucht of de saaie achtergrond, alsof het net zo belangrijk is als de dader in de foto. Dit kost enorm veel tijd en energie.

Het nieuwe onderzoek, genaamd iLLaVA, lost dit op met een slimme strategie: "Kijk minder, maar zie meer."

Hier is hoe het werkt, uitgelegd met alledaagse vergelijkingen:

1. Het Probleem: De Overvolle Koffer

Vroeger, en bij veel huidige AI's, wordt een foto opgesplitst in duizenden kleine stukjes (zoals een mozaïek). De AI neemt al deze stukjes mee naar zijn "brein" (het taalmodel) om ze te analyseren.

De analogie: Stel je voor dat je een koffer moet inpakken voor een lange reis. Je pakt niet alleen je kleren, maar ook elke steen, elk zandkorreltje en elke wolk die je op de foto ziet. Je koffer wordt zwaar, je raakt uitgeput en het duurt eeuwen om hem te sluiten.
Het echte probleem: De AI besteedt veel tijd aan het "scannen" van de foto (de camera) én aan het "denken" over de foto (het brein). De meeste bestaande methoden proberen alleen het brein te versnellen door minder stukjes mee te nemen, maar ze vergeten dat de camera zelf ook al veel tijd kwijt is aan het scannen van die overbodige stukjes.

2. De Oplossing: iLLaVA (De Slimme Verpakker)

iLLaVA is een nieuwe methode die twee dingen tegelijk doet:

Versnelt de camera: Het laat de AI al tijdens het scannen van de foto zien welke stukjes echt belangrijk zijn.
Versnelt het brein: Het zorgt dat het brein minder stukjes hoeft te verwerken.

Maar hier is de magische truc: Hergebruik van informatie.

3. De Magische Truc: De "Informatie-Recycling"

Wanneer je minder stukjes van een foto meeneemt, loop je het risico dat je belangrijke details (zoals een klein woordje op een bordje) mist. De oude methoden gooiden die onbelangrijke stukjes gewoon weg.
iLLaVA doet iets anders:

De Analogie: Stel je hebt een grote groep mensen (de foto-pixelstukjes) die een verhaal vertellen. De meeste mensen fluisteren onzin, maar een paar mensen hebben het echte verhaal.
- De oude methode: "Hou alleen de sprekers vast en gooi de rest het raam uit." (Gevaarlijk, want misschien fluisterde iemand anders iets belangrijks).
- iLLaVA's methode: "Houd de belangrijkste sprekers vast. Maar voor de mensen die we toch moeten wegsturen, laten we hun fluisteringen eerst samenvatten in een korte samenvatting en die samenvatting aan de belangrijke sprekers geven."
In technische termen: iLLaVA "smelt" de onbelangrijke stukjes samen tot een paar sterke, samenvattende stukjes. Zo gaat er geen informatie verloren, maar wordt de hoeveelheid werk wel drastisch kleiner.

4. Het Resultaat: Een Snellere, Slimmere AI

Door deze techniek te gebruiken, gebeurt er iets wonderlijks:

Snelheid: De AI is tot 2 keer zo snel in het verwerken van informatie en kan tot 4 keer sneller beginnen met het beantwoorden van vragen.
Geheugen: De AI heeft minder "ruimte" nodig in zijn geheugen (RAM).
De "Grootte" Illusie: Het meest indrukwekkende is dat iLLaVA een groot, zwaar model (zoals een 26 miljard parameter model) zo snel en efficiënt maakt dat het beter presteert dan een klein, licht model (zoals een 8 miljard parameter model), terwijl het toch nog steeds sneller is.
- Vergelijking: Het is alsof je een Formule 1-auto (groot model) uitrust met een lichte carrosserie en een zuinige motor, waardoor hij sneller is dan een kleine hatchback, maar wel nog steeds alle kracht van de Formule 1 heeft.

Conclusie

Kortom, iLLaVA leert de AI om niet blindelings alles te bekijken, maar slim te kiezen wat belangrijk is. Het gooit niets weg, maar "recyclet" de overbodige details tot nuttige samenvattingen. Hierdoor wordt de AI sneller, goedkoper om te draaien en blijft hij net zo slim, of zelfs slimmer dan voorheen.

Dit is een grote stap naar AI die we echt kunnen gebruiken in het dagelijks leven, bijvoorbeeld voor realtime vertalingen van video's of het analyseren van medische scans, zonder dat het systeem vastloopt of dagenlang rekent.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "iLLaVA: An Image Is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models", geschreven in het Nederlands.

Probleemstelling

Grote Vision-Language Modellen (LVLMs) hebben aanzienlijke vooruitgang geboekt, maar kampen met ernstige uitdagingen op het gebied van rekenkracht en resources. De huidige benaderingen om de inferentie-efficiëntie te verbeteren, richten zich bijna uitsluitend op het verminderen van het aantal tokens voor of binnen de Large Language Model (LLM)-fase (bijvoorbeeld door pruning of compressie).

De auteurs identificeren twee kritieke beperkingen in deze bestaande methoden:

Verwaarlozing van de Image Encoder: De beeldencoder (vaak een Vision Transformer) wordt over het hoofd gezien als een grote bottleneck. Deze component vereist aanzienlijke rekentijd en genereert het grootste deel van de input-tokens voor de LLM.
Inefficiënte Token-Reductie: Bestaande methoden die tokens verwijderen (pruning), leiden vaak tot verlies van cruciale informatie, wat de prestaties van het model aantast. Er is geen mechanisme om de nuttige informatie uit verwijderde tokens te behouden.

Het doel van dit onderzoek is om een end-to-end versnelling te realiseren door zowel de image encoder als de LLM gezamenlijk te optimaliseren, in plaats van alleen de LLM te targeten.

Methodologie: iLLaVA

De auteurs stellen iLLaVA (Image Large Language Vision Accelerator) voor, een framework dat een tweestaps-token-merging strategie implementeert. Het kernidee is om redundantie te exploiteren in zowel de encoder als de taalmodel-fase, terwijl waardevolle informatie wordt gered.

1. Tweestaps Token Merging (Two-Stage Token Merging)

In tegenstelling tot eerdere werken die alleen tokens binnen de LLM reduceren, voert iLLaVA token-merging uit in twee fasen:

Fase 1: Image Encoder: Token merging wordt geïntroduceerd tussen de Attention-module en de Feed-Forward Network (FFN) van specifieke blokken in de image encoder. Dit vermindert het aantal visuele tokens voordat ze de projector en de LLM bereiken.
Fase 2: Large Language Model (LLM): Token merging wordt ook toegepast na specifieke blokken binnen de LLM om de reeks van tokens verder te comprimeren tijdens de verwerking.

Door de reductie in de encoder te starten, wordt de rekenlast voor de daaropvolgende LLM-blokken drastisch verlaagd, omdat de LLM minder tokens hoeft te verwerken.

2. Innovatieve Token Merging Strategie

Om prestatieverlies te voorkomen bij het verwijderen van tokens, introduceert iLLaVA een strategie om informatie te "recyclen":

Selectie van Informatieve Tokens: Op basis van attentiescores (attention scores) worden de belangrijkste tokens geselecteerd om behouden te blijven ( $P^i_v$ ).
Recycling van Nuttige Informatie: In plaats van de minder belangrijke tokens direct te verwijderen, worden ze samengevoegd tot een kleiner aantal "recycled tokens" ( $P^c_v$ ). Deze tokens fungeren als clusters die complementaire informatie van de verwijderde tokens samenvoegen via een gewogen som.
Resultaat: Het model behoudt de meest cruciale informatie (via de geselecteerde tokens) en de contextuele nuances (via de gerecyclede tokens), waardoor de totale tokenlengte sterk daalt zonder significante kwaliteitsverlies.

3. Compatibiliteit en Complexiteit

De methode is ontworpen om compatibel te zijn met Flash-Attention. Hoewel Flash-Attention normaal gesproken geen volledige attentiematrix teruggeeft, gebruikt iLLaVA een efficiënte transformatie van cumulatieve attentieweegs om de gemiddelde attentiescores te berekenen zonder extra rekenkosten. De extra rekenkosten voor de merging zelf zijn verwaarloosbaar ( $O(R)$ ) in vergelijking met de totale tokenlengte.

Belangrijkste Bijdragen

End-to-End Versnelling: Het is de eerste methode die de image encoder en de LLM gezamenlijk optimaliseert, wat leidt tot een veel grotere totale versnelling dan alleen LLM-pruning.
Token Recycling Mechanisme: Een nieuwe strategie die nuttige informatie uit "verworpen" tokens redt en samenvoegt, waardoor de prestaties behouden blijven zelfs bij extreme token-reductie.
Efficiëntie vs. Grootte: Het bewijst dat een groter model (bijv. InternVL-2.5 26B) met iLLaVA niet alleen sneller is, maar ook beter presteert dan een kleiner model (bijv. InternVL-2.5 8B) zonder versnelling.
Training-Free: De methode vereist geen extra training van het basismodel; het is een plug-in strategie voor bestaande LVLMs.

Resultaten

De auteurs hebben iLLaVA getest op meer dan 10 beeld- en video-benchmarks (zoals MMMU, MMBench, VideoMME, MLVU) met verschillende token-reductie ratios (tot wel 88,9% voor beelden en 95% voor video).

Prestatiebehoud: Bij een reductie van 66,7% tokens behoudt iLLaVA 99,2% van de oorspronkelijke nauwkeurigheid. Zelfs bij een extreme reductie van 88,9% behoudt het nog 95,2% van de prestaties.
Versnelling:
- Throughput: Tot 2x toename in doorvoer (tokens per seconde).
- Prefilling Time: Tot 4x snellere generatie van het eerste output-token.
- Geheugen: Een reductie in geheugengebruik met een factor van 1,59x.
Vergelijking: iLLaVA overtreft state-of-the-art methoden zoals SparseVLM, FasterVLM, PyramidDrop en VisionZip consistent in zowel nauwkeurigheid als efficiëntie.
Scalability: Bij het toepassen op een 26B-parameter model, slaagt iLLaVA erin om dit model sneller en nauwkeuriger te laten werken dan een 8B-model.

Betekenis en Impact

De paper toont aan dat de "rekenkosten" van LVLMs niet alleen bij de taalverwerking liggen, maar ook bij de visuele verwerking. Door de redundantie in de image encoder te benutten, kan de totale belasting van het systeem drastisch worden verlaagd.

De betekenis van iLLaVA ligt in:

Democratisering van LVLMs: Het maakt het mogelijk om grotere, krachtigere modellen te draaien op hardware met beperkte resources (zoals consumenten-GPU's), wat de toepassing in real-time scenario's (zoals medische beeldanalyse of videobewaking) mogelijk maakt.
Paradigmaverschuiving: Het verlegt de focus van "alleen de LLM versnellen" naar een holistische benadering van het multimodale systeem.
Efficiëntie zonder Afweging: Het demonstreert dat extreme token-reductie niet noodzakelijk leidt tot kwaliteitsverlies als er een slimme recycling-mechanisme wordt gebruikt.

Samenvattend biedt iLLaVA een robuuste oplossing voor de schaalbaarheid van multimodale AI, waarbij het de balans vindt tussen extreme efficiëntie en hoge prestaties.