iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models

Die Arbeit stellt iLLaVA vor, eine Methode zur umfassenden Beschleunigung von Large Multimodal Models durch die gemeinsame Optimierung des Bildencoders und des LLM mittels einer neuartigen Token-Merging-Strategie, die nicht nur die Rechenzeit drastisch reduziert, sondern auch die Genauigkeit größerer Modelle im Vergleich zu kleineren verbessert.

Lianyu Hu, Liqing Gao, Fanhua Shang, Liang Wan, Wei Feng

Veröffentlicht 2026-03-10
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

🚀 iLLaVA: Wie man riesige KI-Modelle auf ein „Kleingewicht" reduziert

Stell dir vor, du hast einen Super-Intelligenz-Roboter (ein sogenanntes „Large Vision-Language Model" oder LVLM). Dieser Roboter ist unglaublich schlau und kann Bilder, Videos und Texte verstehen. Aber er hat ein riesiges Problem: Er ist extrem schwer und langsam.

Wenn dieser Roboter ein Bild sieht, zerlegt er es in tausende winzige Puzzleteile (genannt „Tokens"). Er betrachtet jedes einzelne Teil, analysiert es und schreibt dann einen Text dazu. Das ist wie wenn ein Detektiv bei einem Verbrechen jeden einzelnen Staubkorn auf dem Tatort untersucht, bevor er einen Fall löst. Das dauert ewig und verbraucht viel Energie.

Bisherige Methoden haben versucht, diesen Roboter schneller zu machen, indem sie ihm sagten: „Hey, ignoriere einfach 80 % der Puzzleteile!"
Das Problem dabei: Der Roboter schaut sich das Bild erst in einer Fotostudio-Kamera (dem Bild-Encoder) an, bevor er es überhaupt verarbeitet. Diese Kamera ist auch sehr langsam und schwer. Die alten Methoden haben nur den Roboter selbst beschleunigt, aber die langsame Kamera ignoriert. Das ist, als würdest du einen Ferrari bauen, aber ihn mit einem alten Traktor-Anhänger schleppen lassen.

iLLaVA (die neue Methode aus dem Papier) löst das Problem auf zwei clevere Arten:

1. Der „Zwei-Stationen-Express" 🚂

Statt nur den Roboter zu beschleunigen, beschleunigt iLLaVA beide Stationen:

  • Station A (Die Kamera): Sie filtert das Bild schon beim Aufnehmen. Statt 10.000 Puzzleteile zu produzieren, produziert sie nur noch die wichtigsten.
  • Station B (Der Roboter): Auch der Roboter selbst schaut sich nur noch die wichtigsten Teile an.

Die Analogie: Stell dir vor, du willst ein Buch lesen.

  • Alt: Jemand kopiert das ganze Buch (1000 Seiten), schickt es dir, und du liest es.
  • iLLaVA: Jemand liest das Buch zuerst, markiert nur die 100 wichtigsten Sätze, schickt dir nur diese und du liest sie.
    Das Ergebnis? Du bist viel schneller fertig, aber du verpasst nichts Wichtiges.

2. Der „Recycling-Müllwagen" ♻️

Das größte Risiko beim Wegwerfen von Puzzleteilen ist, dass man versehentlich wichtige Informationen wegwirft.

  • Andere Methoden: Sie werfen die „langweiligen" Teile einfach in den Müll.
  • iLLaVA: Es ist wie ein cleverer Müllwagen. Wenn ein Teil aussieht, als wäre es unnötig, schaut es sich trotzdem kurz an. Wenn es ein winziges, nützliches Detail enthält (z. B. eine Farbe oder eine Form), schmilzt es dieses Detail in ein anderes, wichtiges Teil hinein.

Die Analogie: Stell dir vor, du hast eine Suppe mit vielen Zutaten.

  • Wenn du Gemüse wegwirfst, verlierst du den Geschmack.
  • iLLaVA nimmt das weggeworfene Gemüse, kocht es zu einer kleinen, konzentrierten Brühe und gibt diese Brühe in die Hauptsuppe zurück. So behältst du den Geschmack (die Information), aber du musst nicht mehr so viel Gemüse herumtragen.

🏆 Was bringt das alles?

Die Forscher haben iLLaVA getestet und erstaunliche Ergebnisse erzielt:

  1. Geschwindigkeit: Das System ist bis zu 2-mal schneller und startet 4-mal schneller als vorherige Methoden.
  2. Qualität: Selbst wenn man 88 % der Bildinformationen wegwirft, bleibt die Intelligenz des Roboters fast gleich hoch (über 95 % der ursprünglichen Leistung).
  3. Der „Riese schlägt den Kleinen": Das ist der coolste Teil. Ein riesiges, schweres Modell (z. B. InternVL-2.5 mit 26 Milliarden Parametern), das mit iLLaVA beschleunigt wird, ist schneller UND klüger als ein kleines, leichtes Modell (z. B. InternVL-2.5 mit 8 Milliarden Parametern).

Zusammenfassend:
iLLaVA ist wie ein Turbo-Modus für KI. Es schaut sich an, wo die „Luftlöcher" (unnötige Daten) sind, entfernt sie geschickt und fängt die wertvollen Tropfen auf, die sonst verloren gegangen wären. So können wir riesige, superkluge KIs auch auf normalen Computern laufen lassen, ohne dass sie ewig brauchen.

Das Papier wurde für die renommierte Konferenz ICLR 2026 eingereicht und zeigt, wie wir KI effizienter und umweltfreundlicher machen können.