Rethinking Visual Token Reduction in LVLMs Under Cross-Modal Misalignment

Die Arbeit stellt VisionDrop vor, ein trainingsfreies Framework zur visuellen Token-Reduktion in Large Vision-Language Models, das durch die Vermeidung von textbasierten Annahmen und die Nutzung einer fortschrittlichen, rein visuellen Selektion sowie schrittweisen Pruning-Prozesse die Rechenkosten erheblich senkt, ohne dabei die Modellleistung signifikant zu beeinträchtigen.

Rui Xu, Yunke Wang, Yong Luo, Bo Du

Veröffentlicht 2026-03-03
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen extrem klugen, aber sehr hungrigen Assistenten. Dieser Assistent ist ein Large Vision-Language Model (LVLM). Er kann Bilder sehen und Fragen dazu beantworten. Aber er hat ein großes Problem: Er ist so gierig nach Informationen, dass er jedes Bild in tausende winzige Puzzleteile zerlegt, um es zu verstehen.

Das ist wie wenn du ein Foto von einem Wald nicht einfach anschaust, sondern jeden einzelnen Baum, jedes Blatt und jeden Stein als separates Detail in einem riesigen Stapel Papier bearbeitest. Das macht ihn zwar sehr genau, aber es kostet enorm viel Zeit und Energie (Rechenleistung), um diesen riesigen Stapel durchzuarbeiten.

Die Forscher in diesem Papier haben sich gefragt: Müssen wir wirklich alle diese Puzzleteile behalten?

Das Problem: Der falsche Kompass

Bisherige Methoden, um diesen Stapel zu verkleinern, funktionierten wie ein Kompass, der von der Frage geleitet wird.

  • Die alte Idee: Wenn du fragst: "Wo ist der Hund?", schaut der Assistent auf die Frage und versucht, die Bildteile zu finden, die mit dem Wort "Hund" zusammenhängen.
  • Das Problem: In der Realität sind Bilder und Sprache nicht immer perfekt synchron. Manchmal ist die Frage etwas vage, oder das Bild hat viele Details, die die Frage nicht erwähnt, aber trotzdem wichtig sind (z. B. der Hintergrund oder die Stimmung). Wenn der Assistent nur auf die Frage hört, wirft er wichtige Teile des Bildes weg, weil sie nicht direkt im Text erwähnt wurden. Das ist, als würdest du einen Koch anleiten, nur die Zutaten zu kaufen, die im Rezept stehen, und dabei das frische Gemüse im Kühlschrank zu ignorieren, das den Geschmack verbessert.

Die Forscher nennen das "Cross-Modal Misalignment" (Fehlende Ausrichtung zwischen den Welten). Die Sprache und das Bild "verstehen" sich im Inneren des Assistenten nicht immer richtig.

Die Lösung: VisionDrop – Der Bild-selbst-Verstehende

Die Autoren stellen eine neue Methode vor, die sie VisionDrop nennen. Sie ist clever, weil sie keine zusätzlichen Trainings braucht und nur auf das Bild selbst schaut, nicht auf die Frage.

Hier ist die Analogie:
Stell dir vor, du hast einen riesigen Haufen Fotos von einer Party.

  • Die alte Methode: Jemand ruft "Wer ist der DJ?" und du wirfst alle Fotos weg, auf denen kein DJ zu sehen ist. Aber vielleicht ist auf dem Foto ohne DJ auch ein lustiger Moment zu sehen, der wichtig ist.
  • Die neue Methode (VisionDrop): Du schaust dir die Fotos untereinander an. Du fragst: "Welche Fotos sehen sich ähnlich? Welche Fotos sind die wichtigsten?"
    • Du behältst die "Hauptdarsteller" (die wichtigsten Bildteile).
    • Du fasst die "Zuschauer" (die weniger wichtigen, aber ähnlichen Teile) zusammen, damit sie nicht den Platz wegnehmen, aber ihre Information trotzdem erhalten bleibt.

Wie funktioniert das genau?

  1. Kein Text-Kompass: VisionDrop ignoriert die Frage, um zu entscheiden, was wichtig ist. Stattdessen schaut es nur auf das Bild selbst. Es nutzt die "Selbstaufmerksamkeit" des Bildes (wie stark hängen die Bildteile untereinander zusammen?). Das ist stabiler, weil Bilder oft ihre eigene Geschichte erzählen, unabhängig davon, was man fragt.
  2. Stufenweises Ausmisten: Statt alles auf einmal zu löschen, macht VisionDrop das schrittweise.
    • Zuerst wird im "Kamera-Modul" (Visual Encoder) schon etwas aussortiert.
    • Dann wird es im "Gehirn-Modul" (LLM) weiter verfeinert.
    • Es ist wie beim Packen eines Koffers: Zuerst legst du die großen Dinge (Hauptdarsteller) hinein, und dann füllst du die Lücken mit kleinen, ähnlichen Dingen zusammengefasst, damit nichts Wichtiges verloren geht.
  3. Zusammenfassen statt Wegwerfen: Wenn ein Bildteil nicht ganz so wichtig ist, wird er nicht einfach gelöscht. Er wird mit ähnlichen Teilen "verschmolzen" (merged). So bleibt die Information erhalten, aber der Stapel wird kleiner.

Das Ergebnis: Schneller und schlauer

Das Ergebnis ist beeindruckend:

  • Der Assistent wird viel schneller (bis zu 2,7-mal schneller).
  • Er braucht viel weniger Energie (bis zu 6-mal weniger Rechenleistung).
  • Und das Wichtigste: Er verliert kaum an Qualität. Selbst wenn man 95% der Bildteile wegwirft, versteht er das Bild fast genauso gut wie vorher.

Zusammenfassend:
Statt blind auf die Frage zu hören und dabei wichtige Bildteile zu verlieren, schaut VisionDrop intelligent auf das Bild selbst, behält die wichtigsten Teile und fasst den Rest geschickt zusammen. Es ist wie ein erfahrener Kurator, der eine Ausstellung organisiert: Er weiß genau, welche Bilder die Besucher sehen müssen, und packt den Rest so effizient zusammen, dass die Galerie nicht überfüllt ist, aber die Essenz der Kunst erhalten bleibt.