Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering

Die Arbeit stellt MoB vor, eine Methode zur visuellen Token-Pruning, die durch die Formulierung als bi-zielgerichtetes Abdeckungsproblem und die Nutzung von Hausdorff-Distanz sowie ϵ\epsilon-Abdeckungstheorie einen optimalen Kompromiss zwischen Prompt-Ausrichtung und visueller Erhaltung findet, wodurch bei Multimodalen Large Language Models wie LLaVA eine signifikante Beschleunigung bei minimalem Leistungsverlust erreicht wird.

Yangfu Li, Hongjian Zhan, Tianyi Chen, Qi Liu, Yue Lu

Veröffentlicht 2026-03-05
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen riesigen, hochauflösenden Film (das Bild oder Video), den du einem sehr klugen, aber etwas langsamen Roboter (dem KI-Modell) zeigen willst, damit er eine Frage dazu beantwortet.

Das Problem: Der Film besteht aus Tausenden von winzigen Pixel-Stücken (den sogenannten "Tokens"). Wenn der Roboter jeden einzelnen Pixel-Stück analysieren muss, wird er extrem langsam und braucht viel Energie.

Die bisherige Lösung:
Bisher haben Forscher versucht, den Film zu kürzen, indem sie entweder:

  1. Die schönsten Bilder behalten (damit der Roboter das Bild gut sieht).
  2. Die Bilder behalten, die zur Frage passen (damit der Roboter genau das sieht, wonach er gefragt wird).

Das Problem dabei: Die bisherigen Methoden waren wie ein Koch, der immer die gleiche Menge Salz und Pfeffer nimmt, egal ob er eine Suppe oder einen Salat macht. Manchmal braucht man mehr Salz, manchmal mehr Pfeffer. Wenn man beides einfach nur mischt, ohne nachzudenken, schmeckt das Ergebnis oft nicht besser als wenn man nur eines der beiden Gewürze benutzt hätte.

Die neue Lösung (MoB): Der clevere Koch
Das Team um Yangfu Li und Hongjian Zhan hat eine neue Methode namens MoB (Multi-Objective Balanced Covering) entwickelt. Sie funktioniert wie ein genialer Koch, der genau weiß, wie viel Salz und Pfeffer er für dieses spezifische Gericht braucht.

Hier ist die einfache Erklärung, wie MoB das macht:

1. Die zwei Arten von Fragen (Die "Kopplung")

Die Forscher haben entdeckt, dass es zwei Arten von Situationen gibt, wenn ein Roboter ein Bild sieht:

  • Fall A: Die "Suche nach der Nadel im Heuhaufen" (Schwache Kopplung).
    • Beispiel: Die Frage ist: "Wo ist der kleine rote Ballon im Bild?"
    • Situation: Das Bild ist voller Bäume und Häuser. Der Ballon ist winzig und weit weg von den anderen Dingen.
    • Strategie: Hier muss der Roboter sehr genau auf die Frage hören. Er muss die wenigen, wichtigen Stellen finden, die zur Frage passen. Das "Salz" (die Frage) ist hier wichtiger als das ganze "Gemüse" (das Bild).
  • Fall B: Die "Übersicht des Ganzen" (Starke Kopplung).
    • Beispiel: Die Frage ist: "Was ist auf diesem Bild zu sehen?"
    • Situation: Das Bild zeigt eine belebte Straße. Fast jeder Teil des Bildes ist relevant.
    • Strategie: Hier muss der Roboter das ganze Bild gut sehen. Die Frage ist allgemein, also muss er den "Heuhaufen" (das Bild) gut abdecken, damit er nichts Wichtiges verpasst. Das "Gemüse" ist hier wichtiger.

2. Das Problem der alten Methoden

Frühere Methoden haben versucht, beides gleichzeitig zu machen, indem sie einfach eine feste Regel anwandten (z. B. "Nimm immer 50% Bilder und 50% Frage-Bezug"). Das funktioniert nicht gut, weil sie nicht merken, ob sie gerade eine Nadel suchen (Fall A) oder eine Übersicht brauchen (Fall B).

3. Wie MoB funktioniert: Der "Budget-Verteiler"

MoB ist wie ein intelligenter Verteiler, der ein festes Budget an "Aufmerksamkeit" hat (z. B. darf der Roboter nur 100 Pixel-Stücke ansehen).

  • Schritt 1: Messen. MoB schaut sich zuerst an: "Wie weit ist die Frage vom Bild entfernt?" (Das nennen sie Hausdorff-Distanz).
    • Ist die Frage weit weg vom Bild (Fall A)? -> Mehr Budget für die Frage! (Wir suchen die Nadel).
    • Ist die Frage nah am Bild (Fall B)? -> Mehr Budget für das Bild! (Wir brauchen die Übersicht).
  • Schritt 2: Aufteilen. Anstatt alles zu mischen, teilt MoB die 100 erlaubten Pixel-Stücke in zwei Gruppen auf:
    • Gruppe 1: Die wichtigsten Teile für die Frage.
    • Gruppe 2: Die wichtigsten Teile für das Bild selbst.
  • Schritt 3: Die perfekte Balance. MoB nutzt eine mathematische Formel (die "geometrische Abdeckung"), um genau zu berechnen, wie viele Pixel-Stücke in welche Gruppe müssen, damit der Roboter am schnellsten und genauesten ist.

Das Ergebnis: "1 + 1 ist kleiner als 1" (aber gut gemeint)

Der Titel des Papers sagt "1 + 1 < 1". Das klingt seltsam, bedeutet aber: Wenn man zwei gute Dinge (Bild und Frage) einfach nur zusammenwirft, bekommt man oft ein schlechteres Ergebnis als wenn man sie intelligent trennt und balanciert.

Warum ist das toll?

  • Geschwindigkeit: Der Roboter wird 1,3- bis 1,5-mal schneller, weil er weniger Pixel-Stücke ansehen muss.
  • Qualität: Er verliert fast keine Genauigkeit. Selbst wenn man 89% der Bilder wegwirft, versteht der Roboter die Antwort fast genauso gut wie vorher.
  • Flexibilität: Es funktioniert bei einfachen Fragen, bei Videos und bei hochauflösenden Bildern gleichermaßen gut.

Zusammenfassend:
MoB ist wie ein intelligenter Touristenführer. Wenn du fragst: "Wo ist das Museum?", zeigt er dir nur die Straße zum Museum (ignoriert den Rest). Wenn du fragst: "Wie sieht die Stadt aus?", zeigt er dir einen Panoramablick. Er weiß genau, wann er was zeigen muss, und spart dir so Zeit, ohne dir wichtige Informationen zu nehmen.