Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models

Die Arbeit stellt AOT vor, eine training-freie Methode zur effizienten Reduktion redundanter visueller Token in Video-LLMs durch die Optimierung lokaler und globaler Kontexte mittels optimalen Transports, wodurch die Recheneffizienz gesteigert und gleichzeitig die zeitliche sowie visuelle Genauigkeit erhalten bleibt.

Jinlong Li, Liyuan Jiang, Haonan Zhang, Nicu Sebe

Veröffentlicht 2026-03-03
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen riesigen, hochauflösenden Videofilm, den du dir ansehen möchtest. Ein modernes KI-Modell (ein „Video-LLM") versucht, diesen Film zu verstehen und Fragen dazu zu beantworten. Das Problem ist: Der Film besteht aus Tausenden von Einzelbildern (Frames), und jedes Bild besteht aus Millionen von kleinen Details (den sogenannten „Tokens").

Wenn das KI-Modell versucht, all diese Details gleichzeitig zu verarbeiten, wird es extrem langsam, braucht einen riesigen Stromverbrauch und den ganzen Speicherplatz seines Computers. Es ist, als würde man versuchen, einen ganzen Ozean Wasser in einen kleinen Eimer zu füllen, nur um einen Schluck zu trinken.

Bisherige Methoden waren wie ein ungeschickter Gärtner: Sie haben einfach die „unwichtigen" Blumen abgeschnitten oder viele ähnliche Blumen zu einem Haufen zusammengepresst. Das Problem dabei? Oft haben sie dabei auch wichtige Informationen verloren oder den Haufen nur verdreckt, ohne den Geschmack zu verbessern.

Die neue Lösung: AOT (Der clevere Kurierdienst)

Die Autoren dieses Papers schlagen eine völlig neue Methode vor, die sie AOT nennen. Sie nutzen ein mathematisches Konzept namens „Optimaler Transport" (Optimal Transport). Um das einfach zu erklären, nutzen wir eine Analogie:

1. Die Idee der „Anker" (Die wichtigsten Punkte)

Stell dir vor, du musst eine lange Reise mit vielen Stopps machen. Anstatt jeden einzelnen Schritt zu beschreiben, entscheidest du dich für ein paar wichtige Ankerpunkte (z. B. große Städte), an denen du Halt machst.

  • Lokal: Du wählst in jedem Bild (Frame) bestimmte Punkte aus, die lokal wichtig sind (z. B. ein Gesicht oder ein Objekt).
  • Global: Du wählst auch Punkte aus, die das ganze Bild zusammenfassen (z. B. die Stimmung oder den Hintergrund).

Diese ausgewählten Punkte werden zu deinen „Ankern". Alles andere ist „unwichtiges Gepäck".

2. Der Transport (Das Magische)

Hier kommt der Clou: Früher wurde das „unwichtige Gepäck" einfach weggeworfen. Bei AOT passiert etwas Magisches.

Stell dir vor, die weggeworfenen Details sind wie Wasser, das in vielen kleinen Eimern (den ungewählten Tokens) steht. Deine Anker sind wie große, leere Tanks.
Die Methode AOT berechnet den perfekten Weg, um das Wasser aus den kleinen Eimern in die großen Tanks zu pumpen.

  • Sie fragt: „Welches Wasser aus welchem kleinen Eimer passt am besten in welchen Tank?"
  • Sie mischt das Wasser so, dass der Tank am Ende nicht nur Wasser enthält, sondern den perfekten Geschmack aller kleinen Eimer, die dorthin gehören.

Das Ergebnis: Du hast immer noch nur wenige große Tanks (die Anker), aber sie enthalten nun die gesamte Information des ursprünglichen Ozeans, verdichtet und perfekt gemischt. Nichts geht verloren, aber der Platzbedarf ist winzig.

3. Die Zeitreise (Zwischen den Bildern)

Ein Video ist nicht nur eine Ansammlung von Bildern, sondern eine Geschichte.

  • Intra-Frame (Innerhalb eines Bildes): Wie oben beschrieben, wird das Bild selbst verdichtet.
  • Inter-Frame (Zwischen den Bildern): Stell dir vor, du hast ein Video von einem laufenden Hund. In Bild 1 ist der Hund links, in Bild 2 ist er rechts.
    • Die Methode erkennt: „Ah, der Hund ist fast derselbe, nur ein bisschen verschoben."
    • Statt das Bild 2 komplett neu zu speichern, wird es mit Bild 1 „verschmolzen". Nur die Bewegung (der Unterschied) wird extra gespeichert.
    • So entsteht eine Art „Zeit-Strick", bei dem nur die wichtigen Änderungen neu eingearbeitet werden, während die Ähnlichkeiten zusammengefasst werden.

Warum ist das so toll?

  1. Kein Training nötig: Die KI muss nicht neu gelernt werden. Es ist wie ein Filter, den man einfach vor das Objektiv klemmt.
  2. Extrem schnell: Da die KI nur noch mit wenigen, aber super-relevanten „Ankern" arbeitet, ist sie bis zu 12-mal schneller und braucht viel weniger Rechenleistung.
  3. Kein Qualitätsverlust: Selbst wenn man 90% der ursprünglichen Daten wegwirft, versteht die KI das Video fast genauso gut wie vorher. Sie hat die „Essenz" behalten und den „Lärm" entfernt.

Zusammenfassend:
Statt einen Videofilm einfach zu kürzen oder zu komprimieren, wie man ein Video auf YouTube herunterlädt, nimmt AOT den Film, zerlegt ihn in seine wichtigsten Momente und mischt alle Details so geschickt zusammen, dass am Ende eine winzige, aber vollkommene Zusammenfassung übrig bleibt. Die KI kann diesen „perfekten Schluck" trinken und versteht den Film trotzdem in seiner ganzen Tiefe.