Seeing the Forest and the Trees: Query-Aware Tokenizer for Long-Video Multimodal Language Models

Each language version is independently generated for its own context, not a direct translation.

Titel: Der Wald und die Bäume: Wie ein neuer KI-Assistent lange Videos versteht, ohne verrückt zu werden

Stellen Sie sich vor, Sie schauen sich einen ganzen Tag lang ein Video an – vielleicht eine Dokumentation über das Leben von Ameisen oder einen 10-stündigen Live-Mitschnitt eines Konzerts. Wenn Sie jetzt jemanden fragen: „Was hat die Ameise um 14:03 Uhr gemacht?" oder „Wie hat sich die Stimmung im Konzert verändert?", müssten Sie sich an jedes einzelne Detail erinnern.

Das ist genau das Problem, mit dem aktuelle Künstliche Intelligenz (KI) bei langen Videos kämpft. Hier ist die einfache Erklärung, was die Forscher mit ihrer neuen Erfindung, QTSplus, getan haben, um dieses Problem zu lösen.

1. Das Problem: Der KI-Hunger nach Daten

Normalerweise schaut sich eine KI ein Video an, indem sie es in unzählige kleine Bildchen (genannt „Tokens") zerlegt.

Die Analogie: Stellen Sie sich vor, Sie versuchen, ein 2-stündiges Buch zu lesen, aber Sie müssen für jedes einzelne Wort einen neuen, riesigen Stapel Papier auf Ihrem Schreibtisch ablegen.
Das Ergebnis: Bei einem langen Video wird dieser Stapel Papier so hoch, dass Ihr Schreibtisch (der Computer-Speicher) platzt und das Lesen (die Berechnung) ewig dauert. Die KI erstickt in Informationen. Sie sieht den Wald vor lauter Bäumen nicht mehr.

2. Die Lösung: Der „Frage-Aware Token Selector" (QTSplus)

Die Forscher haben eine Art intelligenten Türsteher oder Filter entwickelt, der zwischen dem Videokamera-System und dem Gehirn der KI (dem Sprachmodell) sitzt.

Stellen Sie sich QTSplus wie einen sehr aufmerksamen Bibliothekar vor, der Ihnen hilft, ein riesiges Archiv zu durchsuchen.

Ohne QTSplus: Der Bibliothekar würde Ihnen alle Bücher aus dem Archiv geben, egal ob Sie nur nach einem bestimmten Rezept suchen oder eine Zusammenfassung des ganzen Jahres wollen. Das wäre chaotisch und langsam.
Mit QTSplus: Sie geben dem Bibliothekar Ihre Frage („Was macht der Mann in Minute 5?").
1. Der Bibliothekar scannt: Er schaut sich sofort an, welche Bücher (Bilder) für Ihre Frage relevant sind.
2. Der Budget-Planer: Er berechnet, wie viele Bücher Sie überhaupt brauchen. Wenn die Frage einfach ist („Ist es hell?"), reicht ein Buch. Wenn die Frage komplex ist („Erzählen Sie die ganze Geschichte"), braucht er mehr.
3. Die Auswahl: Er holt sich nur die wichtigsten Bücher und legt den Rest zurück.

3. Wie funktioniert das genau? (Die drei Schritte)

Der „Blick" (Cross-Attention):
Die KI vergleicht Ihre Frage mit jedem einzelnen Bild im Video. Wie ein Detektiv, der prüft: „Passt dieses Bild zu dem Wort 'Torte' in meiner Frage?" Bilder, die stark passen, bekommen einen hohen Punktestand.
Der „Budget-Planer" (Adaptive Budget):
Hier wird es clever. Die KI fragt sich: „Ist die Frage schwer oder leicht?"
- Beispiel: Wenn Sie fragen „Wie viele Autos sind da?", braucht die KI nur wenige, klare Bilder.
- Beispiel: Wenn Sie fragen „Fassen Sie den Film zusammen", braucht sie viele Bilder aus verschiedenen Teilen des Films.
  Der Planer entscheidet also dynamisch: „Heute brauchen wir nur 10% der Bilder, morgen 50%." Das spart enorm viel Platz.
Der „Zeit-Check" (Re-encoding):
Wenn man Bilder aus einem Video herausnimmt, verliert man oft den zeitlichen Fluss. Was war zuerst? Was kam danach?
QTSplus fügt den ausgewählten Bildern ein kleines „Zeit-Stempel" hinzu. Es ist, als würde der Bibliothekar die wenigen ausgewählten Bücher nicht nur holen, sondern sie auch in die richtige Reihenfolge auf den Tisch legen und mit einem Klebezettel versehen, der sagt: „Das war um 14:00 Uhr, das um 14:05 Uhr". So behält die KI das Gefühl für den Ablauf.

4. Warum ist das so toll? (Die Ergebnisse)

Die Forscher haben diesen neuen Türsteher in ein sehr bekanntes KI-Modell (Qwen2.5-VL) eingebaut. Die Ergebnisse sind beeindruckend:

Platzsparend: Die KI muss nur noch 11% der ursprünglichen Bilder verarbeiten. Das ist, als würde man einen 100-Kilogramm-Sack Reis auf 11 Kilogramm reduzieren, ohne den Geschmack zu verlieren.
Schneller: Die Antwortzeit verkürzt sich um fast 30%. Die KI antwortet viel schneller, weil sie nicht mehr alles durchkauen muss.
Genauer: Überraschenderweise ist die KI sogar besser geworden, wenn es darum ging, zeitliche Abläufe zu verstehen (z. B. „Was passierte zuerst?"). Sie hat den Wald wieder gesehen, weil sie nicht mehr von den unnötigen Bäumen abgelenkt wurde.

Fazit

QTSplus ist wie ein smarter Filter, der einer KI beibringt, Fragen zu stellen, bevor sie antwortet. Anstatt blind alles zu speichern, was sie sieht, konzentriert sie sich auf das, was für die spezifische Frage wichtig ist.

Das bedeutet für die Zukunft: Wir können bald KI-Modelle haben, die ganze Filme, Schulstunden oder Sicherheitsaufnahmen in Echtzeit analysieren können, ohne dass die Computer explodieren. Sie sehen den Wald und die wichtigsten Bäume gleichzeitig.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Multimodale Large Language Models (MLLMs) haben in den letzten Jahren große Fortschritte beim Verständnis von Bildern und kurzen Videos gemacht. Das Verständnis von langen Videos (z. B. mehrere Stunden) bleibt jedoch eine erhebliche Herausforderung.

Skalierungsproblem: Die Anzahl der visuellen Tokens wächst linear mit der Videolänge. Bei langen Videos führt dies zu einer Explosion der Kosten für Aufmerksamkeit (Attention), Speicher (Memory) und Latenz, da die Self-Attention-Mechanismen der LLMs quadratisch mit der Sequenzlänge skalieren.
Limitationen bestehender Ansätze:
- Statische Kompression: Viele Methoden verwenden feste Downsampling-Raten oder Token-Pruning, die unabhängig von der spezifischen Frage (Query) sind. Dies führt dazu, dass entweder irrelevante Frames behalten werden (Verschwendung) oder wichtige, lokalisierte Informationen (z. B. „Wann wird die rote Ampel grün?") verloren gehen.
- Rechenkosten: Das Eingeben unkomprimierter Rohdaten in ein LLM ist bei langen Videos auf handelsüblicher Hardware oft unmöglich.

2. Methodik: QTSplus

Die Autoren stellen QTSplus (Query-aware Token Selector) vor, einen leichten, aber leistungsstarken Modul, das als „Informations-Tor" zwischen dem Vision-Encoder und dem LLM fungiert. Es wählt dynamisch die wichtigsten visuellen Beweise basierend auf der Text-Query aus.

Der Prozess gliedert sich in folgende Schritte:

A. Cross-Attention Scoring

Anstatt alle visuellen Tokens gleich zu behandeln, wird eine Cross-Attention-Schicht zwischen den Text-Tokens (der Query) und den visuellen Tokens eingefügt.

Jedes visuelle Token erhält einen Relevanz-Score ( $r_i$ ), der angibt, wie stark es von den Wörtern der Frage beachtet wird.
Tokens, die für die Antwort irrelevant sind, erhalten niedrige Scores.

B. Adaptive Budget-Vorhersage (Adaptive Budget Prediction)

Ein kompakter Controller (Budget-Head) sagt einen Retention-Faktor $\rho \in [0, 1]$ vorher. Dieser bestimmt, welcher Anteil der Tokens behalten wird. Die Vorhersage basiert auf vier Faktoren:

Semantik der Query ( $s_q$ ): Ist die Frage spezifisch (z. B. „Wo ist der Schlüssel?") oder allgemein (z. B. „Fasse zusammen")?
Videolänge ( $\log M$ ): Längere Videos benötigen oft mehr absolute Tokens, auch wenn der relative Anteil sinkt.
Spitzen-Relevanz ( $\max r_i$ ): Eine scharfe Spitze deutet auf einen spezifischen Moment hin (kleineres Budget nötig).
Entropie der Relevanz ( $H(p)$ ): Hohe Entropie bedeutet, dass die Informationen über das Video verteilt sind (größeres Budget nötig).

C. Token-Auswahl (Top-n Gate)

Training: Ein differenzierbarer Gate-Mechanismus (Gumbel-Softmax mit Straight-Through-Estimator) wird verwendet, um den Gradientenfluss zu ermöglichen und das Ziel-Budget einzuhalten.
Inferenz: Ein „Hard Gate" wählt die Top- $n$ Tokens basierend auf den Scores aus.
Erhaltung der Reihenfolge: Die ausgewählten Tokens behalten ihre ursprüngliche zeitliche Reihenfolge.

D. Lightweight Re-Encoding

Um die zeitliche Kohärenz nach der Auswahl wiederherzustellen, werden die verbleibenden Tokens durch einen kleinen Re-Encoder (ein einzelner Block mit Self-Attention und Feed-Forward) geleitet. Dieser nutzt absolute Zeitinformationen, um dem LLM zu helfen, die zeitliche Struktur auch bei stark komprimierten Eingaben zu verstehen.

E. Training & Distillation

Das Modell wird in einem Teacher-Student-Setup trainiert:

Teacher: Das originale Qwen2.5-VL-Modell (mit allen Tokens).
Student: Das QTSplus-Modell (mit komprimierten Tokens).
Ziel: Der Student lernt, dieselben Antworten zu generieren wie der Teacher, aber mit weniger Tokens. Dies geschieht durch Multi-Task-Loss (Multiple Choice + Generative VQA).

3. Wichtige Beiträge

QTSplus-Modul: Ein plug-and-play Token-Selektor, der die Anzahl der visuellen Tokens dynamisch und query-abhängig reduziert.
Adaptives Budget: Im Gegensatz zu statischen Methoden passt sich das Token-Budget an die Komplexität der Frage und die Verteilung der Beweise im Video an.
Zeitliche Konsistenz: Durch die Kombination von selektiver Auswahl und Re-Encoding mit absoluter Zeitinformation wird die Fähigkeit zur Sekundengenauigkeit (Second-level localization) erhalten.
Skalierbarkeit: Ermöglicht das Verarbeiten von stundenlangen Videos auf handelsüblicher GPU-Hardware (z. B. NVIDIA RTX 5090/A100).

4. Ergebnisse

Die Evaluation erfolgte auf acht Benchmarks für das Verständnis langer Videos (u. a. Video-MME, LVBench, MLVU, TempCompass, MVBench) mit dem Basismodell Qwen2.5-VL.

Effizienz:
- Kompression: Reduktion des visuellen Datenstroms um bis zu 89 % (z. B. von ~180k auf ~20k Embeddings bei 600 Frames).
- Latenz: Reduktion der End-to-End-Latenz um 28 %.
- Speicher: Deutliche Verringerung der KV-Cache-Größe.
Genauigkeit:
- Allgemeine Leistung: QTSplus erreicht eine Genauigkeit, die der des Originalmodells (Teacher) nahe kommt oder sie sogar übertrifft.
- Spezifische Verbesserungen:
  - +20,5 Punkte bei der Richtungs-Genauigkeit (Direction Accuracy) auf TempCompass.
  - +5,6 Punkte bei der Reihenfolge-Genauigkeit (Order Accuracy) auf TempCompass.
  - Deutliche Verbesserungen bei Aufgaben, die fein abgestimmte zeitliche Analysen erfordern (z. B. „Was passiert als Nächstes?", „Zähle die Aktionen").
- Generalisierung: Das Modul funktioniert auch auf anderen Architekturen (LLaVA-Video, InternVL2.5) ohne umfangreiches Fine-Tuning.

5. Bedeutung und Fazit

Das Paper zeigt, dass adaptive, relevanzbewusste Tokenisierung ein praktikabler Weg ist, um MLLMs auf reale Szenarien mit stundenlangen Videos zu skalieren.

Paradigmenwechsel: Statt alle Frames gleich zu behandeln, konzentriert sich das Modell auf die „Bäume" (wichtige Details), die für die spezifische Frage relevant sind, behält aber den „Wald" (globale Struktur) durch Re-Encoding bei.
Praktische Relevanz: Die Methode macht lange Video-Analysen auf Standard-Hardware wirtschaftlich und technisch machbar, was Anwendungen wie Assistenzrobotik, Urheberrechtsüberwachung und Sicherheitsmonitoring vorantreibt.
Zukunft: Die Autoren planen, das Budget-Scheduling für Aufgaben mit breiterer Abdeckung zu verbessern und das System für Streaming- und Multi-Kamera-Szenarien zu erweitern.

Zusammenfassend beweist QTSplus, dass man durch intelligente Selektion nicht nur Rechenressourcen sparen, sondern die Leistung bei zeitkritischen Aufgaben sogar steigern kann.