InfoTok: Adaptive Discrete Video Tokenizer via Information-Theoretic Compression

Each language version is independently generated for its own context, not a direct translation.

🎬 Die Geschichte von dem überfüllten Koffer

Stell dir vor, du möchtest einen langen Videoclip (wie einen ganzen Tag aus deinem Leben) in einen kleinen Koffer packen, um ihn per Post zu versenden. Das ist genau das Problem, das sich Computer haben: Sie müssen riesige Videodateien in kleine „Päckchen" (Tokens) zerlegen, damit sie sie speichern oder übertragen können.

Das alte Problem: Der starre Koffer
Bisher haben Computer einen sehr starren Ansatz gewählt: Sie schneiden das Video in gleich große Stücke und packen jedes Stück in ein Päckchen, egal ob es wichtig ist oder nicht.

Beispiel: Stell dir ein Video vor, in dem eine Katze 10 Sekunden lang einfach nur auf einer Matte liegt (sehr langweilig, wenig Bewegung), gefolgt von 10 Sekunden, in denen zwei Hunde wild miteinander kämpfen (sehr viel Action, viele Details).
Der alte Computer: Er gibt der ruhigen Katze genauso viele Päckchen wie dem wilden Kampf. Das ist Verschwendung! Bei der Katze sind die meisten Päckchen leer oder enthalten nur „Rauschen". Beim Kampf fehlen ihm vielleicht Päckchen, weil er alle für die Katze verbraucht hat.

Die neue Lösung: INFOTOK (Der intelligente Pack-Assistent)
Die Forscher haben INFOTOK entwickelt. Das ist wie ein super-intelligenter Pack-Assistent, der nach den Regeln der Informations-Theorie (einer Art Mathematik für „Wichtigkeit") arbeitet.

INFOTOK fragt sich bei jedem Moment im Video: „Wie viel Neues passiert hier gerade?"

Der intelligente Scanner (Der Router):
Bevor das Video gepackt wird, schaut sich INFOTOK kurz an, was passiert.
- Szenario A (Der schlafende Hund): „Oh, hier passiert fast nichts. Die Information ist gering." -> Er packt nur 1 Päckchen.
- Szenario B (Der kämpfende Hund): „Wow, hier passiert viel! Viele Details, schnelle Bewegungen." -> Er packt 5 Päckchen.
Der flexible Kompressor:
Anstatt das Video stur in gleich große Blöcke zu schneiden, drückt INFOTOK die ruhigen Teile stark zusammen und lässt den Action-Teilen mehr Platz. Es ist, als würde man einen Gummizug verwenden: Wo wenig Spannung ist (ruhige Szene), zieht er ihn stark zusammen. Wo viel Spannung ist (Action), lässt er ihn locker.

🧠 Die Magie dahinter: Der „Wichtigkeits-Messwert"

Wie weiß der Computer, was wichtig ist? Er nutzt eine mathematische Formel (ELBO), die man sich wie einen Wichtigkeits-Messwert vorstellen kann.

Wenn ein Bildteil sehr vorhersehbar ist (z. B. ein blauer Himmel, der sich nicht bewegt), ist der Messwert niedrig. Der Computer sagt: „Ich kann das weglassen, du kannst es dir leicht merken."
Wenn ein Bildteil überraschend ist (z. B. ein Ball, der plötzlich fliegt), ist der Messwert hoch. Der Computer sagt: „Das muss ich genau speichern, sonst ist die Geschichte kaputt!"

🚀 Warum ist das so toll?

Die Ergebnisse der Studie sind beeindruckend:

Platzsparend: INFOTOK braucht 20 % weniger Päckchen als die alten Methoden, um das Video genauso gut wiederherzustellen.
Schneller: Da der Computer nicht raten muss, wie viele Päckchen er braucht (wie es frühere adaptive Methoden taten), ist er viel schneller. Er muss das Video nicht mehrfach durchsuchen, sondern packt es sofort intelligent.
Qualität bleibt: Trotz weniger Päckchen sieht das Video am Ende genauso scharf aus. Die wichtigen Details (die Action) sind da, die unnötigen Details (die ruhige Matte) sind gestrichen.

🌍 Ein einfaches Fazit

Stell dir vor, du schreibst eine E-Mail.

Der alte Weg: Du schreibst jeden Buchstaben, auch die Leerzeichen, und zählst sie alle als wichtig.
Der INFOTOK-Weg: Du schreibst nur die wichtigen Wörter. Wenn du sagst „Ich gehe heute ins Kino", ist das wichtig. Wenn du sagst „Ich atme jetzt ein und aus", ist das für den Empfänger nicht wichtig, also schreibst du es nicht auf.

INFOTOK macht genau das für Videos. Es lernt, Informationen nach ihrer Wichtigkeit zu sortieren. Das bedeutet, wir können zukünftig viel längere Videos speichern, schneller streamen und KI-Modelle trainieren, die die Welt besser verstehen, weil sie nicht mit unnötigem „Ballast" beladen sind.

Kurz gesagt: INFOTOK ist der erste Videodrucker, der weiß, wann er sparen muss und wann er Qualität liefern muss – und das automatisch für jedes einzelne Video.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die effiziente Verarbeitung langer Videosequenzen ist ein zentrales Hindernis für moderne multimodale Modelle (z. B. Vision-Language-Modelle). Herkömmliche diskrete Video-Tokenizer (Encoder-Quantizer-Decoder-Architekturen) arbeiten meist mit einer festen Kompressionsrate. Das bedeutet, dass für jedes Video, unabhängig von seinem Inhalt, die gleiche Anzahl an Tokens generiert wird.

Dieser Ansatz führt zu zwei Hauptproblemen:

Redundanz: Bei einfachen oder statischen Szenen (z. B. ein ruhender Hund) werden unnötig viele Tokens generiert, was Rechenressourcen verschwendet.
Informationsverlust: Bei komplexen, dynamischen Szenen (z. B. Kämpfende Katzen) reicht die feste Token-Anzahl oft nicht aus, um alle Details präzise darzustellen, was die Rekonstruktionsqualität mindert.

Bisherige adaptive Ansätze (wie ElasticTok) nutzen heuristische, datenagnostische Methoden (z. B. zufälliges Maskieren oder Trial-and-Error-Suchen während der Inferenz), die theoretisch suboptimal sind und einen hohen Inferenzaufwand verursachen.

2. Methodik: INFOTOK

INFOTOK ist ein prinzipiengeleitetes Framework, das auf der Shannon'schen Informationstheorie basiert, um eine adaptive Tokenisierung zu erreichen. Das Ziel ist es, die Token-Länge dynamisch an den Informationsgehalt (Information Density) jedes Videos anzupassen.

Das Framework besteht aus drei Kernkomponenten:

A. Theoretische Grundlage

Die Autoren beweisen rigoros, dass Tokenizer mit fester Rate oder datenagnostischer Anpassung inhärent verzerrt (biased) und ineffizient sind. Gemäß dem Quellencodierungstheorem sollte die Token-Länge $N_x$ proportional zum negativen Log-Likelihood $-\log p(x)$ des Eingabevideos sein. Videos mit hoher Wahrscheinlichkeit (einfache Muster) benötigen weniger Tokens, während seltene, komplexe Muster mehr Tokens benötigen.

B. Der Router (ELBO-basiert)

Da der wahre Log-Likelihood für Videos nicht direkt berechenbar ist, verwendet INFOTOK eine Evidence Lower Bound (ELBO) als Surrogat.

Ein Router berechnet die ELBO für das Eingabebild (bzw. den Video-Clip).
Basierend auf der ELBO wird die optimale Token-Länge $N_x$ bestimmt: $r(N_x|x) \propto \beta \cdot \text{ELBO}(x)$ .
Der Parameter $\beta$ steuert die durchschnittliche Kompressionsrate.
Dies eliminiert die Notwendigkeit für aufwändige Suchverfahren während der Inferenz.

C. Der Adaptive Compressor

Sobald die Ziel-Länge $N_x$ feststeht, muss die Information aus den festen Embeddings (Länge $N$ ) in $N_x$ Tokens komprimiert werden.

Likelihood-basierte Selektion: Anstatt Token willkürlich oder räumlich zu maskieren, identifiziert der Compressor Token mit dem niedrigsten Informationsgehalt (basierend auf der ELBO pro Token).
Diese Token werden maskiert (entfernt), während die Token mit hohem Informationsgehalt erhalten bleiben.
Ein binärer Masken-Vector wird als Teil der Token-Sequenz gespeichert (Overhead von ca. 5%), um die Dekodierung zu ermöglichen.
Die Architektur nutzt Transformer-Layer, um die verbleibenden Informationen effizient zu verteilen und die rekonstruierten Embeddings auf die ursprüngliche Länge zu erweitern.

3. Wichtige Beiträge

Theoretischer Beweis: Der Nachweis, dass existierende Tokenizer mit festen oder zufälligen adaptiven Raten suboptimal sind und dass eine informationstheoretisch fundierte Anpassung notwendig ist, um die Shannon-Grenze zu erreichen.
INFOTOK-Framework: Die Entwicklung eines neuen, adaptiven Tokenizers, der bestehende feste Tokenizer (hier Cosmos Discrete Video Tokenizer) erweitert, ohne deren Encoder/Decoder neu trainieren zu müssen.
ELBO-gesteuerte Effizienz: Die Einführung eines Routers, der die Token-Länge direkt über die ELBO berechnet, was eine theoretisch fundierte und rechnerisch effiziente Anpassung ermöglicht.
Flexibilität (INFOTOK-Flex): Ein Ansatz, bei dem ein einzelnes Modell verschiedene Kompressionsraten ( $\beta$ ) lernen kann, indem $\beta$ während des Trainings variiert wird.

4. Ergebnisse

Die Evaluierung erfolgte auf den Datensätzen TokenBench und DAVIS unter Verwendung von Metriken wie PSNR, SSIM, LPIPS und FVD (Fréchet Video Distance).

Token-Effizienz: INFOTOK spart im Vergleich zu State-of-the-Art (SOTA) festen Tokenizern etwa 20 % der Tokens bei gleicher Rekonstruktionsqualität.
Vergleich mit adaptiven Baselines: Im Vergleich zu ElasticTok erreicht INFOTOK bei gleicher Token-Anzahl eine deutlich bessere Qualität (z. B. 40–60 % niedrigere FVD, 25–40 % niedrigere LPIPS). Umgekehrt erreicht INFOTOK bei gleicher Qualität eine 2,3-fache Kompressionsrate.
Inferenz-Effizienz: Während ElasticTok für die Bestimmung der Token-Länge eine binäre Suche benötigt (was zu 11 zusätzlichen Netzwerk-Durchläufen pro Block führt), benötigt INFOTOK nur einen zusätzlichen Decoder-Durchlauf zur Berechnung der ELBO. Dies führt zu einer drastischen Reduktion der Inferenz-Latenz (Faktor ~11x schneller als ElasticTok).
Qualität: INFOTOK erreicht Ergebnisse, die mit dem festen Cosmos-DV-Tokenizer vergleichbar sind, aber mit weniger Tokens.

5. Bedeutung und Ausblick

INFOTOK stellt einen Paradigmenwechsel in der Video-Tokenisierung dar. Es beweist, dass adaptive Tokenisierung nicht nur heuristisch, sondern prinzipiengeleitet und informationstheoretisch optimal gestaltet werden kann.

Skalierbarkeit: Durch die Reduktion der Token-Anzahl für einfache Szenen werden Transformer-Architekturen für lange Videos deutlich effizienter.
Generalisierbarkeit: Obwohl der Fokus auf Videos liegt, ist das Framework auf andere Datenmodalitäten mit variabler Informationsdichte (z. B. Audio, 3D-Punktwolken) übertragbar.
Zukunft: Die Arbeit ebnet den Weg für skalierbare multimodale Modelle, die lange Videos sowohl effizient verstehen als auch generieren können, ohne durch redundante Tokenisierung an Rechenleistung zu scheitern.

Zusammenfassend bietet INFOTOK eine theoretisch fundierte, praktisch effiziente Lösung für das Problem der variablen Informationsdichte in Videos und setzt neue Maßstäbe für die Token-Effizienz in der KI-Forschung.