Video TokenCom: Textual Intent-Guided Multi-Rate Video Token Communications with UEP-Based Adaptive Source-Channel Coding

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie senden ein Video über ein extrem schwaches Internet, das nur sehr wenig Daten pro Sekunde übertragen kann. Normalerweise würde das Video dann wie ein verpixeltes, unscharfes Gemälde aussehen, bei dem man nichts mehr erkennen kann.

Dieser Forschungsartikel stellt eine neue Methode vor, die wie ein intelligenter Kurier funktioniert. Statt das gesamte Video einfach nur zu komprimieren (wie ein Stapel Papier, den man zusammenquetscht), versteht das System, worauf Sie eigentlich achten wollen, und priorisiert diese Teile.

Hier ist die Erklärung der Idee in einfachen Schritten:

1. Das Video wird in "Bausteine" zerlegt (Tokenisierung)

Stellen Sie sich das Video nicht als fließendes Bild vor, sondern als riesiges Puzzle aus kleinen, diskreten Bausteinen (genannt "Tokens"). Jedes Baustein repräsentiert einen kleinen Teil des Bildes oder einer Bewegung.

Normalerweise: Man sendet alle Bausteine mit gleicher Sorgfalt.
Bei dieser Methode: Man schaut sich zuerst an, was im Video passiert, und zerlegt es in diese Bausteine.

2. Der "Text-Brief" als Kompass (Textuelle Absicht)

Das Besondere ist, dass Sie dem System sagen können, worauf Sie achten wollen. Sie schreiben einen kurzen Satz, z. B. "Die Frau schlägt das Handy des Mannes" oder einfach "Der Himmel".

Die Analogie: Stellen Sie sich vor, Sie schicken einen Paketdienst los. Normalerweise würde er alle Pakete gleich schnell transportieren. Mit Ihrem Text-Brief sagt der Kurier: "Aha! Die Frau und das Handy sind das Wichtigste. Den Himmel oder den Hintergrund können wir etwas langsamer transportieren."
Das System nutzt eine künstliche Intelligenz (ein großes Sprach- und Bildmodell), um genau zu erkennen, welche Bildteile zu Ihrem Satz gehören. Diese Teile werden als "wichtig" markiert.

3. Die "Zwei-Klassen"-Versandstrategie (Multi-Rate)

Jetzt kommt der clevere Trick, um Bandbreite zu sparen:

Die wichtigen Teile (Ihre Absicht): Diese Bausteine werden mit hoher Präzision gesendet. Sie sind wie ein hochwertiges, scharfes Foto. Alles ist perfekt sichtbar.
Die unwichtigen Teile: Alles andere (z. B. der Hintergrund, wenn Sie nur auf die Frau schauen) wird stark komprimiert gesendet.
- Die Metapher: Stellen Sie sich vor, Sie senden ein Foto. Für das Gesicht (wichtig) senden Sie das Original. Für den Hintergrund senden Sie nur eine grobe Skizze oder sagen: "Es ist fast genauso wie im vorherigen Bild, nur ein bisschen anders." Das spart enorm viel Platz.

4. Der adaptive Schutzschild (UEP)

Das System passt sich auch dem Wetter (der Internetverbindung) an.

Wenn die Verbindung schlecht ist (viel Rauschen), schützt das System die wichtigen Teile besonders stark. Es gibt ihnen einen "dicken Panzer" (Fehlerkorrektur), damit sie sicher ankommen.
Die unwichtigen Teile bekommen einen dünneren Schutz. Wenn sie verloren gehen, ist das nicht so schlimm, weil der Hintergrund eh nur grob skizziert war.
Das Ergebnis: Selbst bei sehr schlechtem Internet kommt das Wichtigste (die Frau und das Handy) klar und deutlich an, während der Rest vielleicht etwas unscharf ist, aber das Video insgesamt noch verständlich bleibt.

Warum ist das so toll?

Bisherige Methoden (wie das gängige H.265-Format) behandeln jedes Pixel gleich. Wenn die Leitung schlecht ist, wird das ganze Video unscharf.
Diese neue Methode ist wie ein kluger Regisseur: Sie weiß, dass der Zuschauer nur auf die Hauptaktion schaut. Also opfert sie die Details im Hintergrund, um sicherzustellen, dass die Hauptaktion gestochen scharf bleibt.

Zusammengefasst:
Statt das Video einfach nur kleiner zu machen, macht es es klüger. Es fragt: "Was will der Zuschauer sehen?", und sendet nur das Wichtigste in bester Qualität, während es den Rest clever und platzsparend behandelt. Das führt zu viel besseren Bildern, selbst wenn die Internetleitung sehr schwach ist.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Herkömmliche Videokommunikationssysteme (wie H.265/HEVC) basieren auf der Übertragung von Pixel-Daten oder kontinuierlichen Merkmalsvektoren und behandeln alle Bildinhalte oft gleichwertig, unabhängig von ihrer semantischen Wichtigkeit für den Nutzer. Mit dem Aufkommen von Multimodalen Large Language Models (MLLMs) und generativen KI-Modellen hat sich jedoch das Paradigma der Token-Kommunikation (TokenCom) etabliert, bei dem diskrete Token als einheitliche Einheiten für Kommunikation und Berechnung dienen.

Das spezifische Problem, das dieses Paper adressiert, ist die effiziente Übertragung von Videos unter strengen Bandbreitenbeschränkungen, wobei der Fokus auf nutzerdefinierten semantischen Absichten liegt. Bestehende Video-Semantik-Kommunikationssysteme nutzen diskrete Video-Token oft nicht explizit für eine optimierte Quell- und Kanalcodierung. Es fehlt an Frameworks, die:

Diskrete Video-Token nutzen, um hohe Dimensionalität zu komprimieren.
Die Übertragungsrate dynamisch basierend auf der Relevanz des Inhalts für eine textuelle Nutzerabsicht (Textual Intent) anpassen.
Eine ungleiche Fehlerbehandlung (Unequal Error Protection, UEP) auf Token-Ebene implementieren, um die semantische Integrität kritischer Bereiche zu gewährleisten.

2. Methodik

Das vorgeschlagene Framework, Video TokenCom, integriert Video-Tokenisierung, textgesteuerte Intent-Erkennung, eine mehrstufige Bit-Allokation und eine adaptive Quell-Kanal-Codierung. Der Aufbau gliedert sich in folgende Hauptkomponenten:

A. Video-Tokenisierung und Intent-Erkennung

Diskrete Tokenisierung: Ein vortrainierter Video-Tokenizer (z. B. basierend auf dem Cosmos-Modell) wandelt Videoframes in ein Gitter diskreter Token-Indizes um. Dies reduziert das Datenvolumen erheblich im Vergleich zu Rohpixeln.
Textgesteuerte Heatmap-Generierung: Basierend auf einer textuellen Eingabe (z. B. „Die Frau schlägt das Handy des Mannes") wird mit einem Vision-Language-Modell (CLIP) eine Heatmap erstellt, die die Ähnlichkeit zwischen Bildpatches und dem Text berechnet.
Optical-Flow-Propagation: Die semantische Maske der ersten Frame wird mittels optischem Fluss über die Zeit propagiert, um die relevanten Regionen im gesamten Video zu verfolgen.
Token-Level-Mapping: Die pixelbasierten Masken werden auf das 3D-Token-Gitter (Raum-Zeit) projiziert. Token werden in zwei Klassen unterteilt:
- Intended (S): Token, die der Nutzerabsicht entsprechen.
- Non-Intended (N): Token, die nicht relevant sind.

B. Semantik-bewusste Multi-Rate Bit-Codierung

Das System weist unterschiedliche Bit-Präzisionen basierend auf der Token-Klasse zu:

Intended-Token: Werden mit voller Codebook-Präzision ( $B_{full}$ ) kodiert, um maximale semantische Qualität zu gewährleisten.
Non-Intended-Token: Werden mittels differenzieller Kodierung mit reduzierter Präzision ( $B_{\Delta}$ ) übertragen. Dabei wird die Differenz zu einem Referenz-Token (aus dem ersten Frame) berechnet und mit weniger Bits quantisiert. Dies spart Bandbreite, ohne die Qualität der relevanten Inhalte zu beeinträchtigen.

C. Adaptive Quell-Kanal-Codierung mit UEP

Unter einem festen Ressourcenbudget wird ein Optimierungsproblem gelöst, um Verzerrung (Distortion) und Übertragungsverzögerung (Delay) zu minimieren:

Ungleiche Fehlerbehandlung (UEP): Intended- und Non-Intended-Token erhalten separate Modulations- und Codierungsschemata (MCS).
Optimierung: Ein Mixed-Integer Linear Programming (MILP)-Ansatz wählt für jede Token-Klasse die beste Kombination aus Bit-Präzision, Modulation (z. B. QPSK, 16QAM) und Coderate aus, unter Berücksichtigung des aktuellen SNR und der Paketverlustrate (BLER).
Ziel: Sicherstellung, dass kritische semantische Informationen auch bei schlechten Kanalbedingungen robust übertragen werden, während weniger wichtige Daten komprimiert oder stärker kompromittiert werden.

3. Wichtige Beiträge

Intent-Relevanz-Extraktion: Entwicklung eines Frameworks, das visuelle und textuelle Informationen nutzt, um Video-Token explizit in „nutzerbeabsichtigte" und „nicht-beabsichtigte" Klassen zu unterteilen.
Multi-Rate Bit-Allokation: Ein neuartiges Schema, das volle Codebook-Präzision für relevante Token und differenzielle Reduktion für irrelevante Token verwendet. Dies ermöglicht signifikante Bitratenersparnisse bei Erhalt der semantischen Qualität.
Joint Source-Channel Optimization: Formulierung eines Optimierungsproblems, das Bit-Präzision und MCS separat für Token-Klassen anpasst, um eine Balance zwischen semantischer Verzerrung und Latenz unter Ressourcenbeschränkungen zu finden.
Robustheit und Skalierbarkeit: Im Gegensatz zu end-to-end gelernten DJSCC-Ansätzen basiert das System auf getrennter Quell-Kanal-Codierung mit vortrainierten Tokenizern, was Flexibilität und Kompatibilität mit OSI-Schichtenmodellen bietet.

4. Ergebnisse

Die Experimente wurden auf den Datensätzen MCL-JCV und UVG durchgeführt und mit state-of-the-art Baselines verglichen:

Vergleich mit Baselines: Das Framework übertrifft sowohl den konventionellen H.265-Codec als auch den generativen VC-DM (Diffusion-basiert) in allen Metriken (PSNR, SSIM, LPIPS, FVD, CLIP-Similarität).
Effizienz: Bei einer Bitrate von nur 0,013 BPP (Bits per Pixel) erzielt Video TokenCom bessere Ergebnisse als H.265 und VC-DM bei 0,02 BPP.
Semantische Qualität: Unter dem SNR von 6 dB konnte die Fréchet Video Distance (FVD) um fast 1500 Punkte im Vergleich zu H.265 reduziert werden, was eine deutlich höhere zeitliche Kohärenz und semantische Treue bedeutet.
Robustheit: Während H.265 bei sehr niedrigem SNR oft versagt (mehr als 85% der Frames nicht decodierbar), bleibt Video TokenCom über einen weiten SNR-Bereich stabil decodierbar.
Adaptivität: Das System kann die Bitrate dynamisch anpassen (z. B. von 4,6 Mbps auf 590 Kbps), indem es entweder den Tokenizer wechselt oder die Text-Intent-Steuerung nutzt, ohne die Qualität der relevanten Bereiche zu verlieren.

5. Bedeutung und Ausblick

Dieses Paper stellt einen bedeutenden Schritt in Richtung AI-nativer drahtloser Netzwerke dar. Es zeigt, dass die Integration von Large AI Models (LAMs) in die Kommunikationspipeline nicht nur die Kompression verbessert, sondern die Übertragung fundamental an die Nutzerabsicht koppeln kann.

Paradigmenwechsel: Der Wechsel von einer pixelbasierten zu einer tokenbasierten, semantisch gesteuerten Übertragung ermöglicht es, Ressourcen dort zu investieren, wo sie für den Nutzer am wichtigsten sind.
Zukunftsfähigkeit: Das Framework ist agnostisch gegenüber spezifischen Tokenizern oder Vision-Language-Modellen und kann in zukünftigen 6G-Netzen für effiziente, zielgerichtete Multimedia-Kommunikation eingesetzt werden.
Praktische Relevanz: Die Fähigkeit, bei extrem niedrigen Bandbreiten oder schlechten Kanalbedingungen die wahrgenommene Qualität (Perception) und semantische Korrektheit zu erhalten, ist entscheidend für Anwendungen wie ferngesteuerte Robotik, AR/VR und Notfallszenarien.

Zusammenfassend beweist Video TokenCom, dass die Kombination aus diskreter Tokenisierung, textueller Intent-Steuerung und adaptiver UEP-Codierung einen überlegenen Weg für die nächste Generation der Videokommunikation darstellt.