Geometric Transformation-Embedded Mamba for Learned Video Compression

Each language version is independently generated for its own context, not a direct translation.

🎬 Die neue Art, Videos zu verpacken: Ein Koffer, der sich selbst ordnet

Stell dir vor, du möchtest einen riesigen Haufen an Videobildern (Frames) in einen kleinen Koffer packen, um sie per Post zu versenden. Das Ziel ist es, den Koffer so klein wie möglich zu machen, ohne dass die Bilder beim Empfänger kaputt oder unscharf ankommen.

Bisher haben die meisten Computer-Programme dafür einen sehr komplizierten Weg gewählt: Sie haben sich jedes Bild einzeln angesehen, berechnet, wie sich Objekte bewegt haben (wie ein Ball, der über den Bildschirm rollt), und dann nur die Unterschiede zwischen den Bildern gespeichert. Das ist wie ein Handwerker, der für jeden einzelnen Nagel im Haus erst eine detaillierte Bauzeichnung anfertigt, bevor er ihn einschlägt. Es funktioniert, ist aber langsam und komplex.

Die Autoren dieses Papers haben eine neue, elegantere Methode entwickelt. Sie nennen sie „GTEM-LVC". Hier ist, wie sie es machen, mit ein paar einfachen Bildern:

1. Der „Mamba"-Schlange, die alles sieht 🐍

Stell dir vor, du hast einen riesigen Teppich mit Mustern (das Video). Frühere Methoden haben nur kleine Ausschnitte des Teppichs betrachtet (wie mit einer Lupe).
Die neuen Forscher nutzen eine Art digitale Schlange namens Mamba. Diese Schlange ist besonders schlau:

Sie kann nicht nur vorwärts, sondern auch rückwärts schauen.
Sie kann sich nicht nur horizontal bewegen, sondern auch vertikal und sogar diagonal durch die Zeit (von Bild zu Bild).
Der Clou: Die Forscher haben der Schlange eine „Brille" aufgesetzt, die das Bild in verschiedene Richtungen dreht und spiegelt (geometrische Transformationen). So kann die Schlange Muster finden, die für das menschliche Auge oder alte Computer unsichtbar sind. Sie erkennt: „Aha, dieser Baum im Hintergrund bewegt sich gar nicht, aber der Wolkenzug dahinter schon!" und packt nur das Wichtige ein.

2. Der „Detail-Schleifer" für kleine Dinge 🔍

Während die Mamba-Schlange das große Ganze sieht, gibt es noch ein Problem: Feine Details (wie die Struktur eines Autos oder die Blätter eines Baumes) gehen oft verloren, wenn man sie zu stark komprimiert.
Dafür haben die Forscher einen lokalen Feinschleifer (LRFFN) entwickelt.

Stell dir vor, du hast ein Foto, das etwas verschwommen ist. Dieser Schleifer schaut sich nicht das ganze Bild an, sondern nur winzige Nachbarschaften.
Er nutzt eine spezielle Technik namens „Differenz-Convolution". Das ist wie ein Künstler, der nicht die Farbe selbst malt, sondern nur die Unterschiede zwischen den Farben betont. Da diese Unterschiede oft sehr klein sind, braucht man viel weniger Platz, um sie zu speichern. Das Ergebnis: Scharfe Kanten und klare Details, selbst bei sehr kleinen Dateigrößen.

3. Der „Zukunftsvorhersager" für den Koffer 📦

Das größte Problem beim Packen von Videos ist: Wie weiß der Computer, was als Nächstes kommt, damit er den Koffer optimal füllt?
Frühere Methoden schauten nur auf das letzte Bild, um das aktuelle zu packen.
Die neuen Forscher nutzen einen Zukunftsvorhersager (Conditional Entropy Model):

Sie schauen sich nicht nur das letzte Bild an, sondern nutzen auch eine Art „Gefühl" für die Bewegung. Sie berechnen, wie sich die Bilder zwischen den letzten zwei Frames bewegt haben, und nutzen diese Information, um das aktuelle Bild vorherzusagen.
Es ist wie ein Paketversender, der nicht nur weiß, was du gestern bestellt hast, sondern auch, dass du heute wahrscheinlich wieder etwas Ähnliches brauchst, weil du eine Party planst. Er packt das Paket also schon im Voraus perfekt aus.

🏆 Warum ist das besser?

Wenn man diese Methode mit den besten alten Methoden vergleicht, passiert Folgendes:

Bei wenig Platz (niedrige Bitrate): Die alten Methoden machen das Bild oft unscharf oder „flüssig" (wie Watte). Die neue Methode behält die Struktur bei. Straßenlaternen sehen aus wie Straßenlaternen, nicht wie verschwommene Lichtflecken.
Zeitliche Stabilität: Das Video flackert nicht. Es sieht natürlich aus, als würde man durch die Welt schauen, nicht als würde man durch ein wackeliges Fenster schauen.
Einfachheit: Sie brauchen keinen komplizierten „Bewegungs-Rechner" mehr. Das System lernt einfach direkt, wie man die Daten am besten verpackt.

Zusammenfassung

Die Forscher haben einen neuen Weg gefunden, Videos zu komprimieren. Statt komplizierte Bewegungsrechnungen durchzuführen, nutzen sie eine schlaue Schlange (Mamba), die das Video in alle Richtungen absucht, einen Feinschleifer für Details und einen Vorhersager, der weiß, was als Nächstes kommt. Das Ergebnis: Kleinere Dateien, die trotzdem aussehen, als wären sie in High-Definition gefilmt.

Das ist wie der Unterschied zwischen einem Handwerker, der jeden Nagel einzeln misst, und einem modernen Roboter, der das ganze Haus in Sekunden perfekt verpackt. 🚀

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Herkömmliche Methoden des gelernten Videocompressings (Learned Video Compression, LVC) folgen meist einem hybriden Kodierungsparadigma, das auf expliziter Bewegungsschätzung (Motion Estimation) und Bewegungs compensation (Motion Compensation) basiert. Diese Ansätze erfordern komplexe Lösungen wie Restkodierung, Bewegungskodierung und aufwendige Netzwerke zur Bewegungskompensation.

Alternativ gibt es transformbasierte Ansätze, die keine explizite Bewegungsschätzung benötigen. Frühere transformbasierte Methoden leiden jedoch unter Einschränkungen:

3D-Convolutionen: Haben inhärent kleine rezeptive Felder und können keine langreichweitigen Abhängigkeiten über Zeit und Raum effektiv erfassen.
2D-Convolutionen mit bedingter Entropiemodellierung: Kodieren Frames oft unabhängig und nutzen nur latente Merkmale vergangener Frames als Bedingung, was für komplexe zeitliche Abhängigkeiten oft unzureichend ist.

Das Ziel ist es, einen effizienten, transformbasierten Ansatz zu entwickeln, der sowohl langreichweitige als auch lokale räumlich-zeitliche Abhängigkeiten erfasst, ohne auf komplexe explizite Bewegungsvektoren angewiesen zu sein.

2. Methodik

Das vorgeschlagene Framework basiert auf einer direkten Transformationsstrategie (nichtlineare Transformation, Quantisierung, Entropiekodierung) und besteht aus drei Hauptkomponenten:

A. Kaskadierter Mamba-Modul (CMM) mit geometrischen Transformationen

Um globale Kontexte über lange räumliche und zeitliche Distanzen zu modellieren, wird ein Cascaded Mamba Module (CMM) eingeführt.

Geometrische Transformation Mamba Block (GTMB): Anstatt parallele Scans in mehreren Richtungen durchzuführen (was rechenintensiv ist), wird eine reversible geometrische Transformation vor dem Scan angewendet. Dies ermöglicht einen effizienten Scan in einer Richtung, während die räumlich-zeitliche Struktur erhalten bleibt.
Vier Scan-Richtungen: Der CMM nutzt vier bidirektionale Scan-Strategien, um Abhängigkeiten vollständig zu erfassen:
1. Vorwärts räumlich-zeitlich (FST)
2. Rückwärts räumlich-zeitlich (BST)
3. Vorwärts zeitlich-räumlich (FTS)
4. Rückwärts zeitlich-räumlich (BTS)
Diese Module sind Kernbestandteile des Encoders und Decoders (als Enhanced Visual State Space, EVSS).

B. Locality Refinement Feed-Forward Network (LRFFN)

Um lokale Details zu erfassen, die von globalen Modellen oft übersehen werden, wird ein LRFFN entwickelt.

Es verwendet einen Hybrid Convolution Block (HCB), der auf Differenz-Convolutionen (Difference Convolutions) basiert.
Der HCB besteht aus parallelen Operationen: vertikale, horizontale und winklige Differenz-Convolutionen sowie eine zentrale Differenz-Convolution und eine Standard-Convolution.
Differenz-Convolutionen erfassen nur die Variationen zwischen benachbarten Werten, was zu einer kompakteren Darstellung führt, die weniger Bits benötigt, während Standard-Convolutionen die Intensität erfassen.

C. Bedingtes kanalweises Entropiemodell (Conditional Channel-wise Entropy Model)

Dieses Modell verbessert die Kodiereffizienz durch präzisere Wahrscheinlichkeitsschätzungen.

Bedingungen: Im Gegensatz zu Methoden, die nur vergangene latente Merkmale nutzen, verwendet dieses Modell:
1. Entschlüsselte latente Merkmale vergangener Frames ( $\bar{y}_{t-2}, \bar{y}_{t-1}$ ).
2. Pseudo-latente Merkmale des aktuellen Frames, die durch ein Predictive Motion Alignment (PMA) Modul generiert werden.
PMA: Schätzt die Bewegung zwischen den letzten beiden Frames und wendet diese auf den vorherigen Frame an, um ein aligniertes Feature für den aktuellen Frame zu erzeugen (da der aktuelle Frame noch nicht kodiert ist).
Condition Generation Network (CGN): Führt die alignierten Features mit den vergangenen latenten Merkmalen zusammen, um eine konditionierte Prior-Verteilung zu erzeugen.

3. Hauptbeiträge

Neues Framework: Ein einfaches, aber effektives transformbasiertes Videocompressing-Verfahren, das keine explizite Bewegungsschätzung benötigt und sowohl Frame- als auch Latent-Abhängigkeiten nutzt.
CMM: Entwicklung eines kaskadierten Mamba-Moduls mit eingebetteten geometrischen Transformationen zur Erfassung nicht-lokaler räumlich-zeitlicher Abhängigkeiten.
LRFFN: Einführung eines Netzwerks zur lokalen Verfeinerung mittels hybrider Differenz-Convolutionen für feinkörnige Details.
Verbessertes Entropiemodell: Ein bedingtes Entropiemodell, das sowohl vergangene latente Merkmale als auch pseudo-alignierte Merkmale des aktuellen Frames als Bedingungen nutzt, um die Kodierung zu optimieren.

4. Ergebnisse

Das Verfahren wurde auf Standard-Datensätzen (REDS, Vimeo-90k, UVG, MCL-JCV) getestet und mit State-of-the-Art-Methoden (z. B. DCVC-Reihe, DHVC, GLC-video) verglichen.

Perzeptuelle Qualität: Das Modell übertrifft hybride und andere transformbasierte Ansätze signifikant in metrischen Werten wie LPIPS und DISTS (Maße für wahrgenommene Qualität), insbesondere bei niedrigen Bitraten.
Zeitliche Konsistenz: Es erzielt die besten Werte bei tLPIPS, was auf eine hervorragende zeitliche Stabilität und weniger Artefakte zwischen Frames hinweist.
Verzerrung vs. Wahrnehmung: Im Vergleich zu reinen Perzeptual-Methoden (wie ICISP) bietet das vorgeschlagene Modell eine bessere Balance zwischen hoher Perzeptualität und pixelgenauer Genauigkeit (PSNR/MS-SSIM).
Visuelle Ergebnisse: Rekonstruktionen zeigen klarere Strukturen (z. B. Laternen, Brücken) und weniger Unschärfen oder Unnatürlichkeiten bei niedrigen Bitraten.
Komplexität: Die Anzahl der Parameter (ca. 47,8 M) ist vergleichbar mit hybriden Methoden, jedoch dominieren das Entropiemodell und die Inferenzzeit den Ressourcenbedarf.

5. Bedeutung und Fazit

Die Arbeit demonstriert, dass State-Space-Modelle (Mamba) in Kombination mit geometrischen Transformationen und differenzierten Convolutionen eine leistungsfähige Alternative zu traditionellen hybriden Videokodecks darstellen.

Effizienz: Durch den Verzicht auf explizite Bewegungsschätzung wird die Architektur vereinfacht, während die langreichweitigen Abhängigkeiten effizienter modelliert werden.
Qualität: Der Ansatz adressiert das Problem der „glatten" und detailarmen Rekonstruktionen bei niedrigen Bitraten, indem er lokale Details (durch LRFFN) und globale Kontexte (durch CMM) kombiniert.
Zukunft: Die Ergebnisse legen nahe, dass transformbasierte Ansätze mit modernen State-Space-Architekturen das Potenzial haben, den Standard für effizientes und qualitativ hochwertiges Videocompressing zu setzen, insbesondere in Szenarien mit begrenzter Bandbreite.

Die Quellcodes und Modelle werden auf GitHub veröffentlicht, was die Reproduzierbarkeit und weitere Forschung fördert.