Geometric Transformation-Embedded Mamba for Learned Video Compression

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een hele lange video wilt versturen via een smalle, trage internetverbinding. Normaal gesproken zou je de video moeten "knijpen" tot hij klein genoeg is, maar dan wordt het beeld vaak wazig, blokkerig of onnatuurlijk.

De onderzoekers van deze paper hebben een nieuwe manier bedacht om video's in te drukken, die ze GTEM-LVC noemen. Laten we uitleggen hoe dit werkt met een paar simpele vergelijkingen.

1. Het oude probleem: De "Bewegingsjacht"

Hoe werken de meeste huidige methoden? Ze proberen te voorspellen hoe objecten in de video bewegen.

De analogie: Stel je voor dat je een film maakt van een rennende hond. De oude methoden zeggen: "Oké, de hond staat hier, en in het volgende frame staat hij daar. Laten we eerst berekenen hoe ver hij is gelopen (bewegingsvector), en dan alleen de kleine verschilletjes opslaan."
Het nadeel: Dit is als een ingewikkelde dans waarbij je eerst de stappen moet plannen voordat je kunt dansen. Het kost veel tijd en rekenkracht, en als de hond plotseling van richting verandert, raakt de voorspelling in de war.

2. De nieuwe oplossing: De "Slimme Transformator"

Deze nieuwe methode doet het anders. Ze kijken niet naar beweging, maar naar de patronen in de data zelf.

De analogie: In plaats van te vragen "waar gaat de hond naartoe?", kijken ze naar de hele film als één groot, samengevoegd stukje textiel. Ze zeggen: "Laten we gewoon alle patronen in het doek opslaan, zonder na te denken over de beweging." Dit is veel sneller en simpeler.

3. De drie geheimen van hun nieuwe methode

Om dit slimme "patroonpakket" zo klein mogelijk te maken, gebruiken ze drie speciale tools:

A. De "Tijds-Reiziger" (Cascaded Mamba Module)

Video's hebben twee soorten relaties: wat er naast elkaar gebeurt (ruimte) en wat er later gebeurt (tijd).

De analogie: Stel je voor dat je een lange rij mensen bekijkt. Een gewone camera kijkt alleen naar de persoon links en rechts van jou. Deze nieuwe tool (de Mamba-module) is als een tijdsreiziger. Hij kan door de rij lopen:
1. Vooruit kijken (van links naar rechts).
2. Achteruit kijken (van rechts naar links).
3. In de tijd vooruit kijken (naar de volgende frame).
4. In de tijd achteruit kijken (naar het vorige frame).
Het resultaat: Door in alle richtingen te "scannen", ziet de computer de hele context van de video. Hij begrijpt dat een wolk die langzaam beweegt, eigenlijk hetzelfde is als de wolk een seconde eerder, maar dan iets verschoven. Dit helpt om enorme hoeveelheden data weg te laten.

B. De "Detail-Verfijner" (Locality Refinement Network)

Hoewel de "Tijds-Reiziger" goed is voor het grote plaatje, mist hij soms de fijne details (zoals de textuur van een shirt of een rimpel in het gezicht).

De analogie: Stel je voor dat je een schilderij maakt. De Tijds-Reiziger zorgt voor de grote kleuren en vormen. Maar om de kleine details te krijgen, gebruiken ze een speciale kwast (de LRFFN). Deze kwast kijkt niet alleen naar de verf, maar ook naar de verschillen tussen de verfdruppels.
Hoe het werkt: Ze gebruiken een techniek genaamd "verschilsconvolutie". In plaats van te zeggen "dit is een blauwe vlek", zeggen ze: "hier is een klein beetje meer blauw dan daar." Dit is een veel efficiëntere manier om details op te slaan, omdat je alleen de veranderingen hoeft te coderen, niet de hele afbeelding opnieuw.

C. De "Slimme Voorspeller" (Conditional Entropy Model)

Wanneer je een video verstuurt, moet de ontvanger weten hoe groot het pakketje is.

De analogie: Stel je voor dat je een brief schrijft. Als je weet dat de vorige zin eindigde op "Ik ga naar...", dan is de kans groot dat het volgende woord "het" of "huis" is. Je hoeft niet elke letter uit te leggen.
De verbetering: De oude methoden keken alleen naar de vorige brief om te voorspellen wat er in de huidige brief staat. Deze nieuwe methode kijkt ook naar een voorspelde versie van de huidige brief. Ze gebruiken een "bewegingsgok" (een geschatte beweging) om te zien wat er waarschijnlijk gaat gebeuren, en gebruiken dat als hulpmiddel om de data nog kleiner te maken. Het is alsof je niet alleen kijkt naar wat er gisteren was, maar ook slim gokt wat er morgen gaat gebeuren om je boodschap korter te houden.

Waarom is dit belangrijk?

Beter beeld bij minder data: Bij lage internetverbindingen (lage "bitrate") zien de beelden er veel natuurlijker uit. Geen vage vlekken meer, maar scherpe details.
Smoort niet: Omdat ze de beweging niet hoeven te berekenen, is het systeem sneller en minder complex.
Vloeiender: De video's haperen niet tussen de frames; de beweging voelt heel natuurlijk aan.

Kortom:
De onderzoekers hebben een manier bedacht om video's in te drukken door te stoppen met het proberen te "voorspellen" van beweging, en in plaats daarvan slimme patronen te zoeken in zowel de ruimte als de tijd. Ze gebruiken een "tijdsreiziger" om het grote plaatje te zien, een "detail-kwast" voor de fijne streepjes, en een "slimme gok" om de data zo klein mogelijk te houden. Het resultaat is een video die er prachtig uitziet, zelfs als je maar heel weinig internetbandbreedte hebt.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Bestaande methoden voor geleerde videocompressie volgen meestal een hybride coderingsparadigma (afgeleid van traditionele codecs zoals H.264/H.265). Deze methoden vereisen expliciete bewegingsschatting (motion estimation) en compensatie, wat leidt tot complexe oplossingen met aparte netwerken voor residucodering, bewegingscodering en bewegingscompensatie.

Aan de andere kant zijn er transformatie-gebaseerde methoden (zonder expliciete bewegingscompensatie) die eenvoudiger zijn, maar vaak tekortschieten in het vastleggen van langeafstandsafhankelijkheden in zowel de ruimtelijke als de temporele dimensie. Bestaande transformatie-methoden gebruiken vaak 3D-convoluties (beperkt door lokale receptieve velden) of conditionele entropiemodellen die alleen vertrouwen op eerdere latent features, wat onvoldoende is voor complexe temporele afhankelijkheden.

Het doel van dit paper is een gestroomlijnd, effectief transformatie-gebaseerd compressieframework te ontwikkelen dat langeafstandsafhankelijkheden efficiënt exploiteert zonder de complexiteit van expliciete bewegingscompensatie.

Methodologie

Het voorgestelde framework, GTEM-LVC, volgt een directe transformatiestrategie: niet-lineaire transformatie, kwantisatie en entropiecodering. De architectuur bestaat uit drie kerncomponenten:

1. Gekaskadeerde Mamba-module (CMM)

Om langeafstandsafhankelijkheden in zowel ruimte als tijd te modelleren, introduceren de auteurs een Cascaded Mamba Module.

Geometrische Transformaties: In plaats van meerdere richtingen parallel te scannen (wat rekenkracht kost), gebruiken ze een enkele scanrichting gecombineerd met omkeerbare geometrische transformaties.
Scanstrategieën: De module scant video-features in vier richtingen door transformaties toe te passen op de input:
- FST (Forward Spatio-Temporal): Scan per frame in voorwaartse richting.
- BST (Backward Spatio-Temporal): Scan per frame in achterwaartse richting (via spiegeling).
- FTS (Forward Temporal-Spatial): Scan langs de tijd voor dezelfde ruimtelijke locatie (via transponering).
- BTS (Backward Temporal-Spatial): Scan langs de tijd in achterwaartse richting.
Dit zorgt voor een uitgebreide globale contextmodeling binnen de encoder en decoder.

2. Locality Refinement Feed-Forward Network (LRFFN)

Om lokale ruimtelijke relaties en fijne details vast te leggen (wat de standaard FFN mist), wordt een LRFFN voorgesteld.

Hybride Convolutieblok (HCB): Dit blok bevat vijf parallelle convoluties: verticale, horizontale, hoekige en centrale differentie-convoluties (difference convolutions), plus een standaard convolutie.
Doel: Differentie-convoluties focussen op variaties tussen naburige waarden in plaats van absolute intensiteit, wat leidt tot een compactere representatie en minder bits nodig heeft. Dit blok modereert de features om redundantie te verminderen.

3. Conditioneel Kanaal-georiënteerd Entropiemodel (CCEM)

Om de waarschijnlijkheidsverdeling van de huidige latent features nauwkeuriger te schatten, wordt een conditioneel entropiemodel gebruikt.

Pseudo-Latent Features: In tegenstelling tot eerdere methoden die alleen eerdere decoded frames gebruiken, gebruikt dit model ook pseudo-latent features van het huidige frame.
Predictive Motion Alignment (PMA): Een module schat de beweging tussen twee eerder decoded frames ( $\bar{y}_{t-2}$ en $\bar{y}_{t-1}$ ) en past deze toe om een uitgelijnd feature voor het huidige frame te genereren.
Condition Generation Network (CGN): Combineert de uitgelijnde features en eerdere decoded latents om conditionele priors te genereren voor de entropiemodel-schattingsnetwerken.

Belangrijkste Bijdragen

Nieuwe Architectuur: Een frame- en latent-afhankelijk transformatie-gebaseerd compressiemethode die competitieve perceptuele kwaliteit en temporele coherentie bereikt zonder complexe bewegingscompensatie.
CMM met Geometrische Transformaties: Een innovatieve module die langeafstandsafhankelijkheden over ruimte en tijd vastlegt via een cascade van Mamba-blokken met verschillende scanrichtingen en omkeerbare transformaties.
LRFFN: Een netwerk voor lokale verrijking dat differentie-convoluties gebruikt om fijne details efficiënter te coderen dan bestaande FFN-varianten.
Geavanceerd Entropiemodel: Een conditioneel kanaal-georiënteerd model dat zowel e decoded latents als gesimuleerde (pseudo) features van het huidige frame gebruikt als condities voor betere schatting van de entropie.

Resultaten

De methode is getest op standaard benchmarks (REDS4, UVG, MCL-JCV) en vergeleken met state-of-the-art methoden zoals DCVC-serie, DHVC, en GLC-video.

Perceptuele Kwaliteit: GTEM-LVC presteert overtuigend beter op perceptuele metrieken (LPIPS en DISTS), vooral bij lage bitrates. Het produceert minder wazige beelden en behoudt structurele details (zoals lantaarnpalen en bruggen) beter dan concurrenten.
Temporele Coherentie: De methode behaalt de beste resultaten op tLPIPS (temporele consistentie), wat betekent dat er minder artefacten en discontinuïteiten tussen opeenvolgende frames zijn.
Distortion Metrics: Hoewel het primair gericht is op perceptie, behaalt het ook sterke PSNR- en MS-SSIM-waarden, vaak beter dan methoden die puur op perceptie zijn geoptimaliseerd (zoals ICISP).
Efficiëntie: Het model heeft een vergelijkbaar aantal parameters als hybride codecs (zoals DCVC-HEM) en is sneller in coderen/decoderen dan DCVC, hoewel de entropiemodule nog een aanzienlijk deel van de rekentijd en parameters in beslag neemt.

Significantie

Dit paper markeert een belangrijke stap in de evolutie van videocompressie door de complexiteit van hybride codering te elimineren zonder in te leveren op prestaties. Door Mamba (State Space Models) te combineren met geometrische transformaties en differentie-convoluties, biedt het een nieuwe richting voor het modelleren van spatiotemporele afhankelijkheden. De resultaten tonen aan dat transformatie-gebaseerde methoden, wanneer ze goed zijn ontworpen voor langeafstandsafhankelijkheden, superieur kunnen zijn aan traditionele hybride benaderingen, vooral in scenario's met lage bandbreedte waar perceptuele kwaliteit cruciaal is. De broncode en modellen zijn openbaar beschikbaar gesteld, wat de reproduceerbaarheid en verdere ontwikkeling in de gemeenschap zal stimuleren.