Generative Neural Video Compression via Video Diffusion Prior

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een hele mooie, levendige video wilt versturen via een heel trage internetverbinding. Je moet de video zo klein mogelijk maken (compressie) om hem te kunnen sturen, maar je wilt dat hij er nog steeds goed uitziet als hij aankomt.

Deze paper introduceert een nieuwe slimme methode genaamd GNVC-VD. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Wazige" of "Flitsende" Video

Tot nu toe hadden we twee soorten problemen bij het comprimeren van video's:

De oude methode (zoals HEVC of VVC): Deze proberen de video zo nauwkeurig mogelijk te bewaren, maar als je de bestandsgrootte te klein maakt, wordt de video wazig en onduidelijk. Het is alsof je een foto te veel inkleurt; je ziet de details niet meer.
De nieuwe generatieve methode (zoals GLC-Video): Deze proberen de details "te verzinnen" door te kijken naar wat er zou moeten zijn. Dit levert scherpe beelden op, maar ze zijn vaak onstabiel. Elke frame ziet er anders uit, waardoor de video begint te flikkeren of te trillen. Het is alsof je een schilderij maakt waarbij elke seconde de verf van kleur verandert; het oogt chaotisch.

2. De Oplossing: Een Slimme Regisseur met een "Video-Geheugen"

De auteurs van deze paper zeggen: "Waarom gebruiken we geen slimme kunstenaar die niet alleen naar één plaatje kijkt, maar naar de hele film?"

Hun systeem, GNVC-VD, werkt als een regisseur die een film draait:

De Basis (De "Ruwe Opname"): Eerst wordt de video heel sterk gecomprimeerd. Dit is alsof je de film opneemt met een heel slechte camera: het beeld is wazig en mist details.
De Regisseur (De "Video-Diffusie Prior"): In plaats van een statische kunstenaar die alleen naar één frame kijkt, gebruiken ze een video-gebaseerd AI-model. Dit model is getraind op duizenden uren aan films. Het begrijpt hoe beweging werkt, hoe objecten zich verplaatsen en hoe texturen eruit moeten zien in de tijd.
De Verbetering (Het "Retoucheren"):
- De AI kijkt naar die wazige, gecomprimeerde video.
- In plaats van te beginnen met een blanco doek (zoals bij het maken van een nieuwe video), gebruikt de AI de wazige video als startpunt.
- De AI "corrigeert" de fouten die door de compressie zijn ontstaan. Het voegt scherpe details toe (zoals textuur op een shirt of haar), maar doet dit op een manier die consistent blijft van frame tot frame.

3. De Creatieve Analogie: De Restaurator van een Oude Film

Stel je voor dat je een oude, beschadigde filmrol hebt die erg korrelig en wazig is.

Oude methoden proberen de korrels weg te poetsen, waardoor de film glad en wazig wordt.
Bestaande generatieve methoden proberen de film te "herstellen" door elke scène apart te schilderen. Het resultaat is prachtig, maar als je de film afspeelt, zie je dat de personages ineens van kleding veranderen of dat de achtergrond trilt. Het voelt niet echt.
GNVC-VD is als een meester-restaurator die de hele filmrol in één keer bekijkt. Hij weet: "Ah, dit is een auto die rijdt. In het vorige frame was hij hier, en in het volgende frame moet hij daar zijn."
- Hij voegt de details toe (de glans op de lak, de wielen die draaien), maar zorgt ervoor dat de beweging vlot en natuurlijk blijft.
- Hij gebruikt zijn kennis van hoe video's werken (de "video-native prior") om te voorkomen dat de beelden gaan flikkeren.

4. Waarom is dit speciaal?

Het grote geheim van deze paper is dat ze een video-model gebruiken om een video te comprimeren.

Eerdere generatieve methoden gebruikten modellen die alleen voor foto's waren gemaakt. Dat is alsof je een film probeert te maken door 1000 losse foto's achter elkaar te plakken zonder te kijken of ze bij elkaar passen.
GNVC-VD gebruikt een model dat is getraind op beweging en tijd. Hierdoor blijft de video stabiel, zelfs als de bestandsgrootte extreem klein is (minder dan 0,01 bits per pixel!).

Samenvatting

GNVC-VD is als een slimme assistent die een heel kleine, wazige video ontvangt en die omtovert naar een haarscherpe, vloeiende film. Hij doet dit niet door willekeurige details te verzinnen, maar door te begrijpen hoe de wereld beweegt. Het resultaat: video's die eruitzien alsof ze in hoge kwaliteit zijn opgenomen, zelfs als je ze verstuurt via een heel trage internetverbinding, zonder die vervelende flikkering die andere nieuwe methoden hebben.

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem

Neurale videocompressie (NVC) heeft de afgelopen jaren grote vooruitgang geboekt en presteert vaak beter dan traditionele hybride standaarden zoals HEVC en VVC op het gebied van rate-distortion optimalisatie. Echter, bij ultra-lage bitrates (onder de 0,03 bpp) stuiten bestaande methoden op fundamentele beperkingen:

Perceptieve ineenstorting: Traditionele codecs, geoptimaliseerd voor distortion-metrics zoals MSE, leiden tot oververvaging (oversmoothing) en het verlies van fijne texturen.
Tijdelijke inconsistentie (Flickering): Bestaande "generatieve" codecs proberen dit op te lossen door pre-getrainde beeld-generatieve prioren (zoals GANs of beeld-diffusiemodellen) te gebruiken. Omdat deze modellen statisch zijn en geen expliciete tijdsdynamiek modelleren, ontstaan er structurele hallucinaties en onstabiele details tussen opeenvolgende frames. Dit resulteert in zichtbaar temporeel flikkeren, wat vooral ernstig is bij extreem lage bitrates.

De kernvraag is: hoe kunnen we de scherpe texturen van generatieve modellen combineren met de strikte vereiste van temporele coherentie in video?

2. Methodologie: GNVC-VD

De auteurs introduceren GNVC-VD, het eerste generatieve neurale videocompressieframework dat volledig bouwt op een video-natieve diffusie-prior (specifiek een Video Diffusion Transformer of VideoDiT, gebaseerd op het Wan2.1-model). In plaats van losse frames te verbeteren, behandelt GNVC-VD het comprimeren en reconstrueren als een sequentie-niveau proces.

Het framework bestaat uit drie hoofdblokken:

A. Spatio-temporele Latent Compressie

Een 3D Causal VAE Encoder (uit Wan2.1) comprimeert het inputvideo naar een compacte spatio-temporele latent sequentie ( $x_1$ ).
Een Contextual Latent Codec comprimeert deze latents verder. Voor I-frames (anchors) wordt een onafhankelijke transformatie gebruikt, terwijl voor P-frames (predictive) de decodeerde latent van het vorige frame ( $\hat{l}_{t-1}$ ) als context wordt gebruikt om tijdelijke redundantie te verminderen.
De gecomprimeerde latents worden via entropy-coding omgezet in een bitstream.

B. Flow-Matching Latent Refinement (De Kerninnovatie)

In plaats van te denoisen vanuit pure Gaussisch ruis (zoals bij video-generatie), start GNVC-VD de verfijning direct vanuit de gedecodeerde, gecomprimeerde latents ( $x_c$ ).

Flow-Matching Formulier: Het model leert een continu snelheidsveld ( $v_\tau$ ) dat de data van een verstoord punt ( $x_{tN}$ ) naar het schone data-manifold ( $x_1$ ) transporteert.
Correctie Term: Omdat $x_c$ al dicht bij de echte data ligt, leert het model geen volledige generatie, maar een correctieterm ( $\Delta v_{fine}$ ). Deze term past de pre-getrainde diffusie-prior aan op de door compressie veroorzaakte degradaties.
Conditioning Adapter: Er worden speciale adapter-blokken ingevoegd in de lagen van de VideoDiT. Deze injecteren contextuele features (afgeleid van de gecomprimeerde latents) om de generatieve prior te sturen. Dit zorgt ervoor dat de reconstructie scherpe texturen herstelt terwijl de tijdelijke coherentie behouden blijft.

C. Twee-staps Trainingsstrategie

Om de kloof tussen de codec en de diffusie-prior te overbruggen, wordt in twee fasen getraind:

Latent-Level Alignment: De codec en de adapter worden getraind om ervoor te zorgen dat de verrijkte latents semantisch en structureel overeenkomen met de ground-truth latents van de VAE. Dit gebruikt een flow-matching loss.
Pixel-Level Fine-Tuning: Het volledige systeem wordt in de pixel-domein gefinetuned met een combinatie van perceptuele loss (LPIPS), distortion loss (MSE) en rate-regulatie. Dit zorgt voor visueel overtuigende resultaten.

3. Belangrijkste Bijdragen

Eerste Video-Native Generatieve Codec: GNVC-VD is het eerste framework dat een pre-getraind video-diffusiemodel (DiT) gebruikt voor compressie, in plaats van statische beeld-prioren. Dit elimineert de fundamentele beperking van frame-voor-frame generatie.
Sequentie-Niveau Latent Refinement: Door de gehele video-sequentie gezamenlijk te denoisen via flow-matching, wordt tijdelijke coherentie gegarandeerd zonder artefacten zoals flikkering.
Compressie-bewuste Conditioning: De introductie van conditioning adapters die compressie-artefacten direct corrigeren binnen het diffusieproces, waardoor het model specifiek is afgestemd op de degradatie door kwantisatie.
State-of-the-Art Prestaties: Het framework presteert superieur in perceptuele kwaliteit en tijdelijke stabiliteit, zelfs onder extreme bitrate-beperkingen (<0.03 bpp).

4. Resultaten

De auteurs evalueren GNVC-VD op standaard datasets (HEVC Class B, UVG, MCL-JCV) en vergelijken het met traditionele codecs (HEVC, VVC), neurale codecs (DCVC-FM, DCVC-RT) en eerdere generatieve methoden (GLC-Video).

Perceptuele Kwaliteit: GNVC-VD behaalt de beste resultaten op perceptuele metrics (LPIPS en DISTS). Bijvoorbeeld, op de UVG-dataset reduceert het de BD-rate met 98% ten opzichte van DCVC-RT op DISTS en 56% op LPIPS.
Tijdelijke Stabiliteit: In tegenstelling tot GLC-Video, dat last heeft van flikkering, behoudt GNVC-VD een stabiele beweging. Dit wordt kwantitatief bewezen met een lagere warp error ( $E_{warp}$ ) en een hogere CLIP-F score (semantische continuïteit).
Visuele Vergelijking: Kwalitatieve tests tonen aan dat GNVC-VD fijne texturen herstelt die bij andere methoden vervagen of onstabiel zijn. Gebruikersstudies tonen een voorkeur van >85% voor GNVC-VD ten opzichte van concurrenten.

5. Betekenis en Toekomst

GNVC-VD markeert een paradigmaverschuiving in neurale videocompressie. Het bewijst dat het integreren van video-natieve generatieve prioren de oplossing biedt voor het fundamentele probleem van perceptuele kwaliteit versus tijdelijke stabiliteit bij ultra-lage bitrates.

Impact: Het opent de weg voor de volgende generatie perceptuele videocompressie, waarbij reconstructies niet alleen statistisch accuraat zijn, maar ook visueel realistisch en vloeiend.
Toekomst: De auteurs wijzen op de noodzaak om de rekentijd (inference latency) te verbeteren en de transform-coding-module efficiënter te maken, aangezien de huidige implementatie nog zwaar is (ca. 2,3 miljard parameters).

Kortom, GNVC-VD lost het "flikker-probleem" op dat generatieve codecs tot nu toe heeft beperkt, en biedt een robuust kader voor toekomstige videocompressiestandaarden.