Real-Time Neural Video Compression with Unified Intra and Inter Coding

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een video stuurt via een smalle, drukke tunnel. De kunst van videocompressie is om die video zo klein mogelijk te maken, zodat hij snel door de tunnel past, zonder dat de kwaliteit te veel achteruitgaat.

Deze paper introduceert een nieuwe, slimme manier om dat te doen, genaamd UI2C. Hier is de uitleg in gewoon Nederlands, met een paar handige vergelijkingen.

1. Het oude probleem: De "Verkeersopstopping" en de "Blinde Vlek"

Tot nu toe gebruikten slimme computers (AI) voor videocompressie een systeem dat heel goed was in het voorspellen van wat er naast gebeurt.

De analogie: Stel je voor dat je een film kijkt. Als een bal van links naar rechts rolt, kan de computer makkelijk zeggen: "De volgende frame is bijna hetzelfde, alleen de bal is een stukje verder." Dat bespaart enorm veel ruimte.
Het probleem: Wat gebeurt er als de scène plotseling verandert? Bijvoorbeeld, de bal rolt weg en er verschijnt ineens een heel nieuw landschap. De computer kijkt nog steeds naar de oude bal en probeert die te gebruiken als referentie. Dat werkt niet meer.
- In het verleden losten ze dit op door elke 64 beelden een "reset" te doen (een volledig nieuw beeld sturen). Dit is als een vrachtwagen die stopt om een nieuwe lading te laden. Dat kost veel tijd en zorgt voor pieken in de dataverkeer (de tunnel raakt verstopt).
- Bovendien, als de computer een foutje maakt in het voorspellen, blijft die fout zich door de video voortplanten, net als een rimpel in een meer die steeds groter wordt.

2. De nieuwe oplossing: De "Zwitsers Mes" AI

De auteurs van deze paper zeggen: "Waarom hebben we twee verschillende gereedschappen nodig? Eentje voor het voorspellen (inter) en eentje voor het volledig opnieuw tekenen (intra)?"

Ze hebben één Universeel Model (UI2C) gemaakt dat beide taken kan.

De analogie: Stel je voor dat je een vertaler hebt die normaal gesproken alleen zinnen vertaalt op basis van de vorige zin (voorspellen). Maar als de vorige zin totaal onzin is of de context verandert, schakelt deze vertaler automatisch over naar "vanaf nul beginnen" (nieuw beeld tekenen).
Het resultaat: De computer hoeft niet meer te wachten op een "reset". Hij past zich direct aan. Als er een nieuwe scène is, zegt hij: "Ah, hier kan ik niet voorspellen, ik teken het nu zelf." Dit voorkomt die vervelende fouten die zich door de video verspreiden.

3. De slimme truc: "Twee voor de prijs van één"

Om dit allemaal snel genoeg te houden voor live video (zoals videogames of videobellen), gebruiken ze een tweede truc: Simultane Twee-Frame Compressie.

De analogie: Stel je voor dat je twee foto's van elkaar hebt. Normaal gesproken zou je ze één voor één versturen. Maar deze nieuwe methode pakt twee foto's tegelijk (bijvoorbeeld frame 1 en frame 2) en kijkt ze samen aan.
Waarom is dit slim? Omdat frame 2 al bekend is op het moment dat we frame 1 coderen, kan de computer terugkijken. Het is alsof je een verhaal schrijft, maar je mag ook naar de volgende zin kijken om te weten hoe je de huidige zin het beste kunt formuleren.
Het voordeel: Dit maakt de voorspelling veel nauwkeuriger, vooral bij moeilijke dingen zoals beweging of verduistering. Het kost slechts één extra seconde wachttijd (latency), wat voor de meeste mensen nauwelijks merkbaar is, maar de kwaliteit wel enorm verbetert.

4. Hoe hebben ze het getraind? (De "Hybride" Training)

Om de AI te leren wanneer hij moet voorspellen en wanneer hij moet tekenen, hebben ze hem op een slimme manier getraind.

De analogie: Ze hebben de AI niet alleen geoefend met perfecte video's. Ze hebben hem ook geoefend met "verkeerde" of "gebroken" referenties. Soms kregen ze een blanco scherm, soms een ruisend beeld.
Het doel: Hierdoor leerde de AI: "Oké, als de vorige informatie rot is, dan ga ik mijn eigen werk doen en het beeld zelf tekenen." Hierdoor hoeft er geen handmatige reset meer plaatsvinden.

Wat is het resultaat?

De tests tonen aan dat deze nieuwe methode:

Beter is dan de huidige beste methoden: Ze besparen gemiddeld 12% meer data dan de vorige topmethode (DCVC-RT), terwijl de kwaliteit hetzelfde of zelfs beter is.
Stabiel blijft: Geen grote pieken in dataverbruik meer bij scène-wissels. De video blijft soepel.
Snel genoeg is: Het werkt in real-time, dus je kunt het gebruiken voor live streaming of videogames zonder merkbare vertraging.

Kort samengevat:
Ze hebben een slimme AI gemaakt die niet vastzit aan één manier van werken. Hij kan zowel voorspellen als zelf tekenen, en hij kijkt altijd twee stappen vooruit. Hierdoor worden video's kleiner, scherper en stabieler, zonder dat de verbinding vastloopt. Het is alsof je van een oude, trage vrachtwagen overstapt op een snelle, zelflerende drone die altijd de kortste route vindt.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Real-Time Neural Video Compression with Unified Intra and Inter Coding" in het Nederlands.

Titel: Real-Time Neural Video Compression met Gecombineerde Intra- en Inter-Coding

Auteurs: Hui Xiang, Yifan Bian, Li Li, Jingran Wu, Xianguo Zhang, Dong Liu (University of Science and Technology of China)

1. Het Probleem

Neurale video-compressie (NVC) heeft aanzienlijke vooruitgang geboekt, met modellen zoals DCVC-RT die H.266/VVC overtreffen in compressie-efficiëntie en real-time prestaties. Desondanks lijden bestaande NVC-systemen aan fundamentele beperkingen:

Gebrek aan robuuste intra-coding: Bestaande modellen prioriteren inter-frame voorspelling. Wanneer referentie-informatie ontbreekt (bijv. bij sceneschakelingen, disocclusie of nieuwe inhoud), zijn P-frames gedwongen om te vertrouwen op hun zwakke inherente intra-coding capaciteit. Dit leidt tot kwaliteitsverlies en ernstige propagatie van fouten naar volgende frames.
Foutaccumulatie en handmatige refresh: Bij zeer lange video's accumuleren fouten in de referentie-features. Bestaande oplossingen gebruiken periodieke "refresh"-mechanismen (waarbij features worden omgezet naar pixels en opnieuw ingevoerd). Dit heeft twee nadelen:
1. Het gooit waardevolle inter-frame informatie (zoals lange-termijn tijdsinhoud) weg.
2. Het veroorzaakt pieken in de bitrate (bitrate spikes) op het moment van refresh, wat netwerkcongestie kan veroorzaken en de implementatie bemoeilijkt.
Scheiding van modellen: Traditionele NVC-systemen gebruiken vaak aparte modellen voor I-frames (intra) en P-frames (inter). Dit verhoogt de complexiteit en vereist handmatige ingrepen om fouten te corrigeren.

2. Methodologie

De auteurs stellen UI2C (Unified Intra and Inter Coding) voor, een framework dat de beperkingen van bestaande systemen aanpakt door intra- en inter-coding te verenigen in één enkel model.

A. Gecombineerd Intra- en Inter-Coding Model

In plaats van aparte modellen voor I- en P-frames, gebruikt UI2C één enkel spatio-temporaal netwerk dat adaptief schakelt tussen intra- en inter-coding:

Adaptieve balans: Het model leert tijdens het trainen om te balanceren op basis van de kwaliteit van de referentie. Als de referentie betrouwbaar is, wordt inter-coding gebruikt; als de referentie onbetrouwbaar is of ontbreekt (zoals bij een sceneschakeling of het eerste frame), activeert het model zijn inherente intra-coding capaciteit.
Geen handmatige refresh: Omdat het model zelfstandig fouten kan corrigeren via intra-coding, zijn handmatige refresh-mechanismen overbodig. Dit elimineert bitrate pieken en behoudt waardevolle tijdsinformatie.
Initiatie: Voor het eerste frame wordt een "blank" (lege) signaal via een adaptor gevoerd om referentie-features te genereren, waardoor het model direct in de intra-coding modus terechtkomt.

B. Simultane Twee-Frame Compressie

Om de compressie-efficiëntie te maximaliseren zonder real-time prestaties te offeren, introduceert het auteurs een techniek voor gelijktijdige compressie van twee opeenvolgende frames ( $x_t$ en $x_{t+1}$ ):

Bidirectionele redundantie: Door $x_t$ en $x_{t+1}$ samen te voegen en te coderen, kan het model gebruikmaken van achterwaartse referenties (van $x_{t+1}$ naar $x_t$ ) naast voorwaartse referenties.
Lagere latentie: Dit introduceert slechts één frame vertraging (1-frame latency), wat acceptabel is voor veel real-time toepassingen (zoals streaming).
Gemeenschappelijke bitstream: De twee frames worden gecodeerd in één compacte bitstream, wat de efficiëntie verhoogt en de feature-level consistentie verbetert na gezamenlijke downsampling.

C. Training met Hybride Referenties

Om het model te leren omgaan met variërende referentiekwaliteit, wordt een hybride trainingsstrategie gebruikt:

Tijdens het trainen worden de referenties voor het eerste frame willekeurig gekozen uit drie opties: een volledig leeg signaal (blank), het grondwaarheid (GT) beeld van het vorige frame, of een met ruis verstoord versie van dat GT-beeld.
Dit dwingt het model om de betrouwbaarheid van de referentie te evalueren en adaptief intra-coding in te zetten voor foutcorrectie, zonder dat er handmatige ingrepen nodig zijn.

D. Twee-Frame Quantisatie

Om de kwaliteit tussen de twee gelijktijdig gecodeerde frames te reguleren, wordt een strategie met twee verschillende quantisatieparameters (QP) gebruikt. De latere frame ( $x_{t+1}$ ) krijgt een hogere QP (lagere kwaliteit) om ervoor te zorgen dat deze een betere referentie biedt voor toekomstige frames, terwijl de huidige frame ( $x_t$ ) prioriteit krijgt voor kwaliteit.

3. Belangrijkste Bijdragen

Unificatie van Modellen: Het verenigen van intra- en inter-coding in één enkel model, wat de noodzaak voor aparte I-frame modellen elimineert en de parametercount verlaagt.
Adaptieve Foutcorrectie: Het model kan automatisch schakelen naar intra-coding bij onbetrouwbare referenties, waardoor foutpropagatie wordt tegengegaan en handmatige refresh-mechanismen overbodig worden.
Simultane Twee-Frame Compressie: Een innovatieve techniek die achterwaartse referenties benut binnen een real-time kader (1 frame latency), wat leidt tot betere modellering van verduisterde gebieden en tijdsafhankelijkheden.
Hybride Trainingsstrategie: Een methode om het model robuust te maken voor lange sequenties en sceneschakelingen door willekeurige referentiestrategieën tijdens training.

4. Resultaten

De experimentele resultaten tonen aan dat UI2C de state-of-the-art (SOTA) real-time NVC-methode DCVC-RT significant overtreft:

Compressie-efficiëntie: Gemiddelde BD-rate reductie van 12,1% ten opzichte van DCVC-RT over diverse datasets (HEVC Class B-E, UVG, MCL-JCV).
Prestaties vergeleken met VTM: Het model presteert 35,7% beter dan de traditionele codec VTM-17.0.
Snelheid: Het behoudt real-time prestaties met een encoding snelheid van 65,1 fps en decoding van 46,1 fps (op een NVIDIA RTX 3090), wat vergelijkbaar is met DCVC-RT.
Stabiliteit: In tegenstelling tot DCVC-RT, dat bitrate pieken vertoont bij refresh-punten, toont UI2C een zeer stabiele bitrate en kwaliteit per frame, zelfs bij sceneschakelingen.
Intra-coding capaciteit: Het model presteert aanzienlijk beter bij het coderen van het eerste frame of bij sceneschakelingen dan de P-frame modus van DCVC-RT, en komt dicht in de buurt van de prestaties van de zware, gespecialiseerde I-frame modellen van DCVC-RT.

5. Betekenis en Conclusie

Dit werk adresseert kritieke knelpunten in real-time neurale video-compressie. Door intra- en inter-coding te verenigen en simultane tweeframe-compressie toe te passen, lost UI2C het probleem van foutaccumulatie en bitrate-oscillaties op zonder in te leveren op snelheid.

De belangrijkste implicatie is dat real-time NVC-systemen nu robuust kunnen zijn in dynamische scenario's (zoals sceneschakelingen) zonder de complexiteit van handmatige refresh-mechanismen of aparte I-frame modellen. Hoewel de inferentiesnelheid nog niet volledig geoptimaliseerd is voor zeer beperkte randapparatuur (zoals lage-power GPU's/NPU's), biedt UI2C een nieuwe standaard voor efficiënte, stabiele en real-time video-compressie. De code is open-source beschikbaar gesteld.