Compression as Adaptation: Implicit Visual Representation with Diffusion Foundation Models

Dit artikel introduceert een nieuw raamwerk voor visuele representatie waarbij video's worden gecodeerd als functies met lage-rang aanpassingen op een bevroren generatief model, waardoor compressie met uiterst lage bitrates mogelijk is en een brug wordt geslagen tussen beeldcompressie en generatie.

Jiajun He, Zongyu Guo, Zhaoyang Jia, Xiaoyi Zhang, Jiahao Li, Xiao Li, Bin Li, José Miguel Hernández-Lobato, Yan Lu

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een hele film wilt opslaan op je telefoon, maar je hebt maar een heel klein stukje ruimte over. Normaal gesproken zou je de film in stukjes hakken, elk frame comprimeren en duizenden getallen opslaan. Maar wat als je in plaats daarvan de film niet als een reeks beelden opslaat, maar als een recept?

Dat is precies wat dit nieuwe onderzoek doet. Het noemen het "Compressie als Aanpassing". Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Blanco" Muur

Stel je een gigantische, superintelligente kunstenaar voor (een AI-model) die duizenden films en foto's heeft gezien. Deze kunstenaar weet precies hoe een zonsondergang eruitziet, hoe een hond rent of hoe regen op een raam valt. Hij heeft dit allemaal in zijn hoofd.

Maar tot nu toe, als je een video wilde opslaan, moest je die video als een stapel losse foto's (pixels) geven aan de kunstenaar. De kunstenaar keek er naar, maar wist niet dat hij die specifieke video al "kende" via zijn ervaring. Het was alsof je een recept voor een taart opschrijft op een los vel papier, terwijl de bakker het recept al uit zijn hoofd kent. Dat is inefficiënt en neemt veel ruimte in beslag.

2. De Oplossing: Het "Recept" (De Adaptatie)

In plaats van de hele video op te slaan, vragen de onderzoekers: "Kunnen we de kunstenaar niet gewoon een klein notitieje geven dat zegt: 'Pas je kennis een beetje aan om deze specifieke video te maken'?"

Ze gebruiken een techniek die LoRA (Low-Rank Adaptation) heet.

  • De Analogie: Stel je voor dat de AI een enorme, zware machine is die elke denkbare video kan maken. Om een specifieke video (bijvoorbeeld een clip van een kat die springt) te maken, hoef je de hele machine niet te vervangen. Je hoeft alleen maar een paar kleine schroefjes aan te draaien of een paar knoppen iets anders te zetten.
  • Dit "aanpassen" is het recept. In plaats van de video zelf op te slaan, slaan we alleen deze kleine aanpassing op.

3. De Magie: Van Recept naar Één Getal

Het meest verrassende is dat ze deze "aanpassing" (het recept) kunnen samenvouwen tot één enkele, compacte vector (een reeks getallen).

  • Vergelijkbaar met: Een hele film van 81 seconden comprimeren tot één klein USB-stickje dat kleiner is dan een postzegel.
  • Als je dit "stickje" later teruggeeft aan de AI, kan de AI het recept lezen, zijn kennis activeren en de video opnieuw "afbakken". Het resultaat ziet er bijna perfect uit, maar het kostte maar een fractie van de ruimte.

4. Waarom is dit zo slim? (De Voordelen)

  • Het is een levend recept: Normale videobestanden zijn dood; ze zijn vastgezet. Maar omdat dit een "recept" is voor een AI, kun je het recept nog steeds gebruiken om dingen te veranderen.

    • Voorbeeld: Je slaat een video op van een meisje met blond haar. Later kun je het recept gebruiken om de AI te vragen: "Maak hetzelfde meisje, maar nu met zwart haar." De AI "onthoudt" het meisje dankzij het recept, maar past de kleur aan. Het is alsof je een foto hebt die je kunt herschrijven zonder de originele foto te hoeven bewaren.
  • Betere kwaliteit door "nadenken": Als je de video afspeelt, kan de AI extra tijd nemen om na te denken over de beste manier om het beeld te maken (in het Engels: inference-time scaling).

    • Vergelijking: Stel je voor dat je een tekening maakt. Normaal doe je dat in één keer. Met deze methode kun je zeggen: "Wacht even, ik maak 100 schetsen en kies de allerbeste." Dit kost de computer even meer rekenkracht, maar het resultaat is veel mooier en scherper, zonder dat je meer opslagruimte nodig hebt.

Samenvatting in één zin

In plaats van een video als een stapel foto's op te slaan, slaan we op hoe een slimme AI die video moet maken, en dat "hoe" is zo klein dat het in één klein getal past, maar toch een prachtige, bewerkbare video oplevert.

Het is alsof je niet de hele taart opslaat, maar alleen het perfecte recept dat je kunt gebruiken om de taart altijd weer opnieuw te bakken, en zelfs de smaak kunt veranderen terwijl je hem bakt.