SWIFT: Sliding Window Reconstruction for Few-Shot Training-Free Generated Video Attribution

Each language version is independently generated for its own context, not a direct translation.

SWIFT: De "Tijdsleutel" voor het Opsporen van AI-Videos

Stel je voor dat er een nieuwe soort magie is ontstaan: computers die zo realistische video's kunnen maken dat je ze nauwelijks van de echte wereld kunt onderscheiden. Dit is geweldig, maar ook gevaarlijk. Wat als iemand een nepvideo maakt van een politicus die iets vreselijks zegt, of een nepnieuwsclip die paniek zaait? Hoe weet je dan wie de maker is?

Tot nu toe waren er twee manieren om dit op te lossen, maar beide hadden grote nadelen:

De "Watermerk-methode": Je plakt een onzichtbaar stempel in de video tijdens het maken. Maar dit is lastig, want niet elke maker wil of kan dit doen, en het kan de kwaliteit van de video verpesten.
De "Leren-methode": Je bouwt een slimme detector die duizenden voorbeelden moet zien om te leren wat nep is. Dit kost enorm veel tijd, geld en rekenkracht.

De onderzoekers van dit papier (SWIFT) zeggen: "Wacht even, we hoeven niet te leren en we hoeven ook niet te stempelen. We kunnen de video gewoon lezen alsof het een boek is."

Het Geheim: De "Tijdsleutel"

De kern van hun ontdekking is een slimme observatie over hoe moderne AI-video's worden gemaakt.

Stel je voor dat een AI-film niet frame voor frame wordt getekend, maar in blokken (zoals een puzzel). De AI pakt een blok van bijvoorbeeld 8 beelden en verwerkt ze als één geheel. Ze noemen dit een "Chunk".

De Magie: In dit blok zit een heel specifiek patroon. De AI zorgt ervoor dat de beweging tussen die 8 beelden perfect op elkaar aansluit, alsof ze één vloeiende dans zijn. Dit noemen ze de "tijdsleutel".
Het Probleem: Als je die beelden in het blok een beetje verschuift (bijvoorbeeld het eerste beeld naar het einde doet), dan breekt die dans. De beweging wordt haperend en onnatuurlijk.

Hoe werkt SWIFT? (De Sliding Window)

SWIFT is een slimme detector die geen training nodig heeft. Het werkt als een sluipschutter met een vergrootglas:

De Twee Scans: SWIFT kijkt naar een video en doet twee dingen tegelijk:
- Scan A (Normaal): Het kijkt naar de video zoals hij is. De "dans" tussen de beelden is perfect.
- Scan B (Verstoorde): Het schuift een raam een paar beelden opzij. Hierdoor worden de beelden in het blok "verkeerd" samengevoegd. De dans is nu kapot.
De Vergelijking:
- Als de video van de AI is: Bij Scan A ziet de AI de perfecte dans en kan hij de video makkelijk "herbouwen" (reconstrueren). Bij Scan B, waar de dans kapot is, raakt de AI in paniek. De reconstructie lukt slecht en de fout (de "loss") wordt enorm groot. Het verschil tussen Scan A en Scan B is groot.
- Als de video echt is (of van een andere AI): De echte video of een video van een andere maker heeft die specifieke "tijdsleutel" niet. Of Scan A of Scan B, de AI kan de video niet echt "herkennen" als zijn eigen werk. Het verschil tussen de twee scans is klein.
Het Oordeel: SWIFT meet dit verschil. Is het verschil groot? Dan is de video van die specifieke AI. Is het verschil klein? Dan is het niet van die AI.

Waarom is dit zo cool?

Geen Training Nodig: Je hoeft geen duizenden uren te besteden aan het leren van een detector. Je gebruikt alleen de "handtekening" die de AI al in zijn eigen werk heeft achtergelaten.
Weinig Voorbeelden: Je hebt maar een handvol video's nodig (ongeveer 20) om de drempel in te stellen. Zelfs zonder enige voorbeelden werkt het voor sommige modellen (zero-shot).
Snel en Efficiënt: Omdat het alleen kijkt naar kleine blokjes en niet de hele video in één keer, gaat het veel sneller dan oude methoden.
Kwaliteit Behouden: Het verandert niets aan de video zelf. Geen watermerken, geen ruis.

De Analogie: De Originele Vloer

Stel je voor dat je een vloer hebt die is gelegd door een meester-timmerman (de AI). Hij legt de planken zo dat ze perfect in elkaar grijpen.

SWIFT is iemand die een stukje van de vloer pakt en probeert het opnieuw te leggen.
Als hij het origineel pakt, past het perfect (Scan A). Als hij de planken een beetje verschuift, past het niet meer en vallen ze uit elkaar (Scan B). Het verschil is duidelijk: "Dit is van die meester!"
Als hij een gewone vloer pakt (van een andere timmerman of echt hout), past het bij Scan A ook niet perfect, en bij Scan B ook niet. Het verschil is verwaarloosbaar. "Dit is niet van die meester."

Conclusie

SWIFT is als een detective die de ademhaling van de video hoort. Elke AI heeft een eigen ritme in hoe hij beweging creëert. SWIFT hoort of dat ritme klopt of niet, zonder dat de detective ooit een lesje heeft gevolgd. Het is een krachtig, snel en slim wapen in de strijd tegen nepnieuws en misbruik van AI-video's.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

De snelle vooruitgang in videogenereertechnologieën, gedreven door Latent Diffusion Models (LDMs) zoals Sora, HunyuanVideo en Wan2.1, heeft zorgen gewekt over misbruik, zoals schending van intellectueel eigendom en het verspreiden van desinformatie. Het is cruciaal om de oorsprong van gegenereerde video's te kunnen traceren.

Bestaande methoden voor videobronattributie (het bepalen welk model een video heeft gegenereerd) hebben echter ernstige beperkingen:

Actieve methoden (Watermarking): Vereisen ingrepen tijdens of na het generatieproces, wat de videokwaliteit kan aantasten en vaak niet beschikbaar is voor auditors zonder volledige modeltoegang.
Passieve methoden (Training-based): Vereisen het trainen van specifieke detectiemodellen met grote datasets. Dit is kostbaar, tijdrovend en niet schaalbaar wanneer nieuwe generatiemodellen verschijnen.
Bestaande reconstructiemethoden: Methoden die succesvol zijn voor afbeeldingen (zoals AEDR) presteren slecht bij video's omdat ze de complexe temporale coherentie (tijdgerelateerde samenhang) van videodata negeren.

De kernuitdaging is het definiëren van een methode voor weinig-shot (few-shot) en trainingsvrije (training-free) attributie die robuust is, geen extra data vereist en de specifieke eigenschappen van moderne videomodellen benut.

Methodologie: SWIFT

De auteurs stellen SWIFT (Sliding Window Reconstruction) voor, een methode die specifiek is ontworpen om de temporale kenmerken van moderne videomodellen te benutten.

Kerninzicht:
Moderne state-of-the-art (SOTA) videomodellen gebruiken vaak 3D-VAE's (Variational Autoencoders) om de hoge rekenkracht te beheersen. Deze VAE's comprimeren video in zowel ruimtelijke als temporale dimensies. Dit creëert een unieke tijdsafhankelijke mapping binnen elk "chunk" van de video:

Mapping: Veel pixelframes (Pixel Frames) worden afgebeeld op één latent frame (Latent Frame).
Temporale Consistentie: Voor video's die door het doelmodel zijn gegenereerd ("belonging videos"), is deze mapping consistent met de verdeling van de VAE.

Het SWIFT-algoritme:

Vaste Lengte Schuifvenster (Fixed-Length Sliding Window):
- De video wordt opgesplitst in chunks van $K$ frames (waarbij $K$ de temporale compressiefactor is, vaak 4 of 8).
- Er worden twee reconstructies uitgevoerd met verschuivende vensters:
  - Normaal Venster ( $W_0$ ): Start bij het begin van de video. De frames binnen elke chunk zijn correct uitgelijnd met de VAE-compressie.
  - Corrupt Venster ( $W_{K-1}$ ): Het venster wordt verschoven met $K-1$ frames. Hierdoor worden de frames binnen de chunks verkeerd uitgelijnd ten opzichte van de VAE-compressie, waardoor de temporale consistentie wordt verbroken.
Reconstructie en Verliesanalyse:
- De auditor (die alleen toegang heeft tot de VAE-decoder van het doelmodel) reconstructeert beide vensters.
- Voor "Belonging" video's: De normale reconstructie heeft een laag verlies omdat de temporale mapping klopt. De corrupte reconstructie heeft een hoog verlies omdat de temporale consistentie is verbroken en de VAE de data niet correct kan decoderen.
- Voor "Non-Belonging" video's (andere modellen of echte video's): Deze voldoen niet aan de specifieke VAE-distributie van het doelmodel. Zowel de normale als de corrupte reconstructie leiden tot vergelijkbare (hoge) verliezen, omdat er geen onderliggende temporale mapping is om te breken.
Attributie-signaal:
- Het signaal $t$ wordt berekend als de gemiddelde verhouding van het verlies tussen de twee reconstructies voor de overlappende frames:
  $t = \frac{\text{Loss}_{\text{Normal}}}{\text{Loss}_{\text{Corrupted}}}$
- Als $t$ significant lager is dan 1, is de video waarschijnlijk gegenereerd door het doelmodel. Als $t \approx 1$ , is het niet.
Drempelbepaling (KDE):
- Om een beslissingsdrempel te bepalen zonder grote datasets, gebruiken de auteurs Kernel Density Estimation (KDE). Dit is een niet-parametrische methode die adaptief een drempelwaarde $\tau$ berekent op basis van een klein aantal voorbeeldvideo's (few-shot).

Belangrijkste Bijdragen

Nieuw Paradigma: De paper definieert voor het eerst formeel de taak van "few-shot training-free generated video attribution". Dit schakelt de noodzaak uit voor het trainen van modellen of het inbedden van watermerken.
SWIFT Framework: Het is het eerste framework dat de inherente temporale mapping van 3D-VAE's ("Pixel Frames(many) ↔ Latent Frame(one)") expliciet gebruikt voor attributie. Door deze mapping te breken, creëert het een sterk onderscheidend signaal.
Efficiëntie en Generalisatie: De methode vereist geen extra trainingstijd, behoudt de videokwaliteit (geen watermerken) en werkt met slechts een handvol voorbeelden.

Resultaten

De auteurs hebben SWIFT geëvalueerd op vijf state-of-the-art videomodellen: HunyuanVideo, Wan2.1, EasyAnimate, LTX-Video en Wan2.2.

Prestaties: SWIFT bereikte een gemiddelde attributie-accuraatheid van 94,0% over alle modellen, vergeleken met 73,6% voor de beste bestaande trainingsvrije methode (AEDR).
Few-Shot Capabiliteit: Met slechts 20 video-voorbeelden voor het bepalen van de drempel, bereikte SWIFT al een gemiddelde nauwkeurigheid van 90%.
Zero-Shot Potentieel: Voor bepaalde modellen (HunyuanVideo, EasyAnimate, Wan2.2) was zelfs zero-shot attributie mogelijk (zonder voorbeeldvideo's, puur op basis van een theoretische drempel van 1), met accuratenheden rond de 90%.
Efficiëntie: SWIFT is 4% tot 32% sneller dan AEDR, omdat het werkt met vensters in plaats van de volledige video te reconstrueren.
Robuustheid: De methode blijft effectief onder post-processing zoals bijsnijden en compressie, hoewel flip- en ruisoperaties de prestaties iets verminderen (maar nog steeds beter dan AEDR).

Betekenis en Impact

SWIFT biedt een praktische en schaalbare oplossing voor het beveiligen van de informatie-ecosysteem tegen misbruik van gegenereerde video's.

Toepasbaarheid: Het werkt zelfs in scenario's met beperkte toegang (bijvoorbeeld als de auditor alleen de decoder van het model heeft), wat realistisch is voor auditors of overheidsinstanties.
Toekomstbestendig: Aangezien videomodellen steeds vaker 3D-VAE's gebruiken om de rekenlast te verlagen, wordt deze methode steeds relevanter.
Kosteneffectiviteit: Het elimineert de hoge kosten en tijd die nodig zijn voor het verzamelen van datasets en het trainen van nieuwe detectiemodellen bij elke nieuwe generatiemodel-release.

Kortom, SWIFT bewijst dat het benutten van de fundamentele architecturale eigenschappen van generatieve modellen (temporale compressie) een krachtige, trainingsvrije manier biedt om de oorsprong van synthetische video's te traceren.

SWIFT: Sliding Window Reconstruction for Few-Shot Training-Free Generated Video Attribution

Het Geheim: De "Tijdsleutel"

Hoe werkt SWIFT? (De Sliding Window)

Waarom is dit zo cool?

De Analogie: De Originele Vloer

Conclusie

Probleemstelling

Methodologie: SWIFT

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Model2Kernel: Model-Aware Symbolic Execution For Safe CUDA Kernels

Algorithmic Barriers to Detecting and Repairing Structural Overspecification in Adaptive Data-Structure Selection

Zero-Cost NDV Estimation from Columnar File Metadata

Persistence-based topological optimization: a survey

Multi-LLM Query Optimization