Fast Autoregressive Video Diffusion and World Models with Temporal Cache Compression and Sparse Attention

Dit artikel introduceert FAST-AR, een training-vrij framework dat autoregressieve videodiffusie en wereldmodellen versnelt door temporele caches te comprimeren en aandacht te versnipperen via benaderende nearest neighbor-matching, waarmee een versnelling van 5–10x wordt bereikt met constant geheugengebruik terwijl de visuele kwaliteit behouden blijft.

Oorspronkelijke auteurs: Dvir Samuel, Issar Tzachor, Matan Levy, Michael Green, Gal Chechik, Rami Ben-Ari

Gepubliceerd 2026-06-15
📖 4 min leestijd☕ Koffiepauze-leesvoer

Oorspronkelijke auteurs: Dvir Samuel, Issar Tzachor, Matan Levy, Michael Green, Gal Chechik, Rami Ben-Ari

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je een heel lang verhaal probeert te schrijven, één zin per keer. Elke keer als je een nieuwe zin schrijft, moet je elke zin die je eerder hebt geschreven opnieuw lezen om te controleren of de nieuwe zin er perfect bij past.

In de wereld van AI-videogeneratie gebeurt dit precies. Terwijl de AI een video frame voor frame creëert, houdt het een "geheugenbank" (genaamd de KV Cache) bij van alles wat tot nu toe is gegenereerd. Om het volgende frame te maken, moet de AI deze hele groeiende geheugenbank lezen.

Het probleem? Naarmate de video langer wordt, wordt deze geheugenbank enorm. De AI moet steeds meer tekst lezen om de volgende zin te schrijven. Dit maakt het proces:

  1. Steeds trager (zoals proberen een specifiek woord te vinden in een bibliotheek die elke seconde nieuwe boeken toevoegt).
  2. Duurder (het raakt het computergeheugen kwijt, zoals een rugzak die steeds te zwaar wordt om te dragen).

Het paper introduceert een nieuwe methode genaamd FAST-AR om dit op te lossen. Zie dit als het geven van een set super-slimme snelkoppelingen aan de AI, zodat het lange verhalen kan schrijven zonder moe te worden of zijn geheugen te verliezen.

Hier zijn de drie "magische trucs" die FAST-AR gebruikt:

1. De "Dubbelte Zoeker" (TempCache)

Het Probleem: In een video blijven veel dingen gedurende lange tijd hetzelfde. Als een kat door een tuin loopt, zien de achtergrondbomen en de vact van de kat er in frame 100 en frame 101 bijna identiek uit. De AI verspilde tijd aan het twee keer onthouden van precies hetzelfde ding.
De Oplossing: FAST-AR werkt als een slimme bibliothecaris die opmerkt: "Hé, ik heb al een perfecte kopie van deze boom in mijn geheugen. Ik hoef hem niet nog een keer op te schrijven."
Het comprimeert het geheugen door deze "bijna-duplicaten" samen te voegen. In plaats van elk afzonderlijk frame te onthouden, onthoudt het de essentie van de scène. Dit houdt de omvang van het geheugen klein en constant, ongeacht hoe lang de video wordt.

2. De "Relevante Lezer" (AnnCA)

Het Probleem: Stel je voor dat je een verhaal schrijft op basis van een zeer lange prompt (een gedetailleerde beschrijving). De prompt kan zeggen: "Een kat loopt, een bus rijdt voorbij, dan verschijnt er een hond." Wanneer de AI op dat moment de "kat" tekent, hoeft het niet naar de woorden "bus" of "hond" in de prompt te kijken. Maar oude AI-modellen lezen de hele prompt elke keer opnieuw, wat energie verspilt.
De Oplossing: FAST-AR gebruikt een "snelle zoektool" (genaamd Approximate Nearest Neighbor) om direct te bepalen: "Welke woorden in de prompt zijn belangrijk voor dit specifieke frame?"
Het negeert de irrelevante woorden. Als de kat in beeld is, let het alleen op het woord "kat". Dit bespaart een enorme hoeveelheid rekenkracht.

3. De "Focus Filter" (AnnSA)

Het Probleem: Binnen de video zelf kijkt de AI naar elke pixel in relatie tot elke andere pixel. Het is alsoalsof je met iedereen in een stadion probeert tegelijk te praten, terwijl je eigenlijk alleen met de persoon naast je hoeft te praten.
De Oplossing: FAST-AR groepeert gelijkaardige zaken bij elkaar. Als een pixel deel uitmaakt van een "kat", praat het alleen met andere pixels die ook deel uitmaken van de "kat". Het negeert de achtergrond of andere objecten die er niet mee gerelateerd zijn. Het is alsof je mensen in kleine, gefocuste gespreksgroepjes plaatst in plaats van in één grote, luidruchtige menigte.

Het Resultaat: Een Marathonloper, Geen Sprinter

Het paper laat zien dat de AI met deze drie trucs video's 5 tot 10 keer sneller kan genereren dan voorheen.

  • Oude manier: Naarmate de video langer wordt, wordt de AI steeds trager en raakt het uiteindelijk het geheugen kwijt (zoals een hardloper die moe wordt en stopt).
  • FAST-AR manier: De AI loopt een constant, hoog tempo en blijft dat voor altijd. De snelheid en het geheugengebruik blijven hetzelfde, of de video nu 10 seconden of 2 minuten lang is.

Kortom: FAST-AR leert de AI om te stoppen met het steeds opnieuw lezen van dezelfde oude aantekeningen, de woorden te negeren die het niet nodig heeft, en zich alleen te concentreren op de mensen met wie het praat. Dit stelt het in staat om lange, hoogwaardige video's te maken zonder vast te lopen in zijn eigen geheugen.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →