Locality-aware Parallel Decoding for Efficient Autoregressive Image Generation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een schilderij maakt, maar in plaats van een kwast te gebruiken die in één beweging een hele muur beschildert, moet je elke steen van de muur één voor één aanbrengen. En nog erger: je mag pas de tweede steen leggen als je de eerste precies hebt geplaatst, de derde pas als de tweede klaar is, en zo verder tot je 256 keer moet wachten voordat het schilderij af is.

Dat is precies hoe de oude manier van kunstmatige intelligentie (AI) om afbeeldingen te maken werkte. Het heet "autoregressief", wat in het Nederlands gewoon betekent: "voortdurend zichzelf voeden". De AI kijkt naar wat er al staat, en voegt dan één klein stukje (een 'patch' of steen) toe. Dit is traag, omdat de computer de hele tijd moet wachten op het vorige stukje voordat hij de volgende kan maken.

De onderzoekers van dit paper (uit MIT en NVIDIA) hebben een nieuwe methode bedacht, genaamd LPD (Locality-aware Parallel Decoding). Laten we uitleggen hoe dit werkt met een paar simpele vergelijkingen.

1. Het oude probleem: De "Wachtrij"

Stel je een lange rij mensen voor die een muur moeten bouwen.

Oude methode: De eerste persoon legt een baksteen. De tweede wacht tot de eerste klaar is, legt dan zijn steen, en wacht weer. De derde wacht op de tweede.
Het resultaat: Het duurt eeuwen. De computer is niet traag in rekenen, maar hij staat constant te wachten op data (het "geheugen" van de computer).

2. De oplossing: De "Bouwteam"-aanpak

De onderzoekers zeggen: "Waarom wachten we? Laten we meerdere mensen tegelijk laten werken!" Maar hier zit een addertje onder het gras. Als je twee mensen naast elkaar laat werken zonder dat ze naar elkaar kijken, kunnen ze elkaar in de weg zitten of een lelijke muur maken.

LPD lost dit op met twee slimme trucs:

Truc 1: De "Magische Bouwplaat" (Flexibele Parallelle Decoding)

In de oude methoden moesten mensen in een vaste rij werken (eerst linksboven, dan rechtsboven, enzovoort).
LPD introduceert een magische bouwplaat. Stel je voor dat je een team van bouwers hebt, en je geeft ze allemaal een speciaal bordje met een nummer erop (bijvoorbeeld "Plaats 5", "Plaats 12", "Plaats 30").

De AI kan nu zeggen: "Jullie drie mogen tegelijkertijd aan de plekken 5, 12 en 30 werken!"
De slimme kant: De AI zorgt ervoor dat deze bouwers elkaar wel kunnen zien. Ze weten wat er al op de muur staat (de context), maar ze weten ook wat hun collega's tegelijkertijd aan het doen zijn. Zo maken ze geen fouten door elkaar in de weg te staan.

Truc 2: De "Buurtbewoners" (Locality-aware)

Dit is de meest creatieve deel. De onderzoekers merkten iets interessants op: als je een muur bouwt, is het belangrijk om te werken aan plekken die dichtbij elkaar liggen.

Als je een steen legt, is het handig om de volgende steen direct ernaast te leggen, omdat je dan weet hoe de muur eruitziet.
Maar als je twee mensen tegelijk laat werken, wil je dat ze ver van elkaar vandaan werken, zodat ze niet in de war raken.

De LPD-methode gebruikt een slim bouwplan:

Het kiest eerst plekken die dichtbij de al bestaande muur liggen (zodat de nieuwe steen past).
Maar het zorgt ervoor dat de mensen die tegelijkertijd werken, ver genoeg uit elkaar staan (zodat ze niet in de weg zitten).

Het is alsof je een groep vrienden vraagt om een muur te schilderen: "Jij gaat de hoek doen, jij gaat de hoek ernaast, en jij gaat de andere kant van de kamer." Ze werken tegelijk, maar ze kiezen plekken die logisch bij elkaar passen zonder elkaar te blokkeren.

Wat is het resultaat?

Dit klinkt misschien als kleine tweaks, maar het verandert alles:

Snelheid: In plaats van 256 stappen te zetten om een plaatje te maken, doet de AI het nu in 20 stappen.
Tijd: Het duurt niet meer seconden, maar een fractie van een seconde. Het is 3,4 keer sneller dan de beste andere methoden die ook proberen om tegelijk te werken.
Kwaliteit: Het plaatje ziet er nog steeds perfect uit. Geen rare vlekken of vervormingen.

Waarom is dit belangrijk?

Vroeger moest je kiezen tussen snelheid of kwaliteit.

Wil je snel? Dan moest je een minder slimme methode gebruiken (zoals "niet-autoregressief"), maar dan zag het plaatje er vaak raar uit.
Wil je kwaliteit? Dan moest je de trage, oude methode gebruiken.

Met LPD krijg je het beste van beide werelden: het is supersnel (alsof je een hele muur in één klap beschildert) en het is net zo slim als de oude, trage methode.

Kort samengevat:
De onderzoekers hebben een manier bedacht om een AI-robot te laten werken als een goed georganiseerd bouwteam in plaats van als een eenzame, trage metselaar. Ze laten de robot meerdere stukjes tegelijk maken, maar zorgen er slim voor dat die stukjes logisch bij elkaar passen. Het resultaat? Afbeeldingen die in een flits worden gegenereerd, zonder dat de kwaliteit eronder lijdt.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Locality-aware Parallel Decoding for Efficient Autoregressive Image Generation" (LPD), gepubliceerd bij ICLR 2026.

1. Het Probleem

Traditionele autoregressieve beeldgeneratiemodellen (zoals VQGAN en LlamaGen) genereren afbeeldingen token voor token in een vaste volgorde (meestal raster-ordening). Dit leidt tot twee fundamentele beperkingen:

Hoge Latentie: Het genereren van één token per stap is een "memory-bound" proces. De efficiëntie wordt beperkt door de geheugenbandbreedte (het laden van modelparameters) in plaats van de rekenkracht, wat resulteert in hoge latentie die lineair schaalt met het aantal tokens (bijv. 256 stappen voor een 256x256 afbeelding).
Beperkte Parallelisatie: Bestaande pogingen om parallelisatie te introduceren (door meerdere tokens per stap te voorspellen) hebben vaak te kampen met lage kwaliteit of beperkte parallelisatiegraad. Methoden zoals MASKGIT zijn niet-autoregressief en vereisen bidirectionele aandacht, wat de inferentie vertraagt. Andere autoregressieve parallelle methoden (zoals PAR of RandAR) kunnen geen willekeurige generatievolgorde hanteren of verliezen contextuele samenhang binnen een parallelle groep, wat leidt tot inconsistenties in de gegenereerde afbeelding.

Daarnaast is het cruciaal dat de token-representatie "plat" (flat) blijft om compatibel te blijven met bestaande visuele fundamentmodellen (zoals CLIP of DINO), wat veel multi-schaal benaderingen uitsluit.

2. Methodologie: Locality-aware Parallel Decoding (LPD)

De auteurs introduceren LPD, een raamwerk dat bestaat uit twee kerncomponenten om hoge parallelisatie te bereiken zonder in te leveren op kwaliteit:

A. Flexibele Geparalleliseerde Autoregressieve Modellering (Flexible Parallelized Autoregressive Modeling)

De auteurs ontwerpen een nieuwe architectuur die de rollen van "contextlevering" en "tokengeneratie" ontkoppelt:

Position Query Tokens: In plaats van dat gegenereerde tokens direct de volgende stap voorspellen, worden leerbare position query tokens gebruikt om het model te sturen naar specifieke doelposities in de afbeelding. Deze tokens worden gevormd door een gedeelde leerbare embedding te combineren met de positie-embedding van de doellocatie.
Ontkoppeling: Eerder gegenereerde tokens fungeren uitsluitend als context (via KV-cache), terwijl de query tokens de generatie van nieuwe tokens op willekeurige posities aandrijven.
Speciale Aandachtsmaskers:
- Context Aandacht: Zorgt ervoor dat latere tokens causaal kunnen kijken naar eerdere context-tokens.
- Query Aandacht: Zorgt voor wederzijdse zichtbaarheid (mutual visibility) tussen tokens die gelijktijdig in dezelfde stap worden gegenereerd. Dit is cruciaal om consistentie binnen een parallelle groep te garanderen, wat ontbreekt in eerdere encoder-decoder benaderingen.
Fusie van Stappen: Tijdens inferentie worden het coderen van gegenereerde tokens en het decoderen met query tokens gefuseerd tot één enkele stap, wat de overhead minimaliseert.

B. Locality-aware Generatievolgorde (Locality-aware Generation Order Schedule)

Gebaseerd op de observatie dat aandacht in autoregressieve modellen sterk lokaal is (tokens kijken voornamelijk naar naburige tokens), wordt een nieuwe planning voor de generatievolgorde ontwikkeld. Deze volgt twee principes:

Hoge proximaliteit tot context: Nieuwe doelposities moeten ruimtelijk dicht bij reeds gegenereerde tokens liggen om sterke conditionering te krijgen.
Lage proximaliteit binnen de groep: Tokens die in dezelfde parallelle stap worden gegenereerd, moeten ruimtelijk ver uit elkaar liggen om onderlinge afhankelijkheid (en dus inconsistentie) te minimaliseren.

Het algoritme selecteert tokens stap voor stap door eerst tokens te kiezen die dicht bij de bestaande context liggen (boven een drempelwaarde $\tau$ ), en vervolgens binnen die groep tokens te filteren zodat ze ver genoeg van elkaar verwijderd zijn (onder een afstotingsdrempel $\rho$ ). Als er nog ruimte is, wordt "farthest point sampling" gebruikt voor de resterende tokens.

3. Belangrijkste Bijdragen

Nieuwe Architectuur: Een flexibele autoregressieve architectuur die willekeurige generatievolgorde en variabele graden van parallelisatie ondersteunt door het gebruik van position query tokens en gespecialiseerde aandachtsmaskers.
Locality-aware Planning: Een innovatieve scheduling-strategie die de sterke ruimtelijke localiteit in beeldgeneratie benut om de kwaliteit van parallelle generatie te maximaliseren.
Zero-shot Bewerking: Door de flexibiliteit in volgorde kan het model ook zero-shot taken uitvoeren zoals inpainting, outpainting en class-conditional editing zonder extra training.

4. Resultaten

De methode is geëvalueerd op de ImageNet dataset (class-conditional generatie) en GenEval (text-to-image).

Efficiëntie:
- Voor 256x256 afbeeldingen wordt het aantal generatiestappen gereduceerd van 256 naar 20 stappen.
- Voor 512x512 afbeeldingen wordt het aantal stappen gereduceerd van 1024 naar 48 stappen.
- Dit resulteert in een minimaal 3.4x lagere latentie vergeleken met eerdere geparalleliseerde autoregressieve modellen (zoals ARPG en RandAR), en tot 4.2x sneller in specifieke vergelijkingen.
- De doorvoer (throughput) is aanzienlijk hoger, vooral bij kleine batchgroottes waar het proces memory-bound is.
Kwaliteit:
- De kwaliteit (gemeten via FID - Fréchet Inception Distance) blijft behouden of verbetert zelfs. Bijvoorbeeld, het LPD-XL model bereikt een FID van 2.10 met slechts 20 stappen, wat vergelijkbaar is met modellen die 64 of meer stappen nodig hebben.
- Op GenEval (1024x1024) reduceert LPD de stappen van 4096 naar 64, met een verbeterde score ten opzichte van raster-ordening.

5. Betekenis en Impact

Dit paper is significant omdat het een langdurig probleem in autoregressieve beeldgeneratie oplost: de trade-off tussen snelheid en kwaliteit.

Schaalbaarheid: Het bewijst dat autoregressieve modellen concurrerend kunnen zijn met diffusion-modellen in termen van snelheid, terwijl ze de voordelen van autoregressie behouden (zoals compatibiliteit met taalmodellen en universele flat token-representaties).
Unificatie: Het maakt het mogelijk om autoregressieve modellen te gebruiken in geünificeerde multimodale systemen zonder de complexiteit van multi-scale tokenisatie.
Praktische Toepassing: De aanzienlijke reductie in latentie maakt autoregressieve beeldgeneratie veel praktischer voor real-time toepassingen en maakt het mogelijk om hogere resoluties (tot 1024x1024) efficiënt te genereren.

Kortom, LPD introduceert een fundamenteel nieuwe manier om autoregressieve generatie te paralleliseren door slim gebruik te maken van ruimtelijke localiteit en een flexibele token-interactie, wat leidt tot een nieuwe staat-of-the-art in snelheid en kwaliteit.