Locality-aware Parallel Decoding for Efficient Autoregressive Image Generation

Dit paper introduceert Locality-aware Parallel Decoding (LPD), een methode die autoregressieve beeldgeneratie aanzienlijk versnelt door een flexibele parallelle architectuur en een lokale generatievolgorde te combineren, waardoor het aantal stappen drastisch wordt verminderd zonder in te leveren op de kwaliteit.

Zhuoyang Zhang, Luke J. Huang, Chengyue Wu, Shang Yang, Kelly Peng, Yao Lu, Song Han

Gepubliceerd 2026-03-12
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een schilderij maakt, maar in plaats van een kwast te gebruiken die in één beweging een hele muur beschildert, moet je elke steen van de muur één voor één aanbrengen. En nog erger: je mag pas de tweede steen leggen als je de eerste precies hebt geplaatst, de derde pas als de tweede klaar is, en zo verder tot je 256 keer moet wachten voordat het schilderij af is.

Dat is precies hoe de oude manier van kunstmatige intelligentie (AI) om afbeeldingen te maken werkte. Het heet "autoregressief", wat in het Nederlands gewoon betekent: "voortdurend zichzelf voeden". De AI kijkt naar wat er al staat, en voegt dan één klein stukje (een 'patch' of steen) toe. Dit is traag, omdat de computer de hele tijd moet wachten op het vorige stukje voordat hij de volgende kan maken.

De onderzoekers van dit paper (uit MIT en NVIDIA) hebben een nieuwe methode bedacht, genaamd LPD (Locality-aware Parallel Decoding). Laten we uitleggen hoe dit werkt met een paar simpele vergelijkingen.

1. Het oude probleem: De "Wachtrij"

Stel je een lange rij mensen voor die een muur moeten bouwen.

  • Oude methode: De eerste persoon legt een baksteen. De tweede wacht tot de eerste klaar is, legt dan zijn steen, en wacht weer. De derde wacht op de tweede.
  • Het resultaat: Het duurt eeuwen. De computer is niet traag in rekenen, maar hij staat constant te wachten op data (het "geheugen" van de computer).

2. De oplossing: De "Bouwteam"-aanpak

De onderzoekers zeggen: "Waarom wachten we? Laten we meerdere mensen tegelijk laten werken!" Maar hier zit een addertje onder het gras. Als je twee mensen naast elkaar laat werken zonder dat ze naar elkaar kijken, kunnen ze elkaar in de weg zitten of een lelijke muur maken.

LPD lost dit op met twee slimme trucs:

Truc 1: De "Magische Bouwplaat" (Flexibele Parallelle Decoding)

In de oude methoden moesten mensen in een vaste rij werken (eerst linksboven, dan rechtsboven, enzovoort).
LPD introduceert een magische bouwplaat. Stel je voor dat je een team van bouwers hebt, en je geeft ze allemaal een speciaal bordje met een nummer erop (bijvoorbeeld "Plaats 5", "Plaats 12", "Plaats 30").

  • De AI kan nu zeggen: "Jullie drie mogen tegelijkertijd aan de plekken 5, 12 en 30 werken!"
  • De slimme kant: De AI zorgt ervoor dat deze bouwers elkaar wel kunnen zien. Ze weten wat er al op de muur staat (de context), maar ze weten ook wat hun collega's tegelijkertijd aan het doen zijn. Zo maken ze geen fouten door elkaar in de weg te staan.

Truc 2: De "Buurtbewoners" (Locality-aware)

Dit is de meest creatieve deel. De onderzoekers merkten iets interessants op: als je een muur bouwt, is het belangrijk om te werken aan plekken die dichtbij elkaar liggen.

  • Als je een steen legt, is het handig om de volgende steen direct ernaast te leggen, omdat je dan weet hoe de muur eruitziet.
  • Maar als je twee mensen tegelijk laat werken, wil je dat ze ver van elkaar vandaan werken, zodat ze niet in de war raken.

De LPD-methode gebruikt een slim bouwplan:

  1. Het kiest eerst plekken die dichtbij de al bestaande muur liggen (zodat de nieuwe steen past).
  2. Maar het zorgt ervoor dat de mensen die tegelijkertijd werken, ver genoeg uit elkaar staan (zodat ze niet in de weg zitten).

Het is alsof je een groep vrienden vraagt om een muur te schilderen: "Jij gaat de hoek doen, jij gaat de hoek ernaast, en jij gaat de andere kant van de kamer." Ze werken tegelijk, maar ze kiezen plekken die logisch bij elkaar passen zonder elkaar te blokkeren.

Wat is het resultaat?

Dit klinkt misschien als kleine tweaks, maar het verandert alles:

  • Snelheid: In plaats van 256 stappen te zetten om een plaatje te maken, doet de AI het nu in 20 stappen.
  • Tijd: Het duurt niet meer seconden, maar een fractie van een seconde. Het is 3,4 keer sneller dan de beste andere methoden die ook proberen om tegelijk te werken.
  • Kwaliteit: Het plaatje ziet er nog steeds perfect uit. Geen rare vlekken of vervormingen.

Waarom is dit belangrijk?

Vroeger moest je kiezen tussen snelheid of kwaliteit.

  • Wil je snel? Dan moest je een minder slimme methode gebruiken (zoals "niet-autoregressief"), maar dan zag het plaatje er vaak raar uit.
  • Wil je kwaliteit? Dan moest je de trage, oude methode gebruiken.

Met LPD krijg je het beste van beide werelden: het is supersnel (alsof je een hele muur in één klap beschildert) en het is net zo slim als de oude, trage methode.

Kort samengevat:
De onderzoekers hebben een manier bedacht om een AI-robot te laten werken als een goed georganiseerd bouwteam in plaats van als een eenzame, trage metselaar. Ze laten de robot meerdere stukjes tegelijk maken, maar zorgen er slim voor dat die stukjes logisch bij elkaar passen. Het resultaat? Afbeeldingen die in een flits worden gegenereerd, zonder dat de kwaliteit eronder lijdt.