AdaBlock-dLLM: Semantic-Aware Diffusion LLM Inference via Adaptive Block Size

Dit paper introduceert AdaBlock-dLLM, een trainingsvrije, plug-and-play scheduler die de vaste blokgrootte bij semi-autoregressieve decoding van diffusietaalmodellen vervangt door een adaptieve, semantisch bewuste aanpak die de blokgrootte dynamisch aanpast aan de volatiliteit van het vertrouwen, wat resulteert in verbeterde nauwkeurigheid zonder doorvoersnelheid te verliezen.

Guanxi Lu, Hao Mark Chen, Yuto Karashima, Zhican Wang, Daichi Fujiki, Hongxiang Fan

Gepubliceerd 2026-03-03
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een kunstmatige intelligentie (AI) een verhaal schrijft. Bij de oude manier van werken (autoregressief) schrijft de AI één woord per keer, alsof het een brief schrijft waarbij het wacht tot het vorige woord er staat voordat het het volgende woord bedenkt. Dit is veilig, maar langzaam.

De nieuwe manier, waar dit paper over gaat, is alsof de AI een hele pagina tegelijk invult met een potlood, maar dan met een trucje: het begint met een blanco vel papier en vult het langzaam in, alsof het een tekening ontdoet van ruis. Dit is veel sneller omdat het veel woorden tegelijk kan bedenken.

Maar hier zit een addertje onder het gras: de huidige snelle methode werkt met vaste blokken. Het is alsof de AI beslist: "Ik vul nu precies 16 woorden in, ongeacht wat er gebeurt, en pas daarna ga ik naar de volgende 16 woorden."

Dit artikel introduceert AdaBlock-dLLM, een slimme "regisseur" die dit vaste ritme oplost. Hier is hoe het werkt, vertaald in alledaagse taal:

Het Probleem: De Stugge Regisseur

De huidige methode heeft twee grote problemen, die de auteurs als volgt beschrijven:

  1. De "Te Laat" Probleem (Late Decoding Overhead):
    Stel je voor dat de AI al weet dat het woord "appel" perfect past, maar omdat het in het volgende blok zit, moet het wachten tot het huidige blok van 16 woorden klaar is. Het is alsof je in een file staat en je ziet dat de auto voor je al wegrijdt, maar jij mag pas gaan als je eigen blok van 10 auto's volledig is vertrokken. Dat is tijdverspilling.
  2. De "Te Vroeg" Probleem (Premature Decoding Error):
    Soms is de AI niet zeker van een woord in het huidige blok, maar omdat het blok "vol" moet worden gemaakt, moet het toch een gok doen. Het is alsof je een raadsel oplost en je moet een antwoord invullen voordat je de hint hebt gelezen. Als je die gok fout maakt, is de hele zin misschien verkeerd, en moet de AI later alles opnieuw doen.

De Oplossing: De Slimme Regisseur (AdaBlock)

De auteurs hebben ontdekt dat de AI tijdens het denken een vertrouwensband heeft.

  • Soms is de AI heel zeker (hoge vertrouwensscore).
  • Soms twijfelt hij (lage score).
  • En er is een grijze zone (de "Volatility Band") waar de AI heen en weer huppelt tussen twijfel en zekerheid.

Deze twijfelzone volgt vaak de betekenis van de zin. Als de AI een zinnetje heeft voltooid (bijvoorbeeld een zin die eindigt op een puntje), is hij vaak heel zeker. Als hij halverwege een zin zit, twijfelt hij meer.

AdaBlock kijkt niet naar een vast getal (zoals "16 woorden"), maar kijkt naar de betekenis:

  • Het wacht tot de AI een natuurlijk stoppunt bereikt (zoals een punt, een komma of een nieuwe regel).
  • Pas dan sluit het het blok af.

De Analogie:
In plaats van een stugge regisseur die roept: "Stop na 16 woorden!", heeft AdaBlock een regisseur die luistert naar de tekst en zegt: "Wacht, we hebben net een complete zin gemaakt! Laten we hier stoppen en de volgende zin beginnen."

Waarom is dit geweldig?

  1. Minder fouten: De AI maakt geen gokken op halve zinnen. Hij wacht tot hij zeker is dat een gedachte compleet is.
  2. Sneller: Omdat hij niet vastzit aan een vast aantal woorden, kan hij soms direct doorgaan met het volgende woord als hij al zeker is, in plaats van te wachten op een "volledig blok".
  3. Geen extra training nodig: Dit is een "plug-and-play" oplossing. Je hoeft de AI niet opnieuw te leren schrijven; je geeft hem gewoon een nieuwe regisseur die slimmer is in het bepalen van wanneer hij moet stoppen.

De Resultaten

In tests (zoals het oplossen van wiskundepuzzels of het schrijven van computercode) bleek dat AdaBlock:

  • Tot 5,3% nauwkeuriger was dan de oude methode.
  • Net zo snel bleef werken (of zelfs iets sneller in sommige gevallen).
  • Vooral goed werkte in combinatie met een trucje genaamd "KV caching" (een soort geheugenbank voor de AI), waardoor de AI nog efficiënter werd.

Kortom: AdaBlock-dLLM maakt de snelle, moderne manier van AI-schrijven niet alleen sneller, maar ook slimmer, door de AI te laten luisteren naar de natuurlijke flow van de taal in plaats van te tellen hoeveel woorden er in een blok passen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →