DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat traag werkende kunstenaar hebt die een verhaal moet schrijven. Deze kunstenaar werkt volgens een speciale methode: in plaats van één woord per keer te schrijven (zoals wij dat doen), begint hij met een volledig blanco vel papier en probeert hij langzaam, stap voor stap, de juiste woorden op de juiste plekken te zetten.

Dit is hoe Diffusion Language Models werken. Ze zijn geweldig omdat ze veel woorden tegelijk kunnen "voorspellen", maar ze hebben een groot nadeel: ze zijn extreem traag.

Waarom? Omdat ze bij elke stap hun hele verhaal opnieuw moeten lezen en herschrijven, alsof ze bij elke zin het hele boek opnieuw moeten doorlezen om te zien of er een foutje in staat. Dat kost enorm veel tijd en rekenkracht.

Deze paper introduceert DyLLM, een slimme truc om deze kunstenaar te versnellen zonder dat hij zijn kwaliteit verliest. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Alles-Opnieuw" Manier

Stel je voor dat je een puzzel maakt. Bij de traditionele methode (Autoregressive) leg je één stukje neer, kijkt je er naar, en legt dan het volgende stukje. Dat is snel en efficiënt.

Bij de Diffusion-methode (de oude manier) begin je met een doos vol lege puzzelstukjes. Je probeert ze allemaal tegelijk te vullen. Maar om te zien of je het goed doet, moet je bij elke poging elk stukje van de puzzel opnieuw bekijken en controleren. Zelfs de stukjes die al perfect op hun plek zaten! Dat is als een schilder die bij elke penseelstreek het hele canvas opnieuw moet afvegen en opnieuw moet bekijken, zelfs op de plekken waar hij niets heeft veranderd.

2. De Oplossing: DyLLM (De Slimme Observer)

De onderzoekers van DyLLM hebben iets belangrijks ontdekt: de meeste stukjes van de puzzel veranderen nauwelijks.

Als de kunstenaar al 10 keer heeft geprobeerd het verhaal te schrijven, staan de woorden "de", "en", "een" en de meeste zinnen al vast. Alleen een paar specifieke woorden (de "opvallende" of salient tokens) veranderen nog echt. De rest blijft rustig.

DyLLM werkt als een slimme assistent die dit ziet en zegt:

"Wacht even! Die 90% van de tekst is al perfect. Laten we die niet opnieuw berekenen. Laten we alleen de 10% opnieuw doen waar het nog onrustig is."

3. Hoe werkt de truc? (De Analogieën)

A. De "Bliksem-Check" (Cosine Similarity)
Hoe weet DyLLM welke woorden veranderen? Hij gebruikt een soort "bliksem-Check". Hij vergelijkt hoe een woord eruitzag in de vorige stap met hoe het er nu uitziet.

Als ze bijna identiek zijn (zoals twee foto's van een rustige berg), dan is het woord niet belangrijk om opnieuw te berekenen.
Als ze heel verschillend zijn (zoals een foto van een berg die plotseling in een vulkaan verandert), dan is het woord belangrijk (een salient token).

B. De "Gedeeltelijke Herhaling" (Saliency-based Selection)
In plaats van de hele computer te laten werken voor het hele verhaal, laat DyLLM de computer alleen werken voor die paar veranderende woorden.

Voor de rustige woorden: Hij pakt gewoon het oude antwoord uit de "herinnering" (cache) en gebruikt dat opnieuw. Geen nieuwe berekening nodig!
Voor de veranderende woorden: Die laat hij de computer opnieuw hard werken.

C. De "Grote Foto" vs. "De Detailfoto" (Approximate Attention)
Tijdens het schrijven moet de kunstenaar ook kijken naar de context (wat staat er eerder in de zin?). Normaal doet hij dit voor elk woord. DyLLM zegt: "Voor de rustige woorden hoef je niet naar de hele foto te kijken. Kijk alleen naar de nieuwe stukjes die we net hebben toegevoegd, en pas die toe op de oude foto."
Dit bespaart enorm veel tijd, omdat het vermijden van het opnieuw bekijken van de hele "foto" (de volledige tekst) het grootste tijdverlies is.

4. Het Resultaat: Snelheid zonder Kwaliteitsverlies

Door alleen te werken aan de stukjes die echt veranderen, wordt het proces tot wel 9,6 keer sneller.

Vroeger: De kunstenaar deed 100 stappen, waarbij hij bij elke stap het hele boek opnieuw las.
Nu met DyLLM: De kunstenaar doet nog steeds 100 stappen, maar bij elke stap leest hij alleen de paar zinnen die nog niet kloppen. De rest is al klaar.

Samenvattend in één zin:

DyLLM is als een slimme redacteur die merkt dat de meeste zinnen in een manuscript al perfect zijn, en daarom alleen de zinnen die nog "ruis" bevatten laat herschrijven, waardoor het boek in een flits klaar is zonder dat er fouten in komen.

Dit maakt geavanceerde AI die nu nog te traag is voor dagelijks gebruik, plotseling snel genoeg om in real-time te werken, zelfs voor complexe taken zoals wiskunde of het schrijven van computercode.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention" in het Nederlands.

Probleemstelling

Masked Diffusion Language Models (MDLMs), zoals LLaDA en Dream, bieden een veelbelovend alternatief voor traditionele autoregressieve taalmodellen (ARLMs) door parallelle token-decoding mogelijk te maken. In tegenstelling tot ARLMs die tokens sequentieel genereren, initialiseren MDLMs een respons als een reeks gemaskerde tokens en onthullen deze iteratief via een denoising-proces.

Echter, dit iteratieve proces introduceert een aanzienlijke computatiefrequentie:

Gebrek aan efficiënt caching: Waar ARLMs gebruikmaken van Key-Value (KV) caching omdat elke stap slechts één nieuw token toevoegt, moeten MDLMs bij elke denoising-stap de volledige sequentie opnieuw verwerken vanwege de bidirectionele attention-mechanismen.
Repetitieve berekening: Dit leidt tot een "herhaalde prefill"-operatie, waarbij Feed-Forward Network (FFN) en attention-berekeningen voor de hele sequentie bij elke stap worden uitgevoerd, wat leidt tot enorme rekenkosten en lage doorvoer (throughput).
Beperkingen van bestaande oplossingen: Bestaande versnellingsmethoden (zoals Fast-dLLM of dKV-Cache) vertrouwen vaak op vaste schema's of blok-gebaseerde caching. Deze benaderingen houden geen rekening met de dynamische, laag-gebaseerde variatie in stabiliteit van token-representaties tijdens het diffusion-proces.

Methodologie: DyLLM

DyLLM is een trainingsvrij inferentie-framework dat de inferentie versnelt door gebruik te maken van temporele sparsiteit. De kernobservatie is dat tijdens opeenvolgende denoising-stappen de meeste token-representaties stabiel blijven; slechts een klein subset, de "saliente tokens", ondergaat betekenisvolle veranderingen die bijdragen aan de volgende update.

DyLLM bestaat uit twee hoofdbestandsdelen:

1. Laag-adaptieve Saliency-selectie (Layer-Adaptive Saliency Mechanism)

Meting: DyLLM meet de temporele cosine-similariteit ( $s_{t,l}$ ) van de attention-contextvectoren tussen opeenvolgende stappen voor elke token en elke laag.
Selectie: Tokens met een hoge similariteit (dicht bij 1,0) worden als stabiel beschouwd. Tokens met een lage similariteit worden gedefinieerd als "salient" (belangrijk) en worden geselecteerd voor herberekening.
Optimalisatie: Voor niet-saliente tokens worden de FFN-berekeningen overgeslagen en worden de eerder berekende activaties uit de cache hergebruikt. Dit vermindert de FFN-overhead aanzienlijk.
Theoretische onderbouwing: Het paper bewijst dat de fout die ontstaat door het overslaan van FFN-berekeningen direct gekoppeld is aan de cosine-similariteit. Een hoge similariteit impliceert een verwaarloosbare foutmarge.

2. Saliency-bewuste Benaderde Attention (Saliency-Aware Approximate Attention)

Om de kwadratische complexiteit van attention ( $O(N^2)$ ) te verminderen, introduceert DyLLM een benaderde attention-mechanisme.
Dual-path strategie:
- Salient Pad: Voor saliente tokens wordt de attention-scorematrix volledig herberekend om dynamische updates mogelijk te maken.
- Niet-salient Pad: Voor stabiele tokens wordt aangenomen dat de attention-weights ( $\Delta S$ ) verwaarloosbaar zijn. De update wordt benaderd door alleen de bijdrage van de veranderingen in de value-vectoren ( $\Delta V$ ) van de saliente tokens te vermenigvuldigen met de bestaande attention-weights.
Dit reduceert de complexiteit van $O(N^2)$ naar $O(N \cdot |At|)$ , waarbij $|At|$ het kleine aantal saliente tokens is.

3. Adaptieve Invoerstrategie

DyLLM onderscheidt tussen prompt-tokens en response-tokens. Omdat saliente tokens voornamelijk voorkomen in de response (deels door de aard van RoPE-positional embeddings), verwerkt DyLLM tijdens de meeste stappen alleen de response-tokens. De volledige sequentie (prompt + response) wordt slechts periodiek (bijv. elke 4 stappen) als input gegeven om context te refreshen, maar zelfs dan worden alleen saliente tokens herberekend.

Belangrijkste Bijdragen

Layer-Adaptieve Saliency Mechanism: Een dynamisch selectiebeleid dat per laag bepaalt welke tokens herberekend moeten worden, waardoor redundante FFN-berekeningen voor stabiele hidden states worden omzeild.
Saliency-Aware Approximate Attention: Een nieuwe attention-methode die activatie-sparsiteit benut om redundante context-updates te elimineren, waardoor de attention-complexiteit drastisch wordt verlaagd.
Schalbare Doorvoerverbetering: Het framework schaalbaar zonder extra tuning, wat leidt tot aanzienlijke snelheidswinsten bij het behouden van de nauwkeurigheid.

Resultaten

De auteurs hebben DyLLM getest op twee state-of-the-art diffusion-modellen: LLaDA 8B en Dream 7B, over diverse benchmarks (GSM8K, MBPP, MATH, MMLU-pro).

Doorvoer (Throughput):
- DyLLM bereikte tot 7,6x hogere doorvoer voor LLaDA en 9,6x voor Dream in vergelijking met de originele implementatie.
- Het presteerde significant beter dan bestaande versnellingsmethoden zoals Fast-dLLM en dLLM-Cache, vooral bij toenemende parallelle decodinggraden ( $\nu$ ).
Nauwkeurigheid:
- De nauwkeurigheid bleef grotendeels behouden en verbeterde in sommige gevallen zelfs lichtjes (bijv. op GSM8K voor LLaDA van 77,79 naar 79,08 met een drempelwaarde van 0,99).
- Dit wordt toegeschreven aan het verminderen van "ruis" van irrelevante tokens in de attention-context door selectieve berekening.
Schalbaarheid:
- In tegenstelling tot Fast-dLLM, waar de noodzaak voor volledige sequentie-refresh-stappen de doorvoer beperkt naarmate de sequentielengte of parallelle graden toenemen, behoudt DyLLM zijn efficiëntie en schaalbaarheid.

Betekenis

DyLLM adresseert een fundamenteel knelpunt in de inferentie van Diffusion Language Models: de inefficiëntie van het herhaaldelijk verwerken van de volledige sequentie. Door aan te tonen dat de redundantie in diffusion-stappen niet uniform is maar sterk spars en laag-afhankelijk, biedt DyLLM een pad naar praktische, snelle inferentie voor diffusion-modellen.

Het werk is significant omdat het:

De prestaties van diffusion-modellen dichter bij die van autoregressieve modellen brengt in termen van snelheid, zonder de kwaliteit te offeren.
Een trainingsvrij framework biedt dat direct toepasbaar is op bestaande modellen.
Een nieuwe richting aangeeft voor caching-strategieën die dynamisch inspelen op de interne dynamiek van het model in plaats van op vaste schema's.

Kortom, DyLLM maakt diffusion-based taalmodellen veel praktischer voor real-time toepassingen door de rekenlast drastisch te verminderen via slimme, data-gestuurde selectie van wat er daadwerkelijk berekend moet worden.

DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

1. Het Probleem: De "Alles-Opnieuw" Manier

2. De Oplossing: DyLLM (De Slimme Observer)

3. Hoe werkt de truc? (De Analogieën)

4. Het Resultaat: Snelheid zonder Kwaliteitsverlies

Samenvattend in één zin:

Probleemstelling

Methodologie: DyLLM

Belangrijkste Bijdragen

Resultaten

Betekenis

Meer zoals dit

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance