ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

Het paper introduceert ReFusion, een nieuw gemaskerd diffusiemodel dat door het combineren van sequentiereorganisatie met causale attentie en het verschuiven van parallelle decoding naar het slotniveau, zowel de inferentiesnelheid aanzienlijk verhoogt als de prestaties van autoregressieve modellen benadert.

Jia-Nan Li, Jian Guan, Wei Wu, Chongxuan Li

Gepubliceerd 2026-03-06
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een heel lang verhaal moet schrijven, woord voor woord.

De oude manier (Autoregressive Models):
Dit is alsof je een toren bouwt met Legostenen. Je moet de eerste steen leggen, dan de tweede erop, dan de derde, en zo verder. Je kunt pas de vierde steen leggen als de derde perfect zit. Dit is veilig en logisch, maar het duurt lang. Als je een heel groot verhaal wilt schrijven, moet je wachten tot elke steen is geplaatst. Dit is hoe de meeste huidige slimme AI's werken. Ze zijn goed, maar traag.

De nieuwe poging (Masked Diffusion Models):
Wetenschappers dachten: "Laten we het anders doen! Laten we niet één voor één bouwen, maar alles tegelijk!" Stel je voor dat je een raam hebt met 100 ruitjes, en je moet ze allemaal schilderen. In plaats van één voor één, probeer je ze allemaal tegelijk in één keer te beschilderen.
Het probleem? Je weet niet precies welke kleur op welk ruitje moet. Soms schilder je een blauwe lucht op een plek waar een boom moet staan. Omdat je alles tegelijk doet, krijg je vaak een rommelig resultaat (onlogische zinnen) en moet je veel tijd besteden aan het controleren en herschilderen van alles, wat het weer langzaam maakt.

De oplossing van deze paper: REFUSION
De auteurs van dit paper hebben een slimme mix bedacht, die we REFUSION noemen. Ze combineren de snelheid van het "alles tegelijk" met de logica van het "één voor één", maar dan op een heel slimme manier.

Hier is hoe het werkt, met een creatieve analogie:

De "Bouwvakkers" en de "Regisseur"

Stel je voor dat je een groot huis moet bouwen.

  1. De Regisseur (De Diffusion-deel):
    In plaats van te kijken naar elke individuele steen, kijkt de regisseur naar groepen stenen (de auteurs noemen deze "slots"). De regisseur zegt: "Oké, deze groep van 4 stenen hier lijkt goed te passen bij de rest van het huis. Laten we die groep eerst bouwen!"

    • Waarom dit slim is: De regisseur kan kiezen welke groepen hij eerst bouwt. Misschien bouwt hij eerst het dak, dan de muren, en dan pas de vloer. Hij is niet vastgezet aan "eerst links, dan rechts". Dit geeft enorme flexibiliteit.
  2. De Bouwvakkers (Het Autoregressive-deel):
    Zodra de regisseur een groep (een "slot") heeft geselecteerd, gaan de bouwvakkers aan het werk. Maar binnen die groep werken ze wel één voor één. Ze leggen de eerste steen, dan de tweede, dan de derde.

    • Waarom dit slim is: Omdat ze binnen die kleine groep één voor één werken, weten ze precies wat ze doen. Er ontstaan geen rare fouten (zoals een blauwe lucht in een boom).
  3. De Magische Verplaatsing (De "KV Cache" truc):
    Dit is het echte geheim. Zodra een groep stenen klaar is, verplaatst de regisseur die groep naar de voorkant van de bouwplaats.

    • De analogie: Stel je voor dat je een lijstje hebt met taken. Zodra je een taak af hebt, schuif je die naar boven op je lijstje. De computer onthoudt dan alle informatie over die afgeronde taken heel makkelijk en snel, zonder alles opnieuw te hoeven berekenen.
    • In de oude "alles tegelijk" methoden moest de computer bij elke stap alles opnieuw berekenen, alsof je elke keer je geheugen moest legen en opnieuw vullen. REFUSION onthoudt alles, waardoor het 18 keer sneller is dan de oude methoden.

Wat levert dit op?

De paper toont aan dat REFUSION het beste van twee werelden combineert:

  • Snelheid: Het is veel sneller dan de traditionele, stap-voor-stap AI's (zoals Qwen3-8B). Het kan een antwoord geven terwijl de oude AI's nog maar halverwege zijn.
  • Kwaliteit: Het is veel slimmer en logischer dan de eerdere "alles tegelijk" methoden. De zinnen kloppen, de code werkt, en de wiskundige antwoorden zijn correct.

Kort samengevat:
REFUSION is als een super-efficiënte bouwteam. Ze hebben een regisseur die slimkeuze maakt welke delen van het huis hij eerst bouwt (snelheid en flexibiliteit), en een team van vakmensen die binnen die delen perfect en logisch werken (kwaliteit). En het beste van alles? Ze onthouden alles wat ze al hebben gebouwd, zodat ze niet hoeven te wachten of te herrekenen.

Dit betekent dat we in de toekomst AI's kunnen hebben die even slim zijn als de beste menselijke experts, maar die antwoorden geven alsof ze uit een kanon worden geschoten.