Skip to the Good Part: Representation Structure & Inference-Time Layer Skipping in Diffusion vs. Autoregressive LLMs

Deze studie toont aan dat diffusietaalmodellen door hun trainingsdoel een meer hiërarchische en redundante representatiestructuur bezitten dan autoregressieve modellen, wat een effectieve, cache-onafhankelijke inferentie-optimalisatie via statisch laagoverslaan mogelijk maakt zonder prestatieverlies.

Raghavv Goel, Risheek Garrepalli, Sudhanshu Agrawal, Chris Lott, Mingu Lee, Fatih Porikli

Gepubliceerd 2026-03-10
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Titel: De "Slaapverwante" Taalmodellen: Waarom Diffusie-modellen sneller kunnen rennen dan hun Autoregressieve Buren

Stel je voor dat je een heel lang verhaal moet schrijven. Er zijn twee manieren om dit te doen, en deze twee manieren veranderen hoe het verhaal in het hoofd van de schrijver (het computermodel) wordt opgeslagen.

Dit onderzoek vergelijkt twee soorten schrijvers:

  1. De "Regelmatige Schrijver" (Autoregressief/AR): Dit is de standaard manier (zoals bij ChatGPT). Hij schrijft woord voor woord, van links naar rechts. Hij kijkt alleen naar wat hij al heeft geschreven en bedenkt het volgende woord. Het is als een trein die op een spoor rijdt: hij kan niet terugspringen en moet elke schakel (woord) stevig vastmaken aan de vorige.
  2. De "Schilder" (Diffusie/dLLM): Deze schrijver begint met een lading ruis (een wazig, onleesbaar beeld) en maakt het langzaam scherper. Hij kijkt naar het hele verhaal tegelijk en verbetert het stukje voor stukje, net als een schilder die eerst een ruwe schets maakt en dan steeds fijner details toevoegt.

Het Grote Geheim: De "Slapende" Laagjes

De onderzoekers van Qualcomm AI Research hebben gekeken wat er gebeurt binnenin deze modellen terwijl ze denken. Ze ontdekten iets verrassends:

  • De Regelmatige Schrijver (AR) is als een ketting van mensen die een emmer water doorgeven. Als je één persoon in de rij weghaalt, breekt de keten en valt het water op de grond. Elke laag in het model is cruciaal en afhankelijk van de vorige. Als je een laag overslaat, crasht het model.
  • De Schilder (Diffusie) werkt anders. De eerste paar lagen van het model doen eigenlijk hetzelfde als de lagen er direct achter. Het is alsof je in een fabriek hebt staan waar de eerste drie machines precies hetzelfde werk doen als de vierde. Ze zijn redundant (overbodig). Ze bouwen een ruwe schets op, maar veranderen het beeld niet echt tot in de diepte.

De Analogie:
Stel je voor dat je een foto van een berg maakt.

  • Bij de Regelmatige Schrijver moet je elke pixel één voor één tekenen. Als je een stap overslaat, is de berg kapot.
  • Bij de Schilder maak je eerst een grote, vage contourolijn (laag 1, 2, 3). Die lijn ziet er bijna hetzelfde uit als de lijn die je er net achter tekent. Je kunt die eerste paar lagen dus "overslaan" en direct beginnen met het verfijnen van de details, zonder dat de berg verdwijnt.

De "Erfenis"-Probleem (Initialisatie Bias)

Er was nog een interessant experiment. De onderzoekers namen een "Regelmatige Schrijver" (Qwen2.5) en probeerden hem te trainen om te werken als een "Schilder" (Dream-7B).

Het resultaat? Het model probeerde wel als een schilder te werken, maar hield vast aan de gewoontes van de oude schrijver. Het was alsof je een oude, gewoontesterke man probeert te leren dansen; hij doet de danspasjes, maar zijn houding en manier van bewegen zijn nog steeds die van de oude man.
Dit betekent dat als je een bestaand model wilt omzetten naar een diffusie-model, je niet zomaar de voordelen (zoals het overslaan van lagen) krijgt. De "erfenis" van de oude manier van werken zit te diep verankerd.

De Oplossing: Slaapverwante Lagen Overslaan

Omdat de "echte" Diffusie-modellen (zoals LLaDA) zo'n overbodige structuur hebben in de beginlagen, hebben de onderzoekers een slimme truc bedacht: Layer Skipping.

Stel je voor dat je een lange tunnel moet doorlopen.

  • Bij de Regelmatige Schrijver moet je elke meter van de tunnel lopen.
  • Bij de Diffusie-modellen bleek dat de eerste 6 meter van de tunnel eigenlijk een rechte, saaie gang is die je ook kunt overslaan. Je loopt er gewoon overheen en komt direct bij de interessante, bochtige delen uit.

Het Resultaat:
Door deze "slapende" lagen over te slaan, kunnen ze de computerrekenkracht (FLOPs) met bijna 19% verlagen zonder dat het model veel fouten maakt. Het model blijft net zo goed in wiskunde en coderen, maar het is veel sneller en goedkoper.

Bij de "Regelmatige Schrijvers" werkt deze truc niet; als je daar een laag overslaat, stort het model in (zoals een instabiel huis).

Samenvatting voor de Gemiddelde Mens

  1. Verschillende manieren van denken: Diffusie-modellen (nieuwe generatie) denken anders dan de huidige modellen. Ze bouwen een "ruwe schets" eerst op, wat zorgt voor overbodige stappen in het begin.
  2. De kracht van overbodigheid: Omdat die eerste stappen overbodig zijn, kun je ze overslaan. Dit maakt het model sneller en zuiniger.
  3. Oude gewoontes blijven hangen: Als je een oud model probeert om te vormen tot een nieuw model, blijft het vaak vastzitten in de oude, trage manier van werken. Je moet een model van de grond af bouwen als je die snelheidswinst wilt.
  4. Toekomst: Dit betekent dat we in de toekomst snellere en goedkopere AI kunnen hebben, zolang we maar modellen gebruiken die van nature zijn gebouwd als "schilders" en niet als "treinen".

Kortom: De nieuwe modellen hebben een "snelheidsmodus" die de oude modellen niet hebben, omdat ze van nature minder werk hoeven te doen om tot hetzelfde resultaat te komen.