Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs

Dit artikel presenteert de eerste systematische studie naar post-training kwantisatie voor diffusion large language models (dLLMs), waarbij de uitdaging van activatie-uitbijters wordt geanalyseerd en een uitgebreide evaluatie wordt uitgevoerd om praktische inzichten te bieden voor de efficiënte implementatie van deze modellen op randapparaten.

Haokun Lin, Haobo Xu, Yichen Wu, Ziyu Guo, Renrui Zhang, Zhichao Lu, Ying Wei, Qingfu Zhang, Zhenan Sun

Gepubliceerd 2026-03-17
📖 6 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een gigantische, superintelligente robot hebt die verhalen kan schrijven, wiskundige problemen kan oplossen en code kan programmeren. Dit is wat we een Diffusion Large Language Model (dLLM) noemen. Het is een nieuw type AI dat werkt als een kunstenaar die een schilderij langzaam uit een wazige vlek naar een scherp beeld tovert, in plaats van woord voor woord te typen zoals de oudere modellen.

Het probleem? Deze robot is enorm zwaar. Hij heeft zo'n zware "hersenen" dat hij niet op een gewone laptop of telefoon past. Hij heeft een enorme server nodig om te werken.

De onderzoekers van dit paper hebben een oplossing onderzocht: Quantisatie.

De Analogie: Van een Hoogwaardig Fotoalbum naar een Strakke Schets

Om te begrijpen wat quantisatie is, stel je een fotoalbum voor:

  • Het originele model (FP32): Dit is een album met duizenden foto's in 4K-resolutie. Elke pixel is perfect, maar het album is zwaar en neemt veel ruimte in op je harde schijf.
  • De quantisatie: Dit is het proces waarbij we de foto's comprimeren. We zeggen: "We hoeven niet elke kleur exact te kennen; een beetje bruin is goed genoeg." We veranderen de zware 4K-foto's in lichtere JPEG-bestanden. Het album wordt veel lichter en past op je telefoon, maar de foto's zien er nog steeds goed uit.

De onderzoekers wilden weten: Lukt dit ook voor de nieuwe, zware "Diffusion"-robots?

Wat hebben ze ontdekt? (De Grote Uitdagingen)

Toen ze begonnen met het "comprimeren" van deze robots, stuitten ze op een vreemd fenomeen dat ze uitlopers (outliers) noemen.

De Analogie van de "Gigantische Reus" in de klas:
Stel je een klaslokaal voor met 100 leerlingen. De meeste zijn van gemiddelde grootte (normale waarden). Maar plotseling staat er één kind dat 3 meter lang is (een massive outlier).
Als je nu probeert de hele klas in één foto te passen, moet je de foto zo klein maken dat de reus nog net in beeld past. Het gevolg? De andere 99 kinderen worden zo klein dat je ze niet meer kunt zien. Ze worden onleesbaar.

In de AI-wereld betekent dit:

  • De meeste getallen in de AI zijn normaal.
  • Maar er zijn een paar "reuzen" (uitlopers) die zo groot zijn dat ze de hele schaal verstoren.
  • Als je de AI te sterk comprimeert (bijvoorbeeld naar 4-bit), worden die reuzen afgerond, en de hele AI wordt dom.

De onderzoekers zagen dat deze "reuzen" ook in de nieuwe Diffusion-modellen zitten, en soms zelfs op vreemde plekken, zoals in de "voedingsnetwerken" (FFN) van de AI.

De Resultaten: Wat werkt wel en wat niet?

De onderzoekers hebben verschillende methoden getest om deze robots lichter te maken, net als het testen van verschillende compressie-algoritmen.

1. De "Gewicht"-compressie (Alleen de kennis in het hoofd)

  • Vraag: Kunnen we de kennis van de robot in 4 bits (een heel klein formaat) opslaan?
  • Antwoord: Ja! Als je alleen de "gewichten" (de kennis) comprimeert naar 4 bits, blijft de robot bijna even slim. Het is alsof je de foto's in een strakke schets omzet; de details zijn er nog, maar het album is veel lichter.
  • De beste methode: Een techniek genaamd GPTQ werkt beter dan de concurrentie (AWQ). Het is als een slimme fotograaf die precies weet welke details je kunt weggooien zonder dat het beeld vervormt.

2. De "Actie"-compressie (Kennis én het werk)

  • Vraag: Kunnen we ook de "acties" (de berekeningen die de robot doet) comprimeren?
  • Antwoord: Dit is lastiger.
    • Bij 8 bits (een beetje comprimeren) gaat het prima. De robot is nog steeds slim.
    • Bij 4 bits (extreem comprimeren) gaat het vaak mis. De "reuzen" in de klas zorgen voor chaos. De robot begint dan wiskundige problemen verkeerd op te lossen of code te schrijven die niet werkt.
  • De beste methode: Methoden die de data "draaien" (zoals DuQuant en QuaRot) werken het beste.
    • Analogie: Stel je voor dat je een foto hebt met een enorme reus linksboven. Als je de foto gewoon verkleint, is de reus nog steeds een probleem. Maar als je de foto eerst een beetje draait (rotatie), staat de reus misschien schuin, en kun je hem makkelijker in het kader passen zonder de rest te verpesten. Deze "draai-methode" werkt wonderbaarlijk goed voor deze nieuwe AI's.

3. De Taak hangt er van af

  • Algemene vragen: "Wat is de hoofdstad van Frankrijk?" -> De robot blijft slim, zelfs met compressie.
  • Moeilijke taken: Wiskunde en programmeren. Hier is elke kleine fout fataal. Als je de AI te sterk comprimeert, gaat hij hierin volledig failliet. Het is alsof je een chirurg een operatie laat doen terwijl je zijn brillen hebt vervangen door een paar kartonnen brillen; hij ziet de details niet meer.

4. De "Opgeschoonde" Robot is sterker

  • Ze ontdekten dat de modellen die zijn getraind om instructies op te volgen (zoals "schrijf een verhaal" of "los dit op") sterker zijn tegen compressie dan de ruwe, ongetrainde modellen.
  • Analogie: Een getrainde atleet (Instruct-model) kan beter omgaan met een zware rugzak (compressie) dan een beginnende atleet (Base-model). De training heeft ze sterker gemaakt.

Conclusie: Wat betekent dit voor de toekomst?

Dit onderzoek is de eerste keer dat iemand systematisch heeft gekeken of we deze nieuwe, zware AI-robots op onze eigen telefoons kunnen krijgen.

  • Het goede nieuws: Ja, het kan! Met de juiste technieken (zoals 4-bit compressie voor de kennis en de "draai-methode" voor de acties) kunnen we deze modellen veel lichter maken zonder dat ze hun intelligentie verliezen.
  • Het uitdaging: Voor heel moeilijke taken (wiskunde, code) moeten we nog beter worden in het comprimeren, want daar is elke bit belangrijk.
  • De boodschap: De onderzoekers hebben de blauwdruk gemaakt. Nu kunnen ontwikkelaars deze nieuwe, slimme robots bouwen die niet alleen in de cloud werken, maar straks misschien wel op je eigen laptop of telefoon, zodat je overal van kunt profiteren.

Kortom: Ze hebben een manier gevonden om de "reuzen" in de klas te temmen, zodat de hele klas in een klein, draagbaar pakketje past.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →