d2: Improving Reasoning in Diffusion Language Models via Trajectory Likelihood Estimation

Het artikel introduceert d2, een nieuw reinforcement learning-framework voor masked diffusion taalmodellen dat gespecialiseerde traject-likelihoodschatters (d2-AnyOrder en d2-StepMerge) gebruikt om de redeneercapaciteiten op logische en wiskundige benchmarks aanzienlijk te verbeteren, waarbij nieuwe state-of-the-art prestaties worden behaald.

Oorspronkelijke auteurs: Guanghan Wang, Gilad Turok, Yair Schiff, Marianne Arriola, Volodymyr Kuleshov

Gepubliceerd 2026-06-02✓ Author reviewed
📖 5 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Guanghan Wang, Gilad Turok, Yair Schiff, Marianne Arriola, Volodymyr Kuleshov

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je een zeer getalenteerde kunstenaar hebt die een meesterwerk kan schilderen door te beginnen met een leeg canvas en geleidelijk details toe te voegen totdat de afbeelding compleet is. Dit is hoe Diffusion Language Models (DLMs) werken. In tegenstelling tot traditionele AI-schrijvers die zinnen woord voor woord opbouwen (zoals het stapelen van bakstenen), beginnen deze modellen met een rommelige massa van "ruis" (zoals statische ruis op een oude tv) en "ontruisen" deze stapsgewijs om een samenhangend verhaal of een oplossing te onthullen.

Het paper introduceert een nieuwe trainingsmethode genaamd d2 om deze kunstenaars te leren hoe ze veel beter moeilijke puzzels (zoals wiskundeproblemen of logische spellen) kunnen oplossen. Hier is de uitleg over hoe het werkt, met behulp van eenvoudige analogieën.

Het Probleem: De "Blinde" Criticus

Om een AI te leren redeneren, gebruiken onderzoekers Reinforcement Learning (RL). Denk hierbij aan een spel waarbij de AI een puzzel probeert op te lossen, en een "Critic" (een beloningssysteem) een score geeft. Als de AI een goede score haalt, leert hij dit opnieuw te doen.

Er is echter een addertje onder het gras bij Diffusion-modellen. Om effectief te leren, moet de AI weten hoe waarschijnlijk het was dat hij precies die specifieke reeks woorden genereerde.

  • Voor traditionele AI (Autoregressief): Het is als het schrijven van een brief. Je weet precies wat je eerst, tweede en derde hebt geschreven. Het berekenen van de "waarschijnlijkheid" is eenvoudig en snel.
  • Voor Diffusion AI: Het is als het kijken naar een beeldhouwwerk dat uit een blok steen tevoorschijn komt. De AI maakt duizenden kleine aanpassingen. Om de exacte waarschijnlijkheid van het uiteindelijke beeldhouwwerk te weten, zou je theoretisch de hele video moeten terugspoelen en elke enkele frame van het beeldhouwproces opnieuw moeten afspelen. Dit doen voor elke trainingsstap is computationeel onmogelijk (te traag en te duur).

Omdat ze deze "score" niet nauwkeurig konden berekenen, waren eerdere methoden aan het gokken, wat leidde tot zwakke redeneervaardigheden.

De Oplossing: d2 (De Slimme Scorekeeper)

De auteurs creëerden d2, een framework dat fungeert als een super-efficiënte scorekeeper. Het bepaalt de "waarschijnlijkheid" van de reis van de AI zonder de hele film telkens opnieuw te hoeven afspelen. Ze bouwden twee verschillende tools voor twee verschillende soorten kunstenaars:

Tool 1: d2-AnyOrder (De "Magische Spiegel")

Sommige diffusion-modellen zijn speciaal; ze kunnen de uiteindelijke afbeelding in elke willekeurige volgorde onthullen. Je zou de ogen eerst kunnen schilderen, dan de neus, en dan de achtergrond, of andersom, en het werkt nog steeds.

  • De Analogie: Stel je voor dat je een magische spiegel hebt. In plaats van het schilderproces stap voor stap te bekijken, kun je naar het voltooide schilderij kijken en direct zien wat de kunstenaar in elke stap zou hebben gezegd, allemaal tegelijkertijd.
  • Het Resultaat: Deze tool, genaamd d2-AnyOrder, berekent de perfecte score in één enkele blik (één computerpass). Het is ongelooflijk nauwkeurig en zorgt ervoor dat de AI zeer snel leert.

Tool 2: d2-StepMerge (De "Chunking Strategie")

De meeste populaire diffusion-modellen (zoals het beroemde LLaDA) kunnen niet in elke willekeurige volgorde schilderen; ze moeten een specifieke sequentie volgen. Ze hebben geen "magische spiegel".

  • De Analogie: Omdat we de hele film niet in één keer kunnen zien, breken we de film op in stukjes (chunks). In plaats van elke enkele frame te bekijken, kijken we de film in segmenten van 10 seconden. We schatten de score voor elk segment in en tellen deze bij elkaar op.
  • Het Resultaat: Deze tool, genaamd d2-StepMerge, is een benadering. Het is niet perfect, maar de auteurs hebben wiskundig bewezen dat de fout klein en controleerbaar is. Het ruilt een klein beetje nauwkeurigheid in voor een enorme winst in snelheid, waardoor het praktisch bruikbaar is voor standaardmodellen.

De Resultaten: Van Novice naar Grandmaster

De onderzoekers testten deze tools op enkele van de moeilijkste puzzels voor AI:

  1. Logische Spellen: Sudoku en Countdown (een wiskundespel).
  2. Wiskundeproblemen: GSM8K en MATH500 (standaard benchmarks voor wiskundig redeneren).

De Uitkomst:

  • Zonder extra "spiekbriefjes" (Supervised Fine-Tuning): Het d2-framework leerde de modellen beter te redeneren dan welke eerdere methode dan ook.
  • De Competitie Verslaan: Op de Sudoku- en Countdown-tests behaalden de met d2 getrainde modellen scores van respectievelijk bijna 92% en 56%, waarmee ze de vorige beste methoden, die rond de 22% en 42% bleven hangen, verpletterden.
  • Wiskundige Meesterschap: Op complexe wiskundige benchmarks vestigde d2 een nieuw "State-of-the-Art" record, waarmee bewezen werd dat diffusion-modellen net zo goed kunnen redeneren als traditionele tekstgenererende modellen, maar met de toegevoegde voordelen van snelheid en controleerbaarheid.

Samenvatting

Het paper zegt: "We hebben een manier gevonden om Diffusion AI-modellen helder te leren denken."

  • Ze realiseerden zich dat de oude manier om het werk van de AI te beoordelen te traag en onnauwkeurig was.
  • Ze hebben d2 uitgevonden, een nieuw beoordelingssysteem dat ofwel perfect nauwkeurig is (voor speciale modellen) of slim efficiënt (voor standaardmodellen).
  • Met behulp van dit nieuwe systeem leerden de AI-modellen logische en wiskundige puzzels aanzienlijk beter op te lossen dan voorheen, zonder dat ze vooraf de antwoorden hoefden te leren.

Kortom, d2 geeft diffusion-modellen het vermogen om nauwkeurig terug te kijken op hun eigen denkproces, waardoor ze uit hun fouten kunnen leren en echte redeneerexperts kunnen worden.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →