LaDiR: Latent Diffusion Enhances LLMs for Text Reasoning

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een kunstmatige intelligentie (AI) een wiskundig raadsel probeert op te lossen. De manier waarop de meeste AI's dit vandaag doen, is als een trein die alleen vooruit kan rijden.

Als de trein een fout maakt bij de eerste stop (bijvoorbeeld een verkeerd getal), kan hij niet terugrijden om het te corrigeren. Hij moet gewoon doorgaan, hopend dat hij het later goed maakt. Dit is wat we "autoregressief" noemen: woord voor woord, van links naar rechts, zonder terugkijken. Als de trein vastloopt, is de hele rit vaak al mislukt.

LaDiR (Latent Diffusion Reasoner) is een nieuwe, slimme manier om deze AI's te trainen. Het is alsof we de trein vervangen door een kunstenaar die een schilderij maakt.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De "Gedachte-Blauwdruk" (De Latente Ruimte)

In plaats van direct zinnen te schrijven, maakt de AI eerst een abstracte blauwdruk van het probleem.

De analogie: Stel je voor dat je een recept voor een taart wilt schrijven. Een gewone AI schrijft direct: "Neem 2 eieren...". LaDiR denkt eerst: "Oké, ik heb een taart nodig. Ik heb meel, suiker en eieren nodig. De volgorde is belangrijk."
Deze "gedachten" worden niet als woorden opgeslagen, maar als kleurrijke vlekken op een canvas (dit noemen ze latente tokens). Het is een compacte, samenvattende versie van de oplossing, zonder de ruis van de exacte woorden.

2. Het "Denoisen" (Van Ruis naar Scherpte)

Dit is het magische deel. De AI begint met een canvas dat volledig vol zit met witte ruis (net als statisch geluid op een oude TV).

De analogie: Stel je voor dat je een foto van een taart probeert te maken, maar je begint met een wazige, grijze vlek.
De AI kijkt naar die vlek en zegt: "Hmm, hier lijkt een randje van een kom te zijn, en hier een vlekje suiker."
Stap voor stap (in een proces dat diffusie heet) maakt de AI de vlekken scherper. Het verwijdert de ruis en versterkt de juiste patronen.
Het grote voordeel: Als de AI halverwege ziet dat de "suiker" er verkeerd uitziet, kan hij die vlek terugdraaien en herschrijven voordat hij de hele taart afmaakt. Hij kan het hele schilderij in één keer bekijken en verbeteren, in plaats van alleen het laatste penseelstreekje.

3. Meerdere Paden tegelijk (Verscheidenheid)

Gewone AI's proberen vaak maar één oplossing en hopen dat die goed is. LaDiR is als een ontdekkingsreiziger met meerdere kaarten.

Omdat het proces gebaseerd is op het verwijderen van ruis, kan de AI meerdere versies van het schilderij tegelijk maken.
Ze duwen deze versies uit elkaar (alsof ze magneten met dezelfde pool zijn), zodat ze verschillende routes verkennen. Misschien vindt de ene route de oplossing via een brug, en de andere via een tunnel. Dit zorgt ervoor dat de AI niet vastloopt in één idee, maar creatiever is.

4. Het Eindschetsen (Het Antwoord)

Zodra de blauwdruk (de vlekken op het canvas) perfect scherp is en de logica klopt, vertaalt de AI deze abstracte vlekken terug naar menselijke taal.

Nu schrijft hij de zinnen: "Neem 2 eieren, voeg suiker toe..."
Omdat de logica al perfect was in de blauwdruk, is het eindresultaat veel nauwkeuriger en logischer dan bij de "trein" die alleen maar vooruit rijdt.

Waarom is dit belangrijk?

Fouten corrigeren: Het kan terugkijken en verbeteren, net zoals een mens dat doet als hij merkt dat zijn redenering niet klopt.
Meer creativiteit: Het vindt meer verschillende oplossingen voor hetzelfde probleem.
Betere planning: Voor moeilijke puzzels (zoals wiskunde of het plannen van een route) werkt het veel beter dan de oude methoden, omdat het de "grote lijn" ziet in plaats van alleen de volgende letter.

Kortom: LaDiR verandert de AI van een robot die blindelings woord voor woord typet, in een slimme denker die eerst een plan schetst, dat plan verfijnt en corrigeert, en pas daarna het antwoord opschrijft. Het is de overgang van "typen" naar "denken".

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Grote Taalmodellen (LLMs) tonen hun redeneervermogen voornamelijk via Chain-of-Thought (CoT) generatie. Echter, het traditionele autoregressieve (AR) decoderingsparadigma heeft fundamentele beperkingen:

Gebrek aan herziening: Omdat AR-modellen tokens sequentieel genereren (links-naar-rechts), kunnen ze eerder gegenereerde tokens niet globaal herzien of verfijnen. Dit maakt zelfcorrectie inefficiënt.
Beperkte diversiteit: AR-modellen neigen naar het genereren van lineaire, repetitieve oplossingen en verkennen moeilijk meerdere geldige paden voor complexe problemen.
Token-niveau beperking: Bestaande methoden werken vaak op het niveau van discrete teksttokens, wat het vermogen om op een semantisch hoger niveau te redeneren en globale coherentie te behouden, beperkt.

Hoewel diffusiemodellen succesvol zijn in continue domeinen (zoals afbeeldingen) en belofte bieden voor iteratieve verfijning, zijn ze minder effectief toegepast op tekstredenering, waar ze vaak vastlopen in het genereren van vloeiende tekst in plaats van het oplossen van complexe causale afhankelijkheden.

Methodologie: LaDiR

De auteurs stellen LaDiR (Latent Diffusion Reasoner) voor, een raamwerk dat de expressiviteit van continue latente representaties combineert met de iteratieve verfijningscapaciteiten van latente diffusiemodellen. Het proces verloopt in drie hoofdfasen:

1. Constructie van een Latente Redeneerruimte (VAE)

Block-structuur: De CoT-tekst wordt opgesplitst in blokken, waarbij elk blok overeenkomt met één zin (een "thought block").
Encodering: Een Variational Autoencoder (VAE), geïnitieerd vanuit een voorgeöorde LLM, encodeert deze tekstblokken in continue latente tokens ( $Z$ ). De encoder is trainbaar, terwijl de decoder (een bevroren LLM) de tekst reconstrueert.
Robuustheid: Tijdens het trainen van de VAE worden augmentatietechnieken toegepast (Gaussische ruis op latente tokens en vervanging van input-tokens) om een gladde en robuuste latente ruimte te creëren die semantische informatie behoudt.

2. Latente Diffusie voor Redenering

In plaats van direct tekst te genereren, leert een diffusiemodel om "druizende" latente blokken te ontdoen van ruis en te verfijnen tot coherente redeneerstappen.

Architectuur: Het model gebruikt een hybride attention-mask:
- Binnen een blok: Bidirectionele attention (toestemming naar links en rechts) voor globale coherentie binnen een stap.
- Tussen blokken: Causale attention (autoregressief), zodat latere stappen afhankelijk zijn van eerdere stappen.
Training: Het model wordt getraind via Flow Matching (in plaats van standaard DDPM), wat een superieure prestatie biedt bij het leren van de snelheidsveld ( $u^*$ ) dat de data van ruis naar schoonheid transformeert.
Twee-staps training:
1. Teacher-Forcing: Het model leert latente blokken te voorspellen met toegang tot de "oracle" (ware) latente tokens.
2. Rollout Training: Om het "error accumulation"-probleem op te lossen, genereert het model tijdens de tweede fase zijn eigen latente tokens vanuit ruis (met minder denoising-stappen), waardoor de fouten zich niet ophopen en de supervisie direct terugpropageert naar de latente voorspellingen.

3. Inferentie en Diversiteitssturing

Iteratieve Verfijning: Tijdens inferentie start het model met Gaussische ruis en doorloopt het iteratieve denoising-stappen om de latente blokken te vormen.
Stop-criterium: Het proces stopt wanneer een speciaal token <SOA> (Start of Answer) wordt gegenereerd.
Antwoordgeneratie: Vervolgens wordt het uiteindelijke antwoord autoregressief gegenereerd op basis van de gegenereerde latente blokken.
Diversiteitsguidance: Om diverse oplossingen te vinden, wordt tijdens de inferentie een "repulsiekracht" toegepast op de latente tokens binnen een batch. Dit duwt de trajecten uit elkaar in de latente ruimte, waardoor het model verschillende redeneringspaden verkent in plaats van te convergeren naar één oplossing.

Belangrijkste Bijdragen

Semantisch Redeneren: LaDiR verschuift het redeneren van het token-niveau naar het semantische niveau in een continue latente ruimte, wat zelfcorrectie en globale coherentie mogelijk maakt.
Iteratieve Zelfverfijning: In tegenstelling tot AR-modellen kan LaDiR eerdere redeneringsstappen iteratief verbeteren tijdens het denoising-proces.
Adaptieve Test-time Compute: Het model biedt een nieuwe trade-off tussen nauwkeurigheid en rekentijd; meer denoising-stappen leiden direct tot betere prestaties.
Interpreteerbaarheid: Door de VAE-decoder kunnen de latente blokken worden vertaald naar leesbare tekst, waardoor het redeneerproces transparant blijft.

Resultaten

LaDiR is geëvalueerd op drie domeinen: wiskundig redeneren, codegeneratie en puzzelplanning (Countdown).

Wiskundig Redeneren: Op benchmarks zoals GSM8K en MATH overtreft LaDiR bestaande autoregressieve methoden (zoals CoT SFT) en recente latente redeneerbenaderingen (zoals Coconut en CODI). Het bereikte een gemiddelde verbetering van 1,5% in Pass@1 en een aanzienlijke stijging in Pass@100 (diversiteit), wat aantoont dat het model betere en diverse oplossingen vindt.
Codegeneratie: Op benchmarks zoals HumanEval en MBPP+ presteerde LaDiR significant beter dan AR-baselines en andere latent reasoning-methoden (bijv. +8% op HumanEval+ vergeleken met SFT).
Puzzelplanning (Countdown): Op de Countdown-taak toonde LaDiR een verbetering van >30% in Pass@1 en Pass@100 ten opzichte van AR-baselines, wat wijst op een sterkere globale planningscapaciteit.
Ablatiestudies: Deze bevestigden dat de Flow Matching-objectief superieur is aan andere diffusiemethoden, dat de "block-wise" structuur essentieel is voor balans tussen compactheid en nauwkeurigheid, en dat diversiteitsguidance cruciaal is voor het vinden van meerdere oplossingen.

Betekenis en Impact

LaDiR introduceert een nieuw paradigma voor tekstredenering dat de sterktes van autoregressieve modellen (flexibiliteit) combineert met die van diffusiemodellen (iteratieve verfijning en diversiteit).

Het lost het probleem op dat autoregressieve modellen "vastlopen" in lokale optima door het vermogen om semantisch te herzien.
Het biedt een schaalbare manier om test-time compute in te zetten voor betere prestaties.
Het bewijst dat redeneren in een continue, semantische ruimte effectiever kan zijn dan het genereren van discrete tokens, wat een nieuwe richting opent voor de ontwikkeling van "System 2"-achtige redeneervermogens in AI.

Kortom, LaDiR demonstreert dat latente diffusie een principieel kader biedt om nauwkeurigheid, diversiteit en interpreteerbaarheid in tekstredenering te balanceren, verder dan de beperkingen van traditionele autoregressieve benaderingen.