Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity

Each language version is independently generated for its own context, not a direct translation.

Titel: Hoe we AI's laten redeneren zonder hun creativiteit te doden

Stel je voor dat je een zeer slimme, creatieve schrijver hebt (een Large Language Model of LLM) die graag verhalen schrijft of wiskundige problemen oplost. Maar soms maakt hij fouten. Je wilt hem trainen om alleen de juiste antwoorden te geven.

Het oude probleem: De "Perfecte" maar saaie robot
Tot nu toe hebben onderzoekers een methode gebruikt die lijkt op het trainen van een hond met snoepjes. Als de hond (de AI) het juiste commando uitvoert, krijgt hij een snoepje (een beloning). Als hij het fout doet, krijgt hij niets.

Het probleem is dat de AI hierdoor extreem "angstig" wordt. Hij leert dat er maar één manier is om het snoepje te krijgen: de ene weg die hij al weet dat werkt. Hij stopt met experimenteren. Hij wordt als een robot die steeds hetzelfde, veilige pad loopt.

Het resultaat: Hij is heel accuraat (hij maakt geen fouten), maar hij is saai en niet flexibel. Als er een nieuw, moeilijk probleem is waarvoor een creatieve, ongewone oplossing nodig is, faalt hij omdat hij alleen maar de "veilige" route kent. In de vaktaal noemen ze dit "mode collapse": de AI krimpt samen tot één enkel puntje in plaats van een heel landschap te verkennen.

De nieuwe oplossing: "Alles wat overblijft, moet waar zijn"
De auteurs van dit paper (uit NAVER Labs) zeggen: "Wacht even. We hoeven de AI niet te dwingen om slechts één weg te kiezen. We kunnen hem juist leren om alle juiste wegen te vinden, terwijl we de verkeerde wegen gewoon weggooien."

Hun methode, DMVR, werkt als een filter:

Het Filter: Stel je voor dat je een bak met honderden antwoorden hebt. Je gooit alle foutieve antwoorden direct in de prullenbak.
De Rest: Wat overblijft, zijn alleen de juiste antwoorden.
De Leerles: De AI moet nu leren dat elk antwoord dat overblijft, goed is. Hij hoeft niet te kiezen tussen "dit is de beste oplossing" en "dat is een mindere oplossing". Als het correct is, is het goed.

De magische knop: De $\alpha$ -knop
Het slimme aan hun nieuwe methode is dat ze een "knop" hebben bedacht (de $\alpha$ -parameter) waarmee je kunt kiezen wat je belangrijker vindt:

Knop op "Precisie" (Zoals de oude methode): De AI wordt een scherpschutter. Hij zoekt de ene, meest waarschijnlijke, perfecte oplossing. Hij is heel goed in het vinden van één antwoord, maar vergeet misschien andere goede manieren.
Knop op "Diversiteit" (De nieuwe aanpak): De AI wordt een ontdekkingsreiziger. Hij probeert veel verschillende manieren om het probleem op te lossen. Hij blijft breed en creatief.
De Gouden Middenweg: Je kunt de knop ergens in het midden zetten. Dan krijg je een AI die zowel accuraat is als creatief.

Een analogie uit het dagelijks leven: Het zoeken naar de beste route
Stel je voor dat je in een groot, complex stadje (een wiskundig probleem) moet komen bij een bestemming.

De oude AI (RL): Deze AI heeft één keer een route gevonden die werkt. Hij denkt: "Dit is de enige route!" en loopt daar elke dag. Als er een brug dicht is, weet hij niet wat hij moet doen. Hij is efficiënt, maar kwetsbaar.
De nieuwe AI (DMVR met lage $\alpha$ ): Deze AI gooit alle routes die naar een doodlopende straat leiden weg. Maar hij houdt alle routes die wel werken vast. Hij weet dat er tien verschillende manieren zijn om bij de bestemming te komen. Als er een brug dicht is, pakt hij gewoon een andere route. Hij is misschien iets minder snel in het kiezen van de allersnelste route, maar hij is veel robuuster en kan veel meer situaties aan.

Wat hebben ze bewezen?
Ze hebben dit getest op een heel moeilijk spel: het bewijzen van wiskundige stellingen met een computerprogramma genaamd Lean.

De oude methodes maakten de AI heel goed in het vinden van één bewijs, maar ze werden "dom" in het vinden van andere bewijzen.
Hun nieuwe methode ( $\alpha$ -DPG) creëerde een AI die op het beste van twee werelden zit: hij is net zo goed in het vinden van het juiste antwoord, maar hij kan ook veel meer verschillende manieren bedenken om dat antwoord te bereiken.

Conclusie
De boodschap van dit paper is simpel: Filteren is beter dan dwingen.
In plaats van de AI te dwingen om zich te concentreren op één "perfecte" oplossing (wat zijn creativiteit doodt), laten we hem gewoon alle fouten zien en zeggen we: "Kijk, deze zijn fout. Alles wat overblijft, is waar." Zo houden we de AI slim, accuraat én creatief.

Each language version is independently generated for its own context, not a direct translation.

Titel: Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity

Auteurs: Germán Kruszewski, Pierre Erbacher, Jos Rozen, Marc Dymetman (NAVER Labs Europe & Independent Researcher)
Datum: Maart 2026

1. Het Probleem: Diversiteitsverlies bij Redeneren met RL

Grote Taalmodellen (LLMs) die zijn getraind met Reinforcement Learning from Verifiable Rewards (RLVR) (zoals PPO of GRPO) hebben indrukwekkende prestaties geleverd op redeneertaken. Echter, recente studies tonen aan dat deze modellen vaak lijden aan een significant verlies aan diversiteit (ook wel "mode collapse" genoemd).

De oorzaak: RLVR optimaliseert impliciet de Reverse KL-divergentie ( $D_{KL}(\pi || p)$ ) naar een doelverdeling die correcte antwoorden bevordert.
Het mechanisme: Reverse KL is een "mode-seeking" (mod-zoekend) of "zero-forcing" divergentie. Dit betekent dat het model de kansmassa concentreert op een klein aantal hoogstwaarschijnlijke oplossingen (de "modi") en andere geldige oplossingen negeert, zelfs als deze in de basisverdeling aanwezig waren.
Het gevolg: Hoewel de precisie (kans op een correct antwoord bij één poging, pass@1) stijgt, daalt de dekking (pass@k bij grote $k$ ). Het model wordt accuraat maar star, wat problematisch is voor complexe taken zoals wiskundige bewijzen waar zeldzame afleidingen nodig kunnen zijn.

2. Methodologie: DMVR en $\alpha$ -DPG

De auteurs stellen een nieuw raamwerk voor, Distributional Matching with Verifiable Rewards (DMVR), dat de focus verschuift van het optimaliseren van een beloningsfunctie naar het expliciet benaderen van een doelverdeling.

A. De Doelverdeling

In plaats van te proberen een reward te maximaliseren, definiëren de auteurs de ideale doelverdeling $p_x$ als de verdeling die ontstaat door de basis-LLM ( $\pi_{base}$ ) te filteren met een verifieerbaar criterium $v(y, x)$ (waarbij $v=1$ voor correct, $v=0$ voor incorrect):
$p_x(y) \propto \pi_{base}(y|x) \cdot v(y, x)$
Deze verdeling behoudt alle correcte oplossingen met hun oorspronkelijke relatieve waarschijnlijkheid, maar verwijdert alle incorrecte antwoorden.

B. Het Dilemma van Divergenties

Om een policy $\pi_\theta$ te trainen die deze doelverdeling benadert, moet een divergentie worden gekozen:

Reverse KL ( $D_{KL}(\pi || p)$ ): Mode-seeking. Leidt tot hoge precisie maar lage diversiteit (standaard bij RLVR).
Forward KL ( $D_{KL}(p || \pi)$ ): Mass-covering. Leidt tot hoge diversiteit maar kan onnauwkeurige (lage-reward) gebieden omvatten.

C. De Oplossing: $\alpha$ -DPG

De auteurs introduceren $\alpha$ -DPG (Distributional Policy Gradient met $\alpha$ -divergentie). Dit maakt gebruik van de familie van $\alpha$ -divergenties, die een continuüm vormt tussen Forward KL ( $\alpha \to 0$ ) en Reverse KL ( $\alpha \to 1$ ).

Formule: De methode minimaliseert de $\alpha$ -divergentie $D_{f_\alpha}(\pi_\theta || p_x)$ .
Pseudo-reward: De training gebruikt een aangepaste pseudo-reward die afhankelijk is van $\alpha$ :
$R_\theta(y, x) = \frac{1}{1-\alpha} \left( \left( \frac{p_x(y)}{\pi_\theta(y|x)} \right)^{1-\alpha} - 1 \right)$
Controle: Door de parameter $\alpha$ $α$ te variëren, kunnen onderzoekers de afweging tussen precisie (pass@1) en dekking/diversiteit (pass@k) direct en glad regelen.
- $\alpha \approx 1$ : Gedraagt zich als RLVR (Reverse KL), hoge precisie.
- $\alpha \approx 0$ : Gedraagt zich als Forward KL, hoge diversiteit.
- $\alpha = 0.5$ : Hellinger afstand, een evenwicht.

3. Belangrijkste Bijdragen

DMVR Framework: Een nieuw perspectief dat RLVR herkent als een benadering van een gefilterde doelverdeling, maar met een suboptimale divergentie (Reverse KL) die diversiteit opoffert.
Analyse van Diversiteitsverlies: Een theoretische onderbouwing waarom RLVR-modellen "mode-seeking" gedrag vertonen en waarom dit inherent is aan de gekozen divergentie, niet aan de doelverdeling zelf.
$\alpha$ -DPG: Een unificatie van bestaande methoden (RLVR, KL-DPG, Rejection Sampling Fine-Tuning) onder één paraplu, waarbij $\alpha$ fungeert als een knop voor de precieze-diversiteitsafweging.
State-of-the-art Resultaten: Empirisch bewijs dat $\alpha$ -DPG een Pareto-voorrand bereikt die alle eerdere methoden overtreft, vooral op het gebied van dekking.

4. Experimenten en Resultaten

De methode werd getest op het Lean theorem-proving benchmark (formele wiskundige bewijzen), een omgeving waar diversiteit cruciaal is omdat moeilijke stellingen soms alleen via zeldzame afleidingen opgelost kunnen worden.

Dataset: 10.000 oplosbare Lean-problemen (Lean Workbook), getraind op DeepSeek-Prover-V1.5-SFT (7B parameters).
Baselines: Vergelijking met GRPO, PPO, RLOO, GPG, ReMax, en diverse regularisatiemethoden (High-KL, Rw-Ulkly, Pass@k training).
Resultaten:
- Pareto-voorrand: De $\alpha$ -DPG-modellen liggen allemaal op of nabij de Pareto-voorrand tussen pass@1 (precisie) en pass@256 (dekking).
- Beste Dekking: Modellen met lage $\alpha$ -waarden (bijv. $\alpha=0.25$ ) behalen de hoogste dekking (pass@256) van alle geteste methoden, terwijl ze nog steeds een aanzienlijke verbetering in precisie tonen ten opzichte van de basis-SFT.
- Beste Precisie: Modellen met hoge $\alpha$ -waarden (bijv. $\alpha=0.999$ ) bereiken precisie die gelijkstaat aan of beter is dan pure RL-methoden, maar behouden vaak nog iets meer dekking.
- Diversiteitsanalyse: Er is een sterke correlatie gevonden tussen de diversiteit van gebruikte tactieken/premissen (gemeten via Shannon-entropie en Simpson-index) en de pass@256 score. RL-methoden vertonen vaak een instorting in deze diversiteit, terwijl $\alpha$ -DPG (vooral bij lage $\alpha$ ) deze behoudt.
- Perplexiteit: Analyse toont aan dat $\alpha$ -DPG-modellen dicht bij de basisverdeling blijven; ze "ontdekken" geen fundamenteel nieuwe oplossingen, maar hergewichten en versterken bestaande, correcte paden zonder andere geldige paden te verliezen.

5. Significantie en Conclusie

Dit paper biedt een fundamenteel nieuw inzicht in het trainen van redenerende LLMs:

Verschuiving van Paradigma: Het probleem ligt niet in het filteren van antwoorden (het doel), maar in de divergentie die wordt gebruikt om dat doel te benaderen. RLVR faalt niet omdat het filtert, maar omdat het Reverse KL gebruikt, wat diversiteit opoffert.
Controleerbare Afweging: $\alpha$ -DPG biedt onderzoekers en ontwikkelaars een enkele parameter ( $\alpha$ ) om de balans tussen "hoe vaak is het antwoord correct?" en "hoe breed is het zoekgebied?" te sturen.
Toepassing: Voor complexe redeneertaken (zoals wiskunde, codegeneratie, wetenschappelijke ontdekking) waar "out-of-the-box" denken en het vinden van zeldzame oplossingen essentieel zijn, biedt deze methode een superieur alternatief voor standaard RLVR. Het garandeert dat "wat overblijft" (na filtering) niet alleen waar is, maar ook divers blijft, in lijn met de Sherlock Holmes-citaat in de titel.

Kortom, de auteurs bewijzen dat het mogelijk is om modellen te trainen die zowel extreem nauwkeurig als uitzonderlijk divers zijn, zolang men de juiste divergentie kiest om de gefilterde doelverdeling te benaderen.

Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity

Titel: Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity

1. Het Probleem: Diversiteitsverlies bij Redeneren met RL

2. Methodologie: DMVR en α\alphaα-DPG

A. De Doelverdeling

B. Het Dilemma van Divergenties

C. De Oplossing: α\alphaα-DPG

3. Belangrijkste Bijdragen

4. Experimenten en Resultaten

5. Significantie en Conclusie

Meer zoals dit

ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

When Is Collective Intelligence a Lottery? Multi-Agent Scaling Laws for Memetic Drift in LLMs

AutoSAM: an Agentic Framework for Automating Input File Generation for the SAM Code with Multi-Modal Retrieval-Augmented Generation

Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

Formal Semantics for Agentic Tool Protocols: A Process Calculus Approach

2. Methodologie: DMVR en $\alpha$ -DPG

C. De Oplossing: $\alpha$ -DPG