Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity

Dit paper introduceert een methode die het α-divergentie-familie gebruikt om de precisie-diversiteitsafweging bij het trainen van taalmodellen voor redenering te beheersen, waardoor een superieure dekking wordt bereikt zonder de nauwkeurigheid te verliezen.

Germán Kruszewski, Pierre Erbacher, Jos Rozen, Marc Dymetman

Gepubliceerd 2026-03-09
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Titel: Hoe we AI's laten redeneren zonder hun creativiteit te doden

Stel je voor dat je een zeer slimme, creatieve schrijver hebt (een Large Language Model of LLM) die graag verhalen schrijft of wiskundige problemen oplost. Maar soms maakt hij fouten. Je wilt hem trainen om alleen de juiste antwoorden te geven.

Het oude probleem: De "Perfecte" maar saaie robot
Tot nu toe hebben onderzoekers een methode gebruikt die lijkt op het trainen van een hond met snoepjes. Als de hond (de AI) het juiste commando uitvoert, krijgt hij een snoepje (een beloning). Als hij het fout doet, krijgt hij niets.

Het probleem is dat de AI hierdoor extreem "angstig" wordt. Hij leert dat er maar één manier is om het snoepje te krijgen: de ene weg die hij al weet dat werkt. Hij stopt met experimenteren. Hij wordt als een robot die steeds hetzelfde, veilige pad loopt.

  • Het resultaat: Hij is heel accuraat (hij maakt geen fouten), maar hij is saai en niet flexibel. Als er een nieuw, moeilijk probleem is waarvoor een creatieve, ongewone oplossing nodig is, faalt hij omdat hij alleen maar de "veilige" route kent. In de vaktaal noemen ze dit "mode collapse": de AI krimpt samen tot één enkel puntje in plaats van een heel landschap te verkennen.

De nieuwe oplossing: "Alles wat overblijft, moet waar zijn"
De auteurs van dit paper (uit NAVER Labs) zeggen: "Wacht even. We hoeven de AI niet te dwingen om slechts één weg te kiezen. We kunnen hem juist leren om alle juiste wegen te vinden, terwijl we de verkeerde wegen gewoon weggooien."

Hun methode, DMVR, werkt als een filter:

  1. Het Filter: Stel je voor dat je een bak met honderden antwoorden hebt. Je gooit alle foutieve antwoorden direct in de prullenbak.
  2. De Rest: Wat overblijft, zijn alleen de juiste antwoorden.
  3. De Leerles: De AI moet nu leren dat elk antwoord dat overblijft, goed is. Hij hoeft niet te kiezen tussen "dit is de beste oplossing" en "dat is een mindere oplossing". Als het correct is, is het goed.

De magische knop: De α\alpha-knop
Het slimme aan hun nieuwe methode is dat ze een "knop" hebben bedacht (de α\alpha-parameter) waarmee je kunt kiezen wat je belangrijker vindt:

  • Knop op "Precisie" (Zoals de oude methode): De AI wordt een scherpschutter. Hij zoekt de ene, meest waarschijnlijke, perfecte oplossing. Hij is heel goed in het vinden van één antwoord, maar vergeet misschien andere goede manieren.
  • Knop op "Diversiteit" (De nieuwe aanpak): De AI wordt een ontdekkingsreiziger. Hij probeert veel verschillende manieren om het probleem op te lossen. Hij blijft breed en creatief.
  • De Gouden Middenweg: Je kunt de knop ergens in het midden zetten. Dan krijg je een AI die zowel accuraat is als creatief.

Een analogie uit het dagelijks leven: Het zoeken naar de beste route
Stel je voor dat je in een groot, complex stadje (een wiskundig probleem) moet komen bij een bestemming.

  • De oude AI (RL): Deze AI heeft één keer een route gevonden die werkt. Hij denkt: "Dit is de enige route!" en loopt daar elke dag. Als er een brug dicht is, weet hij niet wat hij moet doen. Hij is efficiënt, maar kwetsbaar.
  • De nieuwe AI (DMVR met lage α\alpha): Deze AI gooit alle routes die naar een doodlopende straat leiden weg. Maar hij houdt alle routes die wel werken vast. Hij weet dat er tien verschillende manieren zijn om bij de bestemming te komen. Als er een brug dicht is, pakt hij gewoon een andere route. Hij is misschien iets minder snel in het kiezen van de allersnelste route, maar hij is veel robuuster en kan veel meer situaties aan.

Wat hebben ze bewezen?
Ze hebben dit getest op een heel moeilijk spel: het bewijzen van wiskundige stellingen met een computerprogramma genaamd Lean.

  • De oude methodes maakten de AI heel goed in het vinden van één bewijs, maar ze werden "dom" in het vinden van andere bewijzen.
  • Hun nieuwe methode (α\alpha-DPG) creëerde een AI die op het beste van twee werelden zit: hij is net zo goed in het vinden van het juiste antwoord, maar hij kan ook veel meer verschillende manieren bedenken om dat antwoord te bereiken.

Conclusie
De boodschap van dit paper is simpel: Filteren is beter dan dwingen.
In plaats van de AI te dwingen om zich te concentreren op één "perfecte" oplossing (wat zijn creativiteit doodt), laten we hem gewoon alle fouten zien en zeggen we: "Kijk, deze zijn fout. Alles wat overblijft, is waar." Zo houden we de AI slim, accuraat én creatief.