Duel-Evolve: Reward-Free Test-Time Scaling via LLM Self-Preferences

Each language version is independently generated for its own context, not a direct translation.

DUEL-EVOLVE: Hoe een AI zichzelf verbetert door te vechten in plaats van te scoren

Stel je voor dat je een kunstenaar bent die een meesterwerk probeert te schilderen, maar je hebt geen leraar die je vertelt of het goed is. Je hebt ook geen cijferschaal van 1 tot 10. Je hebt alleen een doek en verf. Hoe verbeter je dan je schilderij?

Meer dan de helft van de huidige AI-methoden werkt als een strenge leraar met een cijferlijst. Ze laten de AI een antwoord geven, geven daar een cijfer voor (bijvoorbeeld "dit is 7/10 goed"), en vragen de AI om het opnieuw te proberen op basis van dat cijfer. Het probleem? Voor veel moeilijke taken (zoals wiskundige bewijzen of het schrijven van complexe computercode) is het vaak onmogelijk om zo'n exact cijfer te geven. Is een code "8/10" goed? Of "9/10"? Dat is vaak subjectief of gewoon niet te meten.

De oplossing: DUEL-EVOLVE

De onderzoekers van dit paper hebben een slimme nieuwe manier bedacht, genaamd DUEL-EVOLVE. In plaats van een cijfer te geven, laten ze de AI twee antwoorden met elkaar vechten.

Hier is hoe het werkt, vertaald naar een simpel verhaal:

1. Het Toernooi (De Duel)

Stel je een groot toernooi voor waar honderden kandidaten (antwoorden) tegen elkaar strijden. In plaats van dat een jury elk antwoord een cijfer geeft, laten we twee kandidaten tegen elkaar vechten.

De AI kijkt naar Antwoord A en Antwoord B.
De AI moet kiezen: "Welk van deze twee is beter?"
Dit is veel makkelijker voor een AI dan het geven van een exact cijfer. Net zoals het voor een mens makkelijker is om te zeggen "Ik vind deze foto mooier dan die andere" dan om te zeggen "Deze foto is 8,4/10 mooi".

2. De Grote Schatkaart (De Bayesian Bradley-Terry Model)

Nu hebben we duizenden van deze kleine gevechten. Maar wie is nu echt de beste?
De AI gebruikt een slimme wiskundige methode (een soort "schatkaart") om al die kleine gevechten bij elkaar te houden. Het rekent uit: "Als A beter is dan B, en B beter is dan C, dan is A waarschijnlijk ook beter dan C."
Dit creëert een vertrouwensniveau. De AI weet niet alleen wie nu de beste is, maar ook hoe zeker ze daarover is. Is het een duidelijke winnaar, of is het een krappe race?

3. De Evolutie (Het Kweken van Nieuwe Ideeën)

Dit is waar het magisch wordt. De AI kijkt niet alleen naar de winnaars, maar gebruikt de "schatkaart" om te beslissen wat ze als volgende moeten doen:

Verkenning: Ze kiezen soms een kandidaat die nog niet vaak is gevecht, maar die misschien heel goed is (omdat de AI er nog niet zeker van is).
Exploitatie: Ze kiezen de huidige winnaars om als "ouders" te dienen.
De Nieuwe Generatie: De AI vraagt aan de "beste ouders": "Kijk naar jullie fouten en jullie sterke punten. Kunnen jullie een nog beter antwoord bedenken?"
De AI genereert dus nieuwe, verbeterde antwoorden gebaseerd op wat de vorige generatie heeft geleerd.

Waarom is dit zo geweldig?

Stel je voor dat je een puzzel probeert op te lossen.

De oude manier: Je probeert een stukje, iemand zegt "Nee, dat is niet goed" (maar zegt niet waarom), en je probeert het opnieuw. Je raakt snel vast.
De DUEL-EVOLVE manier: Je probeert twee stukjes. Je zegt: "Dit stukje past beter dan dat andere." Je bouwt een lijstje van "wat past beter dan wat". Uiteindelijk zie je een patroon ontstaan en kun je de puzzelstukjes zo leggen dat ze perfect passen, zonder dat je ooit een "cijfer" nodig hebt.

De resultaten in het kort:
De onderzoekers hebben dit getest op twee moeilijke gebieden:

Wiskunde: Waar de AI vaak vastloopt in complexe berekeningen. DUEL-EVOLVE haalde 94% correcte antwoorden, terwijl de beste oude methoden maar rond de 72% zaten. Dat is een enorme sprong!
Programmeren: Waar de AI code moet schrijven die werkt. Ook hier was DUEL-EVOLVE veel beter dan de concurrenten.

Het belangrijkste punt:
Dit systeem heeft geen externe leraar nodig. De AI is zowel de kunstenaar als de jury. Het leert puur door te vergelijken en te evolueren, net zoals in de natuur: de sterkste overleeft en geeft zijn eigenschappen door aan de volgende generatie.

Kortom: DUEL-EVOLVE is een slimme manier om een AI te laten groeien door haar te laten vechten in plaats van te straffen, waardoor ze zelfstandig de beste antwoorden vindt, zelfs als niemand haar kan vertellen wat het "perfecte" antwoord is.

Each language version is independently generated for its own context, not a direct translation.

1. Probleemstelling

Veel toepassingen van Large Language Models (LLM's) vereisen het optimaliseren van output op het moment van inferentie (test-time) door iteratief voorstellen, scoren en verfijnen van kandidaten in een discrete outputruimte. Bestaande methoden vertrouwen vaak op een gekalibreerde scalair evaluator (een beloningsscore) om de zoektocht te sturen.

Echter, voor veel taken zijn dergelijke scores niet beschikbaar, te schaars (bijvoorbeeld alleen een binair "goed/fout" signaal), of onbetrouwbaar. Het trainen van externe beloningsmodellen is duur en handmatige scorefuncties zijn vaak niet robuust. Een natuurlijke oplossing zou zijn om de LLM zelf te laten beoordelen, maar absolute scores van LLM's zijn vaak slecht gekalibreerd en inconsistent.

Het paper introduceert een nieuwe aanpak: het gebruik van paarsgewijze voorkeuren (pairwise preferences) als het enige optimalisatiesignaal. Dit signaal is vaak stabieler en makkelijker te eliciteren voor een LLM (het kiezen van de beste van twee opties is makkelijker dan het toekennen van een exacte score) en vereist geen externe supervisie.

2. Methodologie: DUEL-EVOLVE

DUEL-EVOLVE is een evolutionaire optimalisatiealgoritme dat uitsluitend wordt geleid door paarsgewijze voorkeuren gegenereerd door dezelfde LLM die de kandidaten produceert. Het algoritme combineert concepten uit dueling bandits en evolutionaire algoritmen.

Kerncomponenten:

Generatie en Beoordeling (Judge):
- De LLM fungeert zowel als generator (die nieuwe kandidaten $y$ produceert op basis van een query $x$ en een set van "ouders") als rechter (die twee kandidaten vergelijkt en de voorkeur aangeeft).
- Er is geen externe beloningsfunctie of ground-truth labels nodig tijdens de zoektocht.
Bayseiaanse Aggregatie (Bradley-Terry Model):
- Omdat individuele vergelijking lokaal en ruisend zijn, aggregert het algoritme alle waargenomen "duels" (gevechten) in een Bayseiaans Bradley-Terry model.
- Dit model schat een latente nuttigheid ( $\theta$ ) voor elke kandidaat.
- Door gebruik te maken van een Laplace-approximatie rond het MAP-estimation (Maximum A Posteriori), verkrijgt het algoritme per kandidaat een posterieur gemiddelde ( $\mu$ ) en een betrouwbaarheidsinterval ( $\sigma$ ). Dit biedt een onzekerheidsbewuste schatting van de kwaliteit.
Double Thompson Sampling (DTS) voor Budgettoewijzing:
- Een kritiek probleem is het efficiënt toewijzen van een beperkt budget aan vergelijkingen. Het algoritme moet beslissen welke paren vergeleken moeten worden.
- DUEL-EVOLVE past Double Thompson Sampling toe. In plaats van willekeurig te vergelijken, steekt het algoritme zijn energie in paren waarvan de kans groot is dat ze tot de beste optima behoren (gebaseerd op de posterieure verdeling).
- Dit balanceert exploratie (het testen van onzekere kandidaten) en exploitatie (het verfijnen van veelbelovende kandidaten).
Evolutionaire Lus:
- Het algoritme onderhoudt een populatie van kandidaten.
- In elke iteratie worden paren geselecteerd voor vergelijking (via DTS).
- Op basis van de geschatte nuttigheid en onzekerheid van de beste ouders, konditioneert de generator-LLM op deze "hoog scorende ouders" om nieuwe, verbeterde kandidaten te genereren.
- Een pruning-mechanisme verwijdert kandidaten waarvan de bovengrens van het betrouwbaarheidsinterval onder de ondergrens van de beste kandidaat ligt, om rekenkracht te besparen.

3. Belangrijkste Bijdragen

Reward-Free Optimalisatie: DUEL-EVOLVE elimineert de noodzaak van een extern beloningsmodel, ground-truth labels tijdens de zoektocht, of handgemaakte scorefuncties. Het gebruikt uitsluitend interne LLM-voorkeuren.
Onzekerheidsbewuste Zoekstrategie: Door het Bradley-Terry model te combineren met Laplace-approximatie en Thompson Sampling, kan het algoritme effectief omgaan met ruis en onzekerheid in de vergelijkingen, wat essentieel is in grote, discrete ruimtes.
Efficiëntie in Discrete Ruimtes: Het biedt een praktische benadering voor het optimaliseren van complexe, discrete outputruimtes (zoals code of wiskundige bewijzen) waar gradiënten niet gedefinieerd zijn.

4. Resultaten

Het algoritme werd geëvalueerd op twee uitdagende benchmarks: MathBench (wiskundig redeneren) en LiveCodeBench (codegeneratie).

MathBench: DUEL-EVOLVE bereikte een nauwkeurigheid van 94%. Dit is 20 procentpunten hoger dan de sterkste bestaande methoden (zoals Feedback Descent en GEPA). Het algoritme convergeerde snel, waarbij 90% van de verbetering al in de eerste 10 generaties plaatsvond.
LiveCodeBench: Het bereikte een nauwkeurigheid van 37,4%, wat een verbetering is van meer dan 12 procentpunten ten opzichte van vergelijkbare iteratieve methoden.
Vergelijking: In beide gevallen overtrof DUEL-EVOLVE methoden zoals Zero-shot CoT, Self-consistency, Best-of-N, Feedback Descent en GEPA. Het toonde aan dat paarsgewijze zelf-voorkeuren een sterk optimalisatiesignaal vormen, zelfs zonder externe supervisie.

5. Betekenis en Conclusie

DUEL-EVOLVE demonstreert dat paarsgewijze voorkeuren een krachtig alternatief zijn voor scalair beloningssignaal bij het optimaliseren van LLM-output op test-tijd. Het paper bewijst dat:

LLM's beter zijn in het vergelijken van twee opties dan in het direct genereren van de perfecte oplossing of het toekennen van exacte scores.
Door deze voorkeuren te aggregeren via een Bayseiaans model en slim te selecteren welke vergelijkingen nodig zijn, kan een systeem zelfstandig leren en verbeteren zonder externe feedback.
Deze aanpak leidt tot aanzienlijke prestatiewinsten in complexe domeinen zoals wiskunde en programmering, waar traditionele zoekmethoden vaak vastlopen door gebrek aan goede evaluatiecriteria.

De methode opent de deur voor robuustere, schaalbare test-time optimalisatie in open-ended taken waar het definiëren van een perfecte scorefunctie onmogelijk of onpraktisch is. Een beperking die wordt erkend is dat het systeem systematische bias van de LLM (bijvoorbeeld een voorkeur voor zelfverzekerdheid boven juistheid) kan versterken, wat toekomstig onderzoek vereist.

Duel-Evolve: Reward-Free Test-Time Scaling via LLM Self-Preferences

1. Het Toernooi (De Duel)

2. De Grote Schatkaart (De Bayesian Bradley-Terry Model)

3. De Evolutie (Het Kweken van Nieuwe Ideeën)

Waarom is dit zo geweldig?

1. Probleemstelling

2. Methodologie: DUEL-EVOLVE

Kerncomponenten:

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Diffusion Language Models Know the Answer Before Decoding

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yorùbá