Duel-Evolve: Reward-Free Test-Time Scaling via LLM Self-Preferences

Duel-Evolve is een nieuwe evolutionaire optimalisatiealgoritme dat testtijd-prestaties van grote taalmodellen verbetert door externe beloningen te vervangen door zelf-gegenereerde paarwijze voorkeuren, wat leidt tot aanzienlijk hogere nauwkeurigheid op wiskunde- en programmeerbenchmarks zonder gebruik van grondwaarheid of handgemaakte scorefuncties.

Sweta Karlekar, Carolina Zheng, Magnus Saebo, Nicolas Beltran-Velez, Shuyang Yu, John Bowlan, Michal Kucer, David Blei

Gepubliceerd 2026-02-27
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

DUEL-EVOLVE: Hoe een AI zichzelf verbetert door te vechten in plaats van te scoren

Stel je voor dat je een kunstenaar bent die een meesterwerk probeert te schilderen, maar je hebt geen leraar die je vertelt of het goed is. Je hebt ook geen cijferschaal van 1 tot 10. Je hebt alleen een doek en verf. Hoe verbeter je dan je schilderij?

Meer dan de helft van de huidige AI-methoden werkt als een strenge leraar met een cijferlijst. Ze laten de AI een antwoord geven, geven daar een cijfer voor (bijvoorbeeld "dit is 7/10 goed"), en vragen de AI om het opnieuw te proberen op basis van dat cijfer. Het probleem? Voor veel moeilijke taken (zoals wiskundige bewijzen of het schrijven van complexe computercode) is het vaak onmogelijk om zo'n exact cijfer te geven. Is een code "8/10" goed? Of "9/10"? Dat is vaak subjectief of gewoon niet te meten.

De oplossing: DUEL-EVOLVE

De onderzoekers van dit paper hebben een slimme nieuwe manier bedacht, genaamd DUEL-EVOLVE. In plaats van een cijfer te geven, laten ze de AI twee antwoorden met elkaar vechten.

Hier is hoe het werkt, vertaald naar een simpel verhaal:

1. Het Toernooi (De Duel)

Stel je een groot toernooi voor waar honderden kandidaten (antwoorden) tegen elkaar strijden. In plaats van dat een jury elk antwoord een cijfer geeft, laten we twee kandidaten tegen elkaar vechten.

  • De AI kijkt naar Antwoord A en Antwoord B.
  • De AI moet kiezen: "Welk van deze twee is beter?"
  • Dit is veel makkelijker voor een AI dan het geven van een exact cijfer. Net zoals het voor een mens makkelijker is om te zeggen "Ik vind deze foto mooier dan die andere" dan om te zeggen "Deze foto is 8,4/10 mooi".

2. De Grote Schatkaart (De Bayesian Bradley-Terry Model)

Nu hebben we duizenden van deze kleine gevechten. Maar wie is nu echt de beste?
De AI gebruikt een slimme wiskundige methode (een soort "schatkaart") om al die kleine gevechten bij elkaar te houden. Het rekent uit: "Als A beter is dan B, en B beter is dan C, dan is A waarschijnlijk ook beter dan C."
Dit creëert een vertrouwensniveau. De AI weet niet alleen wie nu de beste is, maar ook hoe zeker ze daarover is. Is het een duidelijke winnaar, of is het een krappe race?

3. De Evolutie (Het Kweken van Nieuwe Ideeën)

Dit is waar het magisch wordt. De AI kijkt niet alleen naar de winnaars, maar gebruikt de "schatkaart" om te beslissen wat ze als volgende moeten doen:

  • Verkenning: Ze kiezen soms een kandidaat die nog niet vaak is gevecht, maar die misschien heel goed is (omdat de AI er nog niet zeker van is).
  • Exploitatie: Ze kiezen de huidige winnaars om als "ouders" te dienen.
  • De Nieuwe Generatie: De AI vraagt aan de "beste ouders": "Kijk naar jullie fouten en jullie sterke punten. Kunnen jullie een nog beter antwoord bedenken?"
    De AI genereert dus nieuwe, verbeterde antwoorden gebaseerd op wat de vorige generatie heeft geleerd.

Waarom is dit zo geweldig?

Stel je voor dat je een puzzel probeert op te lossen.

  • De oude manier: Je probeert een stukje, iemand zegt "Nee, dat is niet goed" (maar zegt niet waarom), en je probeert het opnieuw. Je raakt snel vast.
  • De DUEL-EVOLVE manier: Je probeert twee stukjes. Je zegt: "Dit stukje past beter dan dat andere." Je bouwt een lijstje van "wat past beter dan wat". Uiteindelijk zie je een patroon ontstaan en kun je de puzzelstukjes zo leggen dat ze perfect passen, zonder dat je ooit een "cijfer" nodig hebt.

De resultaten in het kort:
De onderzoekers hebben dit getest op twee moeilijke gebieden:

  1. Wiskunde: Waar de AI vaak vastloopt in complexe berekeningen. DUEL-EVOLVE haalde 94% correcte antwoorden, terwijl de beste oude methoden maar rond de 72% zaten. Dat is een enorme sprong!
  2. Programmeren: Waar de AI code moet schrijven die werkt. Ook hier was DUEL-EVOLVE veel beter dan de concurrenten.

Het belangrijkste punt:
Dit systeem heeft geen externe leraar nodig. De AI is zowel de kunstenaar als de jury. Het leert puur door te vergelijken en te evolueren, net zoals in de natuur: de sterkste overleeft en geeft zijn eigenschappen door aan de volgende generatie.

Kortom: DUEL-EVOLVE is een slimme manier om een AI te laten groeien door haar te laten vechten in plaats van te straffen, waardoor ze zelfstandig de beste antwoorden vindt, zelfs als niemand haar kan vertellen wat het "perfecte" antwoord is.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →