DRA-GRPO: Your GRPO Needs to Know Diverse Reasoning Paths for Mathematical Reasoning

DRA-GRPO is een plug-and-play methode die de GRPO-algoritme voor wiskundig redeneren verbetert door middel van een diversiteitsbewuste beloningsaanpassing die redundantie tegengaat en zo leidt tot hogere nauwkeurigheid met minder trainingsdata.

Xiwen Chen, Wenhui Zhu, Peijie Qiu, Xuanzhao Dong, Hao Wang, Haiyu Wu, Huayu Li, Aristeidis Sotiras, Yalin Wang, Abolfazl Razi

Gepubliceerd 2026-03-03
📖 3 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groep slimme leerlingen (de AI-modellen) hebt die wiskundepuzzels moeten oplossen. De docent (de onderzoekers) wil dat ze niet alleen het juiste antwoord vinden, maar ook dat ze leren op verschillende manieren na te denken.

In de huidige wereld van AI wordt er vaak gebruikt gemaakt van een methode genaamd GRPO. Dit werkt als volgt: de AI probeert een probleem op te lossen, en als het antwoord klopt, krijgt het een "ster" (een beloning). Als het fout is, krijgt het geen ster.

Het Probleem: De "Kopieer-En-Voeg" Valstrik

Het probleem met deze simpele sterren-methode is dat de AI te snel in een routine vervalt. Stel je voor dat er drie leerlingen zijn die allemaal het juiste antwoord geven:

  1. Leerling A gebruikt een creatieve, nieuwe manier van redeneren.
  2. Leerling B gebruikt een heel standaard, saai recept dat ze uit hun hoofd hebben geleerd.
  3. Leerling C doet precies hetzelfde als Leerling B.

Omdat ze allemaal het juiste antwoord hebben, krijgt iedereen precies dezelfde ster. De AI leert hieruit: "Ah, het makkelijkste en snelste is om te doen wat Leerling B doet." Hierdoor stopt de AI met zoeken naar nieuwe, creatieve manieren (zoals Leerling A) en blijft hij hangen in één enkel, saai patroon. Dit noemen de auteurs de "Diversiteit-Kwaliteit Inconsistentie": de kwaliteit (het juiste antwoord) is er wel, maar de diversiteit (de manier van denken) is verdwenen.

De Oplossing: DRA-GRPO (De "Diversiteits-Detective")

De auteurs van dit papier hebben een slimme truc bedacht, genaamd DRA-GRPO. Ze voegen een extra regel toe aan het spel: "Als je antwoord hetzelfde is als dat van je klasgenoten, krijg je minder punten. Als je iets heel unieks doet, krijg je een bonus."

Ze gebruiken een wiskundig hulpmiddel (Submodulaire Mutual Information) dat fungeert als een diversiteits-detector.

  • Voorbeeld: Stel je voor dat je een groep vrienden hebt die allemaal een foto van een hond maken.
    • Als 5 vrienden exact dezelfde foto maken (allemaal een gouden retriever van voren), dan is dat saai. De "diversiteits-detector" zegt: "Jullie zijn te veel hetzelfde, jullie krijgen minder punten."
    • Als één vriend een foto maakt van een hond die aan het springen is, en een ander een hond in een hoed, dan zijn dat unieke foto's. De detector zegt: "Jullie zijn uniek! Jullie krijgen een bonus."

Door deze bonus te geven aan de unieke oplossingen, wordt de AI gedwongen om de "saaiere" wegen te verlaten en de "avontuurlijke" paden te verkennen. Het zorgt ervoor dat de AI niet alleen het juiste antwoord vindt, maar ook een brede waaier aan manieren om daar te komen.

Waarom is dit belangrijk?

  1. Minder data nodig: Omdat de AI nu efficiënter leert door te zoeken naar unieke oplossingen, heeft hij veel minder voorbeelden nodig om slim te worden. In het papier laten ze zien dat ze met slechts 7.000 voorbeelden (in plaats van 40.000) al betere resultaten behalen dan de concurrenten.
  2. Beter redeneren: Het dwingt de AI om niet alleen te "gokken" op het antwoord, maar echt na te denken over de structuur van het probleem.
  3. Kostenbesparing: Omdat het minder rekenkracht en tijd kost om te trainen, is het goedkoper.

Samenvatting in één zin

DRA-GRPO is als een slimme coach die zijn leerlingen niet alleen looft voor het juiste antwoord, maar hen ook extra belooft als ze een creatieve, unieke manier vinden om dat antwoord te bereiken, zodat ze niet blijven hangen in één saaie routine.