DRPO: Efficient Reasoning via Decoupled Reward Policy Optimization

Each language version is independently generated for its own context, not a direct translation.

DRPO: De Kunst van het "Niet Te Veel Denken" voor AI

Stel je voor dat je een slimme, maar soms wat overdreven assistent hebt. Je vraagt hem: "Wat is 2 plus 3?"

Een normaal mens antwoordt direct: "5".
Maar deze slimme AI-assistent (een zogenaamd 'Large Reasoning Model') begint te piekeren: "Oké, ik heb twee vingers aan mijn linkerhand en drie aan mijn rechter... laten we de getallen op een rijtje zetten... wacht, was het niet andersom? Laten we het nog eens controleren... nee, het is echt 5. Maar wacht, misschien moet ik het in het Frans zeggen? Nee, 5 is 5."

Uiteindelijk geeft hij het juiste antwoord, maar hij heeft 1000 woorden gebruikt om iets te zeggen dat in 1 woord kon. Dit noemen de onderzoekers "overthinking" (te veel nadenken). Het kost veel tijd, veel energie en maakt de computer traag.

De onderzoekers van deze paper (DRPO) hebben een oplossing bedacht. Hier is hoe het werkt, vertaald naar alledaags taal:

1. Het Probleem: De "Groepsdruk" van de AI

Tot nu toe leerden we deze AI's door ze een spel te laten spelen. Ze kregen een groepje antwoorden (bijvoorbeeld 6 verschillende pogingen).

Als een antwoord goed was, kreeg hij een puntje.
Als het fout was, kreeg hij een nul.

De AI leerde door te kijken naar het gemiddelde van de groep. Als de meeste antwoorden lang en rommelig waren, maar één kort en goed, werd dat korte antwoord soms toch "gestraft" omdat het afweek van de groepsgemiddelde.

De analogie:
Stel je voor dat je in een klas zit waar iedereen urenlang een wiskundeprobleem uitrekent. Jij lost het in 1 minuut op. De leraar (het oude systeem) kijkt naar de klas en zegt: "Jij bent te snel, je hebt niet genoeg nagedacht zoals de rest. Je krijgt een lagere score."
Dit is verkeerd! Jij was gewoon efficiënt. Het oude systeem straffe de goede, korte antwoorden onbedoeld omdat ze "te kort" waren in vergelijking met de lange, saaie antwoorden van de rest van de klas.

2. De Oplossing: DRPO (Gescheiden Beloningen)

De onderzoekers bedachten een nieuwe manier om te leren, genaamd DRPO. In plaats van alles door elkaar te gooien, maken ze twee aparte lijnen:

Lijn A (De Goede Antwoorden): Hier kijken ze alleen naar de goede antwoorden. Als een goed antwoord kort is, krijgt het een gouden ster. Als een goed antwoord lang en saai is, krijgt het een zilveren ster. Maar: een goed antwoord krijgt nooit een negatieve score, zelfs niet als het lang is.
Lijn B (De Foute Antwoorden): Hier kijken ze alleen naar de fouten. Die krijgen een rode kaart.

De analogie:
Stel je voor dat je een kok traint.

Oude methode: De chef kijkt naar 10 borden. 9 zijn overgegeten en 1 is perfect en klein. De chef zegt: "Die ene kleine portie is raar, de rest is groot. Weet je wat? Die kleine portie is ook niet goed." De kok raakt in de war en leert niet om efficiënt te koken.
DRPO-methode: De chef zegt: "Kijk naar de goede borden. Die kleine portie is perfect! Die grote portie is ook goed, maar minder efficiënt. Kijk nu naar de slechte borden (verbrand of verkeerd). Die gooien we weg."
De kok leert nu: "Ah, ik moet proberen om de goede borden zo klein mogelijk te houden, maar ik mag nooit stoppen met koken als het antwoord fout is."

3. Het Resultaat: Slimmer en Sneller

Met deze nieuwe methode (DRPO) leren de AI's om:

Kort te denken als het antwoord makkelijk is (zoals "2+3").
Lang te denken als het echt moeilijk is (zoals een olympiade-wiskundeprobleem).
Nooit te stoppen met denken als het antwoord fout is.

De cijfers:
Bij simpele vragen (zoals op de GSM8k-dataset) kon de AI met hun nieuwe methode 77% minder tekst genereren, terwijl de nauwkeurigheid bijna gelijk bleef. De oude methoden moesten vaak 4% aan nauwkeurigheid opofferen om zo'n beetje evenveel te besparen.

Samenvatting in één zin

DRPO is als een slimme trainer die een atleet leert: "Als je de race wint, is het goed om snel te zijn. Maar als je de race verliest, maakt de snelheid niet uit; probeer het dan gewoon opnieuw." Hierdoor wordt de AI veel efficiënter zonder dat hij dommer wordt.

Each language version is independently generated for its own context, not a direct translation.

Titel: DRPO: Efficiënt Redeneren via Ontkoppelde Beloningbeleidsoptimalisatie

Auteurs: Gang Li, Yan Chen, Ming Lin, Tianbao Yang (Texas A&M University & University of Virginia)
Publicatie: ICLR 2026

1. Het Probleem: "Overthinking" in Grote Redeneringsmodellen

Grote Redeneringsmodellen (LRMs), aangedreven door Reinforcement Learning (RL) algoritmen zoals GRPO (Group Relative Policy Optimization), hebben indrukwekkende prestaties geleverd op complexe taken zoals wiskunde en coderen. Ze genereren uitgebreide "Chain-of-Thought" (CoT) paden om fouten te corrigeren en alternatieve routes te verkennen.

Echter, deze modellen lijden aan "overthinking": ze genereren onnodig lange en redundante redeneringen, zelfs voor simpele vragen (bijv. "wat is 2 + 3?"). Dit leidt tot:

Een aanzienlijke toename in rekentijd en kosten.
Langere reactietijd (latency).

Bestaande methoden proberen dit op te lossen door lengtestraffen (length penalties) toe te voegen aan de beloningsfunctie in GRPO. Het idee is om correcte maar lange antwoorden te bestraffen om kortere paden te stimuleren. De paper stelt echter vast dat deze aanpak fundamenteel tekortschiet:

Het toevoegen van een lengtestraaf verlaagt de totale beloning voor correcte, maar lange antwoorden.
In GRPO wordt de "advantage" (voordeel) berekend als een groepsrelatief verschil ten opzichte van het gemiddelde van alle samples (zowel correct als incorrect).
Het kernprobleem: Als een correct, maar lang antwoord een lage beloning krijgt door de lengtestraaf, kan deze waarde lager worden dan het groepsgemiddelde. Hierdoor krijgt het correcte antwoord een negatieve advantage. Het model leert hierdoor dat correct redeneren eigenlijk "slecht" is, wat de prestaties aanzienlijk schaadt.

2. Methodologie: DRPO (Decoupled Reward Policy Optimization)

Om dit probleem op te lossen, introduceren de auteurs DRPO, een nieuw RL-framework dat de leerprocessen voor correcte en incorrecte antwoorden ontkoppelt.

Kerninnovatie: Ontkoppeling van LeerSignalen

In plaats van alle samples in één groep te normaliseren (zoals GRPO doet), normaliseert DRPO de beloningen voor correcte antwoorden alleen binnen de groep van correcte antwoorden.

Correcte antwoorden worden vergeleken met andere correcte antwoorden.
Incorrecte antwoorden worden apart behandeld.
Hierdoor kan een lengtestraaf de positieve signalen van lange, correcte antwoorden verzwakken (om kortere te stimuleren), maar nooit negatief maken zolang het antwoord nog correct is. Dit voorkomt dat het model leren dat correct redeneren strafbaar is.

Wiskundige Formulering

DRPO baseert zich op een discriminatief optimalisatieframework (DisCO) en integreert een geoptimaliseerde verdeling van positieve data.

Doelfunctie: Het maximaliseren van de score voor correcte outputs met een hoge lengtebeloning, terwijl foutieve outputs worden onderdrukt.
Geoptimaliseerde Distributie ( $P^*_q$ ): De auteurs leiden een gesloten vorm (closed-form solution) af voor een verdeling die de lengtebeloning maximaliseert onder een KL-regularisatie ten opzichte van de huidige beleid.
$P^*_q(o) = \frac{\pi^+_{old}(o|q) \exp(r_l(o)/\lambda)}{\mathbb{E}_{o \sim \pi^+_{old}}[\exp(r_l(o)/\lambda)]}$
Waarbij $r_l(o)$ de lengtebeloning is en $\lambda$ een regularisatieparameter.
Efficiëntie: Deze formulering maakt het mogelijk om de doelstelling te optimaliseren met alleen on-policy data (data gegenereerd door het huidige model) via importance weighting, zonder extra dataverzameling.

3. Belangrijkste Bijdragen

Diagnose van GRPO: De auteurs identificeren en analyseren de fundamentele beperking van GRPO bij het gebruik van samengestelde beloningen (correctheid + lengte), waarbij de groepsrelatieve advantage-functie leidt tot misleidende leerignalen.
DRPO Framework: Een nieuw paradigma dat leerignalen voor positieve en negatieve data ontkoppelt, waardoor consistente en onbedorven beleidsgradiënten worden verkregen.
Analytische Oplossing: Een rigoureuze afleiding van een gesloten vorm voor de geoptimaliseerde positieve data-distributie, wat een praktisch algoritme mogelijk maakt zonder extra overhead.
Empirische Superioriteit: Uitgebreide experimenten die aantonen dat DRPO aanzienlijk beter presteert dan bestaande methoden op het gebied van efficiëntie en nauwkeurigheid.

4. Resultaten

De auteurs hebben DRPO getest op wiskundige redeneertaken (GSM8k, MATH-500, OlympiadBench, AIME) met modellen van 1.5B, 7B en 8B parameters.

Prestatie vs. Lengte: DRPO bereikt een veel betere afweging tussen prestatie en efficiëntie dan zes state-of-the-art baselines (zoals RLOO-LP, ALP, HAPO).
Specifiek Voorbeeld (1.5B Model op GSM8k):
- DRPO bereikte een 77% reductie in de lengte van de redenering.
- Dit ging gepaard met slechts een 1.1% verlies in prestatie (accuracy).
- Ter vergelijking: De beste concurrent (volgende baseline) sacrificeerde 4.3% prestatie voor slechts 68% lengtereductie.
Accuracy-Efficiency Score (AES): DRPO behaalde consequent positieve AES-scores (wat betekent: kortere antwoorden zonder kwaliteitsverlies), terwijl bijna alle baselines negatieve scores hadden (kwaliteitsverlies).
Training Dynamics: De training toont aan dat DRPO met een lage $\lambda$ (sterke lengtepenalisatie) de lengte drastisch verlaagt (>50%) terwijl de prestaties stabiel blijven.

5. Betekenis en Conclusie

DRPO lost een kritiek probleem op in de ontwikkeling van efficiënte Large Reasoning Models. Het bewijst dat het mogelijk is om modellen te trainen om korter en efficiënter te redeneren zonder de redeneercapaciteit te offeren, door de fundamentele fout in de beloningsmechanismen van bestaande RL-methoden (zoals GRPO) te corrigeren.

De methode is niet alleen beperkt tot lengtebeloningen; het framework is generiek en kan worden uitgebreid met andere voorkeursbeloningen voor positieve data (bijv. procesbeloningen). Dit opent de deur voor bredere toepassingen in het optimaliseren van test-tijd compute en het verminderen van de operationele kosten van AI-modellen.

DRPO: Efficient Reasoning via Decoupled Reward Policy Optimization

1. Het Probleem: De "Groepsdruk" van de AI

2. De Oplossing: DRPO (Gescheiden Beloningen)

3. Het Resultaat: Slimmer en Sneller

Samenvatting in één zin

Titel: DRPO: Efficiënt Redeneren via Ontkoppelde Beloningbeleidsoptimalisatie

1. Het Probleem: "Overthinking" in Grote Redeneringsmodellen

2. Methodologie: DRPO (Decoupled Reward Policy Optimization)

Kerninnovatie: Ontkoppeling van LeerSignalen

Wiskundige Formulering

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

ReaMIL: Reasoning- and Evidence-Aware Multiple Instance Learning for Whole-Slide Histopathology

Pramana: Fine-Tuning Large Language Models for Epistemic Reasoning through Navya-Nyaya

Operational Noncommutativity in Sequential Metacognitive Judgments

Proximity Measure of Information Object Features for Solving the Problem of Their Identification in Information Systems

ReVEL: Multi-Turn Reflective LLM-Guided Heuristic Evolution via Structured Performance Feedback