Learning to Explore with Parameter-Space Noise: A Deep Dive into Parameter-Space Noise for Reinforcement Learning with Verifiable Rewards

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een groot taalmodel (zoals een slimme AI) een wiskundig probleem moet oplossen. Het doet dit door een reeks denkstappen te maken, net als een mens die een probleem op een kladblaadje uitwerkt. Dit noemen we "Chain of Thought" (gedachtenketen).

De onderzoekers van dit paper hebben ontdekt dat deze AI's vaak vastlopen in een bepaalde denkwijze. Ze worden heel goed in het kiezen van het beste antwoord uit de antwoorden die ze al kennen, maar ze vinden zelden nieuwe manieren om problemen op te lossen. Het is alsof ze een pad door een bos hebben gevonden dat naar de top leidt, en ze blijven daar maar heen rennen, terwijl er misschien een nog korter pad is dat ze nog nooit hebben gezien.

Hier is een uitleg van hun oplossing, PSN-RLVR, in simpele taal met een paar creatieve vergelijkingen.

1. Het Probleem: De "Gedachte-Val"

Normaal gesproken proberen AI's om meer variatie te krijgen door bij elk woord dat ze schrijven een beetje "ruis" toe te voegen (net als een mens die soms een beetje slordig schrijft of een woord kiest dat net iets anders klinkt).

De analogie: Stel je voor dat je een lange, complexe route door een stad moet plannen. Als je bij elke straatafslag een beetje willekeurig een andere richting kiest (de "ruis"), kom je vaak vast te zitten in een doodlopende straat of maak je een onlogisch bochtje. De hele route wordt een rommelpakket zonder samenhang. De AI blijft hangen in kleine, lokale foutjes en mist het grote plaatje.

2. De Oplossing: De "Denkende Agent"

De onderzoekers zeggen: "Laten we niet bij elk woord een beetje willekeur toevoegen, maar laten we de denkstrategie zelf een beetje aanpassen voordat we beginnen."

Ze noemen dit Parameter-Space Noise (ruis in de parameter-ruimte).

De analogie: In plaats van dat je bij elke straatafslag een beetje slordig bent, stel je voor dat je je kompas een beetje verdraait voordat je de reis begint.
- Als je komas iets naar het noorden wijst, volg je de hele reis consequent die richting. Je maakt misschien een andere route dan normaal, maar die route is logisch en consistent.
- Je bent niet slordig; je bent gewoon een ander persoon met een iets andere kijk op de wereld. Je vindt daardoor routes die je met je normale komas nooit zou hebben gevonden.

3. Hoe werkt het precies? (De drie slimme trucjes)

De onderzoekers hebben drie belangrijke onderdelen bedacht om dit veilig en effectief te laten werken:

A. De "Gedachte-Consistentie" (Traject-level exploration)

Zoals in de kompas-analogie: door de instellingen van de AI (de "parameters") één keer te veranderen voor een hele reeks denkstappen, blijft de AI consequent in die nieuwe denkwijze.

Resultaat: De AI denkt niet in losse, willekeurige stukjes, maar in hele, logische verhalen. Dit is cruciaal voor moeilijke wiskundeproblemen waar je 20 stappen nodig hebt om tot het antwoord te komen.

B. De "Correctie-Bril" (Truncated Importance Sampling)

Omdat de AI nu met een "verdraaid kompas" (de verstoide versie) denkt, maar we de antwoorden willen gebruiken om de "normale AI" te leren, ontstaat er een probleem: de data komt niet helemaal overeen.

De oplossing: Ze gebruiken een wiskundige techniek (TIS) die fungeert als een correctie-bril. Deze kijkt naar de antwoorden van de "verstoide" AI en zegt: "Oké, dit antwoord kwam van een andere versie, maar het is waardevol. Laten we het gewicht van dit antwoord aanpassen zodat het eerlijk is voor de normale AI." Zo leren ze van de nieuwe routes zonder in de war te raken.

C. De "Slimme Thermostaat" (Adaptive Noise Scheduler)

Hoeveel moet je het komas nu precies verdraaien? Te weinig en je vindt niets nieuws. Te veel en de AI wordt gek en maakt alleen maar fouten.

De oplossing: In plaats van een vaste instelling, hebben ze een slimme thermostaat bedacht. Deze kijkt continu naar de AI:
- "Is de AI al te zeker van zichzelf?" -> Draai het komas meer!
- "Is de AI al aan het dwalen?" -> Draai het komas minder!
- Dit gebeurt in real-time en is heel goedkoop in rekencapaciteit. Het zorgt ervoor dat de AI altijd precies de juiste hoeveelheid "avontuur" heeft.

4. Wat levert dit op?

De resultaten zijn indrukwekkend, vooral bij moeilijke problemen:

Bij simpele vragen: De AI is net zo goed als voorheen.
Bij moeilijke vragen (met veel probeer-mogelijkheden): De AI vindt veel meer goede antwoorden dan voorheen. Waar andere methoden vastliepen op een "plafond" (ze konden niet verder dan een bepaald niveau), breekt deze methode dat plafond open.

De grote les:
Om echt slim te worden in complexe taken (zoals wiskunde of coderen), moet je niet alleen proberen het beste antwoord uit je huidige kennis te kiezen. Je moet je denkstrategie zelf een beetje aanpassen, zodat je routes ontdekt die je anders nooit zou zien. Het is het verschil tussen "slimmer denken" en "anders denken".

Kortom: PSN-RLVR geeft de AI een tijdelijk, veilig "ander brein" om nieuwe ideeën te ontdekken, en helpt haar die ideeën vervolgens te vertalen naar een slimme, stabiele oplossing.

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem: Het Exploratieplafond in RLVR

Reinforcement Learning met Verifieerbare Beloningen (RLVR) is een centrale methode om het redeneervermogen van Large Language Models (LLMs) te verbeteren, vooral in domeinen zoals wiskunde en codegeneratie. Bestaande methoden, zoals GRPO (Group Relative Policy Optimization), optimaliseren het beleid door direct te leren van verifiers (bijv. unit tests).

De auteurs identificeren echter een kritiek exploratieplafond:

Herweging vs. Ontdekking: Huidige RLVR-pijplijnen verbeteren voornamelijk de selectie-efficiëntie van bestaande oplossingspaden (verbetering van pass@1), maar ontdekken zelden kwalitatief nieuwe redeneerstrategieën.
Beperkte Diversiteit: Na training vertonen modellen minder semantische en operationele diversiteit dan het basismodel. Ze blijven grotendeels binnen de verdelingsruimte van het oorspronkelijke pre-training-model.
Tekortkomingen van bestaande oplossingen:
- Actieruimte-perturbaties (Decoding-time): Methoden zoals temperatuur-sampling voegen ruis toe op token-niveau. Dit leidt tot ongecorreleerde ruis die de globale coherentie van lange Chain-of-Thought (CoT) trajecten verstoort ("logische drift").
- Objectief-regularisatie: Methoden die de trainingsdoelstelling aanpassen (bijv. entropy bonuses) zijn vaak afhankelijk van proxy-signalen die gevoelig zijn voor taakmoeilijkheid.
- Data-augmentatie: Vereist vaak extra rekentijd of externe signalen.

2. Methodologie: PSN-RLVR

Om dit probleem op te lossen, stellen de auteurs PSN-RLVR (Parameter-Space Noise for RLVR) voor. In plaats van ruis toe te voegen aan de gegenereerde tokens (acties), wordt ruis toegevoegd aan de parameters van het beleid voordat de rollouts worden gegenereerd.

Kerncomponenten:

Parameter-Space Noise (PSN):
- Aan het begin van elke iteratie wordt Gaussische ruis ( $\epsilon \sim \mathcal{N}(0, \sigma^2 I)$ ) toegevoegd aan de parametervector $\theta$ van het beleid, resulterend in een verstoord beleid $\tilde{\theta}$ .
- Voordeel: Omdat $\tilde{\theta}$ constant blijft gedurende de volledige rollout, wordt er temporeel consistente, traject-niveau exploratie gegenereerd. Dit behoudt de coherentie van lange redeneerketens beter dan token-niveau ruis.
- Injectielocatie: Experimenten tonen aan dat het injecteren van ruis in de MLP-lagen (Feed-Forward Networks) van de Transformer-architectuur de beste resultaten oplevert voor het vergroten van de redeneergrens.
Truncated Importance Sampling (TIS):
- Omdat de rollouts worden gegenereerd door het verstoord beleid $\tilde{\theta}$ maar het model wordt bijgewerkt met het schone beleid $\theta$ , ontstaat er een off-policy mismatch.
- Om dit te corrigeren en de trainingsstabiliteit te garanderen, wordt de GRPO-objectief aangepast met een afgekapt belangverhouding (truncated importance ratio). Dit voorkomt dat de variantie onbeperkt groeit wanneer de verdelingen te ver uit elkaar liggen.
Adaptieve Ruisplanning (Noise Scheduling):
- Een vast ruisniveau is suboptimaal: te weinig ruis leidt tot geen exploratie, te veel ruis destabiliseert de training.
- De auteurs stellen een lichtgewicht, real-time adaptieve planner voor (Variant II) die de ruisgrootte ( $\sigma$ $σ$ ) dynamisch aanpast op basis van twee signalen:
  - Semantische Diversiteit: Gemeten via cosine-sequentie tussen twee proef-rollouts.
  - Zelf-Verzekerdheid (Self-Certainty): Gemeten via de KL-divergentie van de modelverdeling ten opzichte van een uniforme verdeling.
- Dit vermijdt de dure berekening van KL-divergentie tussen volledige rollouts en reageert direct op de huidige staat van het model.

3. Belangrijkste Bijdragen

Eerste systematische studie: Dit is het eerste werk dat parameter-space noise systematisch toepast op LLM's die zijn getraind met verifieerbare beloningen (RLVR).
PSN-GRPO Framework: Een implementatie van PSN op GRPO die consistent de effectieve grens van redeneervermogen uitbreidt.
Oplossing voor Off-Policy Mismatch: De integratie van Truncated Importance Sampling (TIS) om stabiel te leren van verstoord gegenereerde data.
Efficiënte Adaptieve Planner: Een nieuwe planner die ruis regelt op basis van semantische diversiteit en zelf-verzekerdheid, zonder de rekentijd significant te verhogen (slechts ~8% overhead).
Uitgebreide Analyse: Systematisch onderzoek naar waar ruis moet worden geïnjecteerd (MLP vs. LM-head), hoe de prestaties schalen met ruisgrootte, en de orthogonaliteit ten opzichte van andere methoden.

4. Resultaten

De methode is getest op meerdere wiskundige benchmarks (AIME 2024/2025, AMC 2023, OlympiadBench, Minerva Math) met modellen zoals Qwen2.5-Math-7B en Qwen3-4B.

Verbetering bij hoge sampling-budgetten: PSN-GRPO presteert aanzienlijk beter dan de standaard GRPO-baseline bij grote waarden van $k$ (bijv. pass@128, pass@256). Waar standaard RLVR vaak verzadigt, blijft PSN-GRPO groeien.
Toename van Diversiteit: Er is een sterke correlatie tussen de prestatieverbetering en een toename in semantische en operationele diversiteit. PSN induceert echt nieuwe redeneermodi, in plaats van alleen bestaande paden te herwegen.
Vergelijking met Actieruimte-ruis: PSN overtreft training-time temperatuur-sampling aanzienlijk, vooral bij lange trajecten. Temperatuur-sampling leidt tot "logische drift" die de coherentie van complexe redeneringen verstoort, terwijl PSN de coherentie behoudt.
Orthogonaliteit: PSN is compatibel met andere methoden. Het combineren van PSN met pass@k training leidt tot additieve winsten (bijv. stijging van pass@256 van 76.37% naar 79.12%).
Kwalitatieve Analyse: In gevallen waar het basismodel faalt, vindt PSN-GRPO vaak oplossingen die een volledig nieuw perspectief gebruiken, wat aantoont dat het in staat is om de "exploratiekloof" te overbruggen.

5. Betekenis en Impact

Dit paper biedt een fundamentele doorbraak in het verbeteren van het redeneervermogen van LLM's:

Doorbreken van het Plafond: Het biedt een praktische route om het "exploratieplafond" van huidige RLVR-methoden te doorbreken, waardoor modellen in staat zijn om oplossingen te vinden die buiten de oorspronkelijke verdelingsruimte liggen.
Efficiëntie: De voorgestelde adaptieve planner maakt deze techniek schaalbaar en kostenefficiënt, zonder de noodzaak van dure externe verifiers of enorme datasets.
Toekomstige Toepassingen: De methode is vooral waardevol voor complexe, lange-horizon taken (zoals wiskundige olympiades) waar globale coherentie essentieel is. Het stelt onderzoekers in staat om robuustere en creatievere redeneermodellen te bouwen die beter presteren onder hoge sampling-budgetten.

Kortom, PSN-RLVR bewijst dat het perturberen van de interne parameters van een model een krachtigere en coherentere vorm van exploratie biedt dan het perturberen van de output-tokens, wat leidt tot kwalitatief nieuwe redeneerstrategieën.