Learning to Explore with Parameter-Space Noise: A Deep Dive into Parameter-Space Noise for Reinforcement Learning with Verifiable Rewards

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr klugen, aber etwas sturden Mathematik-Genie-Koch (das ist dein KI-Modell). Dieser Koch kann schon ganz gut kochen, aber wenn er ein neues, schwieriges Rezept versucht, neigt er dazu, immer wieder die gleichen drei oder vier bekannten Tricks anzuwenden. Er probiert nicht wirklich Neues aus, sondern verfeinert nur das, was er schon kennt.

Das ist das Problem, das die Forscher in diesem Papier beschreiben: Wenn man solche KIs mit Belohnungen trainiert (z. B. "Richtig gelöst = +1 Punkt"), werden sie oft nur noch effizienter darin, die bereits bekannten Lösungen zu finden. Sie verlieren die Fähigkeit, wirklich kreative, neue Wege zu entdecken. Das nennen die Autoren eine "Explorations-Grenze".

Hier ist die Lösung, die sie gefunden haben, einfach erklärt:

1. Das Problem: Der "Sturkopf"-Effekt

Normalerweise versuchen KIs, neue Lösungen zu finden, indem sie beim Schreiben jedes einzelnen Wortes (oder Tokens) ein bisschen "Zufall" hinzufügen. Stell dir vor, der Koch würfelt bei jedem einzelnen Gewürz, das er ins Essen gibt.

Das Problem: Wenn er bei jedem Schritt zufällig etwas anderes tut, wird das Gericht am Ende ein chaotisches Durcheinander. Die Logik geht verloren. Ein langer Gedankengang (wie bei einer Matheaufgabe) braucht aber Konsistenz. Wenn der Koch heute einen Schritt macht, muss er morgen logisch darauf aufbauen können. Zufälliges Gewürfen bei jedem Wort zerstört diese Logik.

2. Die Lösung: "Parameter-Rauschen" (PSN) – Der neue Blickwinkel

Statt den Koch bei jedem einzelnen Schritt zu verwirren, geben die Forscher ihm stattdessen vor dem Start eine kleine "Brille" auf, die seine gesamte Wahrnehmung leicht verändert.

Die Analogie: Stell dir vor, du hast einen Kompass. Normalerweise zeigt er genau nach Norden.
- Die alte Methode (Zufall beim Wort): Du wackelst mit dem Kompass bei jedem Schritt, den du machst. Du landest irgendwo, aber du weißt nicht, warum.
- Die neue Methode (Parameter-Rauschen): Du drehst den Kompass vor der Reise um ein kleines Stück nach Osten. Jetzt läuft der Koch die ganze Reise lang konsequent in eine leicht andere Richtung als sonst.
Der Effekt: Weil die "Brille" (die Störung im Gehirn der KI) für die ganze Aufgabe gleich bleibt, bleibt der Gedankengang logisch und zusammenhängend. Aber da die KI durch diese Brille eine andere Perspektive hat, entdeckt sie Lösungen, die sie ohne diese Brille nie gesehen hätte. Sie findet neue Pfade im "Wald der Mathematik".

3. Die zwei cleveren Werkzeuge, damit es funktioniert

Damit dieser Trick nicht das Training kaputt macht, haben die Forscher zwei Sicherheitsmechanismen eingebaut:

A. Der "Filter" (Truncated Importance Sampling)
Da die KI mit der "Brille" (dem verrauschten Modell) reist, aber wir das Ergebnis aber dem "normalen" Modell (ohne Brille) gutgeschrieben wollen, entsteht eine Diskrepanz.

Die Analogie: Stell dir vor, ein Sportler trainiert mit schweren Gewichten (der verrauschte Zustand), aber wir bewerten ihn im Wettkampf ohne Gewichte. Wenn er beim Training mit Gewichten stolpert, ist das vielleicht nur wegen der Gewichte, nicht weil er schlecht ist.
Die Lösung: Die Forscher nutzen einen Filter, der sagt: "Okay, dieser Fehler war nur wegen der schweren Gewichte, wir zählen ihn nicht so stark." Das sorgt dafür, dass das Training stabil bleibt, auch wenn die KI experimentiert.

B. Der "Intelligente Thermostat" (Adaptive Noise Scheduler)
Wie stark soll die Brille sein? Zu schwach? Dann passiert nichts. Zu stark? Dann wird die KI verrückt.

Die alte Methode: Man müsste ständig testen, wie sehr sich die KI verändert hat (sehr teuer und langsam).
Die neue Methode: Die Forscher haben einen cleveren, schnellen Thermostat gebaut. Er schaut sich an: "Wie sicher ist die KI gerade?" und "Wie ähnlich sind ihre Antworten?"
- Wenn die KI sehr selbstsicher ist und immer das Gleiche sagt -> Der Thermostat dreht die "Brille" etwas stärker auf, um sie zu zwingen, Neues zu probieren.
- Wenn die KI schon sehr experimentell ist -> Der Thermostat dämpft es etwas, damit sie nicht den Faden verliert.
- Das passiert in Echtzeit und kostet kaum Rechenleistung.

4. Das Ergebnis: Mehr Kreativität bei großen Aufgaben

Die Forscher haben das an einem sehr beliebten KI-Modell (Qwen) getestet, das Matheaufgaben löst.

Ergebnis: Bei einfachen Aufgaben (wo man nur eine Lösung braucht) war es fast gleich gut wie vorher.
Der große Gewinn: Bei sehr schweren Aufgaben, bei denen man hunderte oder tausende Versuche braucht (um die eine perfekte Lösung zu finden), war die KI mit der "Brille" deutlich besser. Sie fand Lösungen, die die anderen KIs gar nicht erst gesehen haben.

Zusammenfassend:
Statt die KI zu zwingen, bei jedem Wort zu wackeln, geben sie ihr eine neue "Perspektive" für die ganze Aufgabe. Das führt zu logisch konsistenten, aber kreativeren Denkwegen. Es ist wie ein Detektiv, der plötzlich eine neue Brille aufsetzt und dadurch Hinweise sieht, die ihm vorher unsichtbar waren – ohne dabei den Fall zu vergessen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung: Das Explorations-Plateau bei RLVR

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich als zentrales Paradigma zur Verbesserung des logischen Denkens (Reasoning) von Large Language Models (LLMs) etabliert, insbesondere in Bereichen wie Mathematik und Code-Generierung. Bekannte Algorithmen wie GRPO (Group Relative Policy Optimization) optimieren die Modelle direkt gegen Verifizierer (z. B. Unit-Tests).

Das Paper identifiziert jedoch ein kritisches Limit, das als „Explorations-Decke" (Exploration Ceiling) bezeichnet wird:

Re-Reweight statt Neuer Entdeckung: Aktuelle RLVR-Pipelines verbessern oft nur die Auswahlwahrscheinlichkeit bereits existierender, korrekter Lösungspfade (Sampling-Effizienz, z. B. Pass@1), anstatt qualitativ neue Lösungsstrategien zu entdecken.
Begrenzte Diversität: Die trainierten Modelle zeigen eine geringere semantische und operationale Diversität als das Basis-Modell. Sie bleiben im Wesentlichen in der Verteilung des Pre-Trainings gefangen.
Limitierungen bestehender Ansätze:
- Action-Space Noise (z. B. Temperature Sampling): Führt zu inkonsistentem Rauschen auf Token-Ebene, was die globale Kohärenz von Chain-of-Thought (CoT) über lange Horizonte zerstört.
- Objektive-Regularisierung (z. B. Entropy-Bonus): Oft abhängig von Proxy-Signalen, die nicht robust genug sind.
- Data Augmentation: Erhöht oft die Rechenkosten oder erfordert externe Signale.

Das Ziel ist es, die Lücke zu schließen, indem Exploration und Exploitation so balanciert werden, dass neue Regionen im Lösungsraum erkundet werden, ohne die langfristige logische Konsistenz zu verlieren.

2. Methodik: PSN-RLVR

Die Autoren schlagen PSN-RLVR (Parameter-Space Noise for RLVR) vor, ein Framework, das Rauschen nicht in den Aktionsraum (Tokens), sondern in den Parameterraum des Policies injiziert.

Kernkomponenten:

Parameter-Space Noise (PSN):
- Statt Tokens während der Generierung zu stören, werden die Gewichte des Policy-Modells ( $\theta$ ) vor dem Rollout durch additives Gaußsches Rauschen perturbiert: $\tilde{\theta} = \theta + \epsilon$ , wobei $\epsilon \sim \mathcal{N}(0, \sigma^2 I)$ .
- Vorteil: Da $\tilde{\theta}$ während eines gesamten Rollouts fest bleibt, erzeugt dies eine zeitlich konsistente Exploration auf Trajektorien-Ebene. Das Modell verfolgt eine konsistente, aber leicht abweichende Strategie über den gesamten Lösungsweg, was die Kohärenz von CoT erhält.
Truncated Importance Sampling (TIS):
- Problem: Da die Daten vom verrauschten Policy $\pi_{\tilde{\theta}}$ gesammelt, aber das saubere Policy $\pi_{\theta}$ aktualisiert wird, entsteht ein Off-Policy-Mismatch.
- Lösung: Die Autoren integrieren TIS in die GRPO-Zielfunktion. Das Importance Weighting $w_t$ wird berechnet und auf einen Schwellenwert $C$ gekappt, um die Varianz zu begrenzen und stabile Gradienten zu gewährleisten, auch wenn $\pi_{\tilde{\theta}}$ stark von $\pi_{\theta}$ abweicht.
Adaptive Noise Scheduling (Echtzeit):
- Um die optimale Rauschstärke $\sigma$ dynamisch anzupassen, ohne teure KL-Divergenz-Berechnungen oder zusätzliche Rollouts, schlagen die Autoren einen leichten, echtzeitfähigen Scheduler vor (Variante II).
- Indikatoren: Der Scheduler nutzt zwei Signale pro Batch:
  - Semantische Diversität: Gemessen durch die Cosine-Ähnlichkeit von Embeddings zweier Probe-Antworten des sauberen Modells.
  - Selbstgewissheit (Self-Certainty): Gemessen durch die KL-Divergenz der Token-Verteilung des Modells zu einer Gleichverteilung (je schärfer die Verteilung, desto höher die Gewissheit).
- Logik: Hohe Ähnlichkeit und hohe Gewissheit signalisieren, dass das Modell in lokalen Minima steckt und mehr Exploration (höheres $\sigma$ ) benötigt.
Optimale Injektionsstelle:
- Experimente zeigen, dass das Injizieren von Rauschen ausschließlich in die MLP-Schichten (Feed-Forward-Netze) des Transformers die besten Ergebnisse liefert, im Gegensatz zum Injizieren in den LM-Head oder alle Schichten.

3. Wichtige Beiträge

Erste systematische Studie: Dies ist die erste umfassende Untersuchung von Parameter-Space Noise speziell für LLMs im Kontext von RLVR.
PSN-GRPO Framework: Die Implementierung von PSN auf Basis von GRPO, die durch TIS und den adaptiven Scheduler stabilisiert wird.
Design-Space Analyse: Systematische Beantwortung von Design-Fragen (Wo injizieren? Wie groß ist $\sigma$ ? Wann ist PSN besser als Action-Space Noise?).
Orthogonalität: Der Nachweis, dass PSN mit anderen Explorationsmethoden (z. B. Pass@k-Training) kombinierbar ist und additive Gewinne erzielt.

4. Ergebnisse

Die Methode wurde auf mehreren mathematischen Benchmarks (AIME 2024/25, AMC 2023, OlympiadBench, Minerva Math) mit Modellen wie Qwen2.5-Math-7B und Qwen3-4B evaluiert.

Erweiterung der Reasoning-Grenze: PSN-GRPO erreicht signifikant höhere Pass@k-Werte (insbesondere bei großen $k$ $k$ , z. B. 128 oder 256) im Vergleich zum Standard-GRPO und anderen Explorationsmethoden.
- Beispiel: Auf AIME 24 (sehr schwierige Aufgaben) stieg Pass@256 von 72,7% (Bestes Temperatur-Baseline) auf 81,6% mit PSN-GRPO.
Diversität: Die generierten Lösungen weisen eine deutlich höhere semantische und operationale Diversität auf. Qualitative Analysen zeigen, dass PSN-GRPO Lösungen findet, die das Basis-Modell in 300 Versuchen nicht fand (neue Denkansätze statt nur bessere Auswahl).
Konsistenz vs. Rauschen: Im Gegensatz zu Temperature Scaling (Action-Space Noise), das bei langen Aufgaben (hohe Token-Anzahl) aufgrund von „logischem Drift" versagt, behält PSN die logische Kohärenz über lange Ketten bei.
Trade-off: PSN führt bei sehr kleinen Sampling-Budgets (Pass@1) oft zu einem leichten Rückgang der Genauigkeit (da Exploration priorisiert wird), gewinnt aber massiv bei großen Budgets.
Effizienz: Der adaptive Scheduler (Variante II) fügt nur ca. 8% Overhead hinzu, ist aber deutlich effektiver als statische Rauschparameter oder nicht-echtzeitfähige Scheduler.

5. Bedeutung und Fazit

Das Paper demonstriert, dass die reine Optimierung der Auswahlwahrscheinlichkeit (Exploitation) in RLVR nicht ausreicht, um die Grenzen des logischen Denkens von LLMs zu erweitern. Durch die Verschiebung der Exploration in den Parameterraum wird eine globale, konsistente Suche ermöglicht, die für komplexe Chain-of-Thought-Aufgaben essenziell ist.

Kernaussagen:

Parameter-Space Noise ist überlegen gegenüber Token-Level-Rauschen für lange Reasoning-Tasks.
Die Kombination aus TIS (für Stabilität) und einem semantisch gesteuerten Scheduler (für Effizienz) macht die Methode praktikabel.
PSN-RLVR öffnet den Weg zu qualitativ neuen Lösungsstrategien, die über das Pre-Training hinausgehen, und ist ein vielversprechender Baustein für zukünftige Reasoning-Modelle.

Dieser Ansatz adressiert direkt das Problem der „Diversity Collapse" in RLVR und bietet einen skalierbaren Weg, um die Fähigkeiten von LLMs in verifizierbaren Domänen über das aktuelle Niveau hinaus zu heben.

Learning to Explore with Parameter-Space Noise: A Deep Dive into Parameter-Space Noise for Reinforcement Learning with Verifiable Rewards

1. Das Problem: Der "Sturkopf"-Effekt

2. Die Lösung: "Parameter-Rauschen" (PSN) – Der neue Blickwinkel

3. Die zwei cleveren Werkzeuge, damit es funktioniert

4. Das Ergebnis: Mehr Kreativität bei großen Aufgaben

1. Problemstellung: Das Explorations-Plateau bei RLVR

2. Methodik: PSN-RLVR

Kernkomponenten:

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

ReaMIL: Reasoning- and Evidence-Aware Multiple Instance Learning for Whole-Slide Histopathology

Pramana: Fine-Tuning Large Language Models for Epistemic Reasoning through Navya-Nyaya

Operational Noncommutativity in Sequential Metacognitive Judgments

Proximity Measure of Information Object Features for Solving the Problem of Their Identification in Information Systems

ReVEL: Multi-Turn Reflective LLM-Guided Heuristic Evolution via Structured Performance Feedback