RLP: Reinforcement as a Pretraining Objective

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einem Kind beibringen, wie man ein schwieriges Rätsel löst.

Das alte Verfahren (Der Standard):
Bisher haben wir große KI-Modelle (wie ein riesiges Gehirn) trainiert, indem wir ihnen einfach nur Millionen von Sätzen vorgelesen haben. Die Aufgabe des Kindes war immer dieselbe: „Was kommt als nächstes?"

Beispiel: Du sagst: „Der Himmel ist..." und das Kind muss raten: „...blau."
Das Problem: Das Kind lernt nur, Wörter vorherzusagen, wie ein Papagei, der Sätze auswendig lernt. Es denkt nicht wirklich nach. Es weiß nicht, warum der Himmel blau ist, es weiß nur, dass das Wort „blau" meistens danach kommt. Um es wirklich schlau zu machen, mussten wir es später (nach dem Training) extra mit Hausaufgaben und Belohnungssystemen (Reinforcement Learning) nachtrainieren. Das ist wie ein Schüler, der erst die ganze Schule durchläuft und dann im letzten Jahr plötzlich angefangen hat, Mathe zu lernen.

Die neue Methode (RLP – Reinforcement Learning Pretraining):
Die Autoren dieses Papiers sagen: „Warte mal! Warum warten wir mit dem Nachdenken bis zum Schluss? Warum lassen wir das Kind nicht während des Lesens schon nachdenken?"

Sie haben eine neue Methode namens RLP entwickelt. Hier ist die Idee, vereinfacht erklärt:

1. Der „Zwischenschritt" (Das innere Murmeln)

Stell dir vor, das Kind liest den Satz: „Der Himmel ist..."
Bevor es das Wort „blau" sagt, darf es sich kurz eine Gedankenblase (Chain-of-Thought) vorstellen.

Das Kind denkt: „Hmm, ich erinnere mich, dass Licht von der Sonne kommt und sich in der Atmosphäre bricht. Also ist es wahrscheinlich blau."
Erst nach diesem Gedanken sagt es: „blau".

2. Der Belohnungsschalter (Der Lehrer im Kopf)

Das Geniale an RLP ist, wie das Kind belohnt wird. Es braucht keinen externen Lehrer, der sagt „Richtig!" oder „Falsch!".

Die Regel: Wenn der Gedanke dem Kind hilft, das nächste Wort besser vorherzusagen als wenn es gar nicht nachgedacht hätte, bekommt es eine Belohnung.
Die Analogie: Stell dir vor, das Kind hat zwei Versionen von sich selbst:
1. Version A (Ohne Nachdenken): Sagt einfach das erste Wort, das ihm einfällt.
2. Version B (Mit Nachdenken): Denkt kurz nach und sagt dann das Wort.
Wenn Version B das Wort „blau" sicherer und schneller findet als Version A, dann ist der Gedanke „nützlich". Das System belohnt diesen Gedanken. Wenn der Gedanke aber nur verwirrend ist und nichts bringt, gibt es keine Belohnung.

3. Der große Vorteil: Lernen durch Entdeckung

Früher mussten wir dem Kind erst das ganze Buch auswendig lernen lassen und danach sagen: „Hey, denk mal nach, bevor du antwortest."
Mit RLP lernt das Kind während es das Buch liest, dass Nachdenken sich lohnt.

Es lernt: „Aha! Wenn ich kurz über die Logik nachdenke, kriege ich das nächste Wort besser hin."
Das ist wie ein Sportler, der nicht nur die Bewegungen trainiert, sondern lernt, warum eine Bewegung funktioniert, während er sie ausführt.

Warum ist das so wichtig?

Kein externer Prüfer nötig: Bei anderen Methoden braucht man oft einen „Schiedsrichter" (einen anderen Computer oder Menschen), der sagt, ob die Antwort richtig ist. Das ist teuer und langsam. Bei RLP ist der „Schiedsrichter" das eigene Wissen des Modells. Es vergleicht sich selbst: „Habe ich es ohne Nachdenken besser oder schlechter gemacht?"
Es funktioniert überall: Die Methode funktioniert nicht nur bei Mathe-Aufgaben, sondern auch bei normalen Texten, wissenschaftlichen Artikeln oder Web-Seiten. Das Modell lernt, überall „schlau" zu sein, nicht nur in speziellen Rätseln.
Die Ergebnisse: In den Tests haben die Modelle, die mit dieser Methode trainiert wurden, deutlich besser abgeschnitten als die alten Modelle. Sie sind nicht nur schneller, sondern verstehen Zusammenhänge viel tiefer.

Zusammenfassung in einem Satz

Statt einem KI-Modell erst das Alphabet beizubringen und ihm später beizubringen, wie man nachdenkt, lehrt RLP das Modell während des Lernens, dass Nachdenken der Schlüssel ist, um die Welt besser zu verstehen – und belohnt es dafür, genau in dem Moment, in dem es das nächste Wort sagt.

Es ist der Unterschied zwischen einem Schüler, der nur auswendig lernt, und einem, der lernt, wie man lernt.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das derzeitige Paradigma zum Training großer Sprachmodelle (LLMs) folgt einem strengen Zwei-Phasen-Ansatz:

Pre-Training: Das Modell wird mit dem Ziel der „Next-Token Prediction" (Vorhersage des nächsten Wortes) auf riesigen Textmengen trainiert. Dieser Ansatz maximiert die Wahrscheinlichkeit des nächsten Tokens, fördert aber nicht explizit langfristiges logisches Schlussfolgern oder die Integration von Weltwissen.
Post-Training: Komplexe reasoning-Fähigkeiten werden erst in späteren Phasen durch Supervised Fine-Tuning (SFT) und Reinforcement Learning mit menschlichem oder verifiziertem Feedback (RLHF/RLVR) eingeführt.

Das Kernproblem: Diese Trennung ist suboptimal. Das Paper argumentiert, dass das menschliche Verstehen kein linearer Token-für-Token-Prozess ist, sondern eine parallele Integration von Eingabe und Vorwissen. Durch das Fehlen von Reasoning-Mechanismen während des Pre-Trainings entstehen Modelle, die erst im Nachhinein „nachdenken" müssen, was die Effizienz und die fundamentale Fähigkeit zum logischen Schlussfolgern einschränkt. Zudem sind bestehende Reinforcement-Learning-Ansätze oft auf verifizierte Daten (z. B. Mathematik-Lösungen) angewiesen und nicht auf allgemeine Webtexte skalierbar.

2. Methodik: RLP (Reinforcement Learning Pretraining)

Das Paper stellt RLP vor, ein informationsgetriebenes Reinforcement-Learning-Objektiv, das den Kern von RL – die Exploration – in die letzte Phase des Pre-Trainings integriert.

Kernidee:
Chain-of-Thought (CoT) wird nicht als separater Schritt, sondern als eine explorative Aktion behandelt, die vor der Vorhersage des nächsten Tokens stattfindet. Das Modell lernt, einen internen Gedanken (CoT) zu generieren, der die Vorhersage des nächsten beobachteten Tokens verbessert.

Der Mechanismus:

Aktion: An jeder Position $t$ im Text generiert das Modell (Policy $\pi_\theta$ ) einen latenten CoT ( $c_t$ ).
Vorhersage: Das Modell sagt den nächsten Token $x_t$ basierend auf dem Kontext und dem generierten Gedanken $c_t$ voraus.
Baseline (No-Think): Ein EMA-Teacher (Exponential Moving Average) $\bar{p}_\phi$ sagt denselben Token $x_t$ ohne den Gedanken $c_t$ voraus.
Belohnung (Reward): Die Belohnung $r(c_t)$ ist der Informationsgewinn, definiert als die Differenz der Log-Likelihoods:
$r(c_t) = \log p_\theta(x_t | x_{<t}, c_t) - \log \bar{p}_\phi(x_t | x_{<t})$
Dies ist ein dichter, verifiziererfreier Signalwert. Ein positiver Reward bedeutet, dass der generierte Gedanke die Vorhersage des nächsten Tokens im Vergleich zur Baseline verbessert hat.

Optimierung:

Verifiziererfrei: Da der Reward direkt aus der Log-Likelihood des Modells und einer Baseline berechnet wird, sind keine externen Verifizierer oder kuratierten Lösungen (wie bei RLVR) nötig. Dies ermöglicht das Training auf beliebigem Web-Text.
Gruppenrelative Vorteile: Um die Varianz zu reduzieren, werden pro Kontext $G$ verschiedene Gedanken gesampelt. Ein korrigierter inklusiver Mittelwert dient als Baseline für die Vorteile (ähnlich wie bei GRPO).
Update: Die Parameter werden nur auf den Tokens des Gedankens aktualisiert, nicht auf den Tokens des Zieltextes. Dies erzwingt das Lernen von „Denkstrategien", die die Vorhersagegenauigkeit steigern.
Theoretische Garantie: Das Paper beweist, dass die Maximierung des erwarteten Rewards äquivalent zur Reduktion der Cross-Entropy zwischen dem reasoned predictor und der Datenverteilung ist.

3. Wichtige Beiträge

RLP-Objektiv: Einführung eines neuen Pre-Training-Ziels, das Reasoning durch Informationsgewinn belohnt, ohne externe Verifizierer zu benötigen.
Stabiler Algorithmus: Entwicklung eines Trainingsverfahrens, das RL-Updates mit Standard-Likelihood-Training durch gruppenrelative Vorteile, einen geklammerten Surrogatverlust für Gedanken-Token und einen langsam aktualisierten EMA-Teacher kombiniert.
Theoretische Fundierung: Beweis, dass der erwartete Reward direkt mit der Reduktion der Cross-Entropy korreliert und eine berechenbare untere Schranke für die Verbesserung bietet.
Skalierbarkeit und Generalisierung: Umfassende Experimente zeigen, dass RLP über verschiedene Architekturen (Transformer, Hybrid Mamba-Transformer), Modellgrößen (1.7B bis 14B+) und Datenquellen (von kuratierten Math-Datensätzen bis zu rohem Web-Crawl) hinweg funktioniert.

4. Ergebnisse

Die Autoren evaluieren RLP auf zwei Hauptmodellen: QWEN3-1.7B-BASE und NEMOTRON-NANO-12B-V2 (ein Hybrid-Modell).

Hauptergebnisse:

QWEN3-1.7B-BASE:
- RLP steigert den Durchschnitt über ein 8-Benchmark-Suite (Mathematik & Wissenschaft) um 19% im Vergleich zum Basis-Modell und um 17% im Vergleich zu einem Continuous Pre-Training (CPT) mit gleichem Compute-Aufwand.
- Besonders starke Verbesserungen bei rechenintensiven Aufgaben wie AIME25 und MMLU-Pro.
- Die Vorteile bestehen auch nach starkem Post-Training (SFT + RLVR) fort und potenzieren sich sogar (das RLP-Modell übertrifft das Basis-Modell nach Post-Training um 7–8%).
NEMOTRON-NANO-12B-V2 (Hybrid Mamba-Transformer):
- Der Gesamtdurchschnitt steigt von 42,81% auf 61,32%.
- Die Leistung im wissenschaftlichen Reasoning verbessert sich um 23%.
- Dies demonstriert, dass RLP auch auf hybriden Architekturen und bei sehr großen Modellen effektiv skaliert.
Vergleich mit RPT (Reinforcement Pre-training via Prefix-Matching):
- Unter token- und FLOP-matched Bedingungen übertrifft RLP den RPT-Ansatz deutlich (z. B. +4,5% im Math-Average). RLP liefert dichtere Signale und benötigt keine Vorfilterung von Tokens durch ein Hilfsmodell.
Daten-Effizienz: RLP erzielt bessere Ergebnisse als CPT, selbst wenn das CPT-Modell mit dem 35-fachen Datenvolumen trainiert wurde (FLOP-matched). Dies zeigt, dass der Gewinn aus der Methodik und nicht aus mehr Rechenleistung stammt.

5. Bedeutung und Fazit

Das Paper stellt einen Paradigmenwechsel dar, indem es Reinforcement Learning nicht als nachgelagerten Schritt, sondern als integralen Bestandteil des Pre-Trainings etabliert.

Frühes Reasoning: RLP lehrt Modellen bereits während des Pre-Trainings, unabhängig zu denken, bevor sie den nächsten Token vorhersagen. Dies führt zu robusteren Reasoning-Fähigkeiten, die nicht durch nachfolgende Alignment-Verfahren verwässert werden.
Skalierbarkeit: Da der Reward verifiziererfrei ist, kann RLP auf der gesamten Bandbreite von Web-Texten angewendet werden, nicht nur auf kuratierten Datensätzen.
Architektur-Unabhängigkeit: Die Methode funktioniert effektiv sowohl bei reinen Transformer-Architekturen als auch bei modernen Hybrid-Modellen (Mamba/SSM).

Zusammenfassend zeigt RLP, dass die Integration von explorativem Denken in das Pre-Training zu Modellen führt, die nicht nur bessere Vorhersagen treffen, sondern auch tiefere, generalisierbare Reasoning-Fähigkeiten entwickeln, die über das reine Mustererkennen hinausgehen.

RLP: Reinforcement as a Pretraining Objective

1. Der „Zwischenschritt" (Das innere Murmeln)

2. Der Belohnungsschalter (Der Lehrer im Kopf)

3. Der große Vorteil: Lernen durch Entdeckung

Warum ist das so wichtig?

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: RLP (Reinforcement Learning Pretraining)

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

LLM-Augmented Knowledge Base Construction For Root Cause Analysis

The Stepwise Informativeness Assumption: Why are Entropy Dynamics and Reasoning Correlated in LLMs?

Depression Detection at the Point of Care: Automated Analysis of Linguistic Signals from Routine Primary Care Encounters

Hallucination as output-boundary misclassification: a composite abstention architecture for language models

Consistency-Guided Decoding with Proof-Driven Disambiguation for Three-Way Logical Question Answering