Learning to Reason without External Rewards

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie lernen eine neue Sprache, aber Sie haben keinen Lehrer, keinen Wörterbuch und niemanden, der Ihnen sagt, ob Ihre Sätze richtig oder falsch sind. Wie würden Sie dann lernen?

Genau dieses Problem lösen die Autoren dieses Papers mit einer Methode namens INTUITOR. Hier ist die Erklärung in einfachen Worten, mit ein paar kreativen Vergleichen:

1. Das Problem: Der teure Lehrer

Normalerweise trainieren wir große KI-Modelle (wie Chatbots) so, dass sie besser denken und rechnen können. Dafür brauchen wir meistens einen „Lehrer".

Die alte Methode (RLHF): Ein menschlicher Lehrer liest jede Antwort und sagt: „Gut gemacht!" oder „Falsch!". Das ist aber extrem teuer und langsam.
Die neue Methode (RLVR): Man gibt dem Computer eine Lösung vor (z. B. bei Matheaufgaben: „Die Antwort muss 42 sein"). Wenn die KI 42 schreibt, gibt es einen Punkt. Das funktioniert gut bei Mathe oder Code, wo man das Ergebnis leicht prüfen kann. Aber was ist, wenn es keine klare Lösung gibt? Oder wenn man keine Lösungen vorliegen hat? Dann bleibt die KI stecken.

2. Die Lösung: Der innere Kompass (INTUITOR)

Die Forscher fragen sich: Kann die KI lernen, nur auf ihr eigenes Bauchgefühl zu hören?

Sie nennen das RLIF (Reinforcement Learning from Internal Feedback). Statt auf einen externen Lehrer zu warten, schaut die KI auf sich selbst.

Der Schlüsselbegriff: „Selbstsicherheit" (Self-Certainty).
Stellen Sie sich vor, Sie lösen ein Rätsel. Wenn Sie unsicher sind, zögern Sie, Ihre Gedanken sind verworren. Wenn Sie sicher sind, fließt der Text, die Argumente sind klar.
Die KI misst genau das: Wie „sicher" fühlt sie sich bei ihrer eigenen Antwort?
- Die Regel: „Wenn du dir bei einer Antwort sicher bist, hast du einen Punkt bekommen. Wenn du unsicher bist, hast du keinen Punkt."

3. Wie funktioniert das Training? (Das Analogie-Spiel)

Stellen Sie sich vor, die KI ist ein junger Schriftsteller, der eine Geschichte schreiben soll.

Das alte Training: Der Verleger (der externe Lehrer) liest den Entwurf, korrigiert ihn mit roter Tinte und gibt eine Note.
Das INTUITOR-Training: Der Schriftsteller schreibt sieben verschiedene Versionen der Geschichte. Dann liest er sie sich selbst durch.
- Version A ist verworren und langweilig.
- Version B ist spannend und logisch aufgebaut.
- Der Schriftsteller spürt, dass Version B „besser" ist (weil er sich beim Schreiben von B sicherer fühlte).
- Er bekommt eine Belohnung für Version B und lernt: „Aha! So muss ich schreiben, damit ich mich sicher fühle."

Er braucht keinen Verleger. Er belohnt sich selbst für das Gefühl von Klarheit und Sicherheit.

4. Was ist das Überraschende? (Der Domino-Effekt)

Das Tolle an INTUITOR ist, dass es nicht nur das eine Fach verbessert, für das es trainiert wurde.

Das Experiment: Die KI wurde nur auf Matheaufgaben trainiert (wo es keine Lösungen gab, nur das eigene Bauchgefühl).
Das Ergebnis: Plötzlich wurde sie auch besser in Programmieren und beim Befolgen von Anweisungen.

Warum?
Stellen Sie sich vor, Sie trainieren Ihren Körper, um einen Berg zu besteigen (Mathe). Sie entwickeln dabei Ausdauer, Balance und eine klare Strategie. Wenn Sie dann plötzlich in einen Wald gehen (Programmieren), sind Sie trotzdem fitter als vorher, weil Sie gelernt haben, wie man lernt und wie man strukturiert denkt. Die KI hat gelernt, ihre eigenen Gedanken zu ordnen, und diese Fähigkeit hilft ihr überall.

5. Warum ist das wichtig?

Bisher brauchten wir für jede neue Aufgabe (Medizin, Recht, Kunst) riesige Datenmengen mit „richtigen" Antworten. Mit INTUITOR können KIs sich selbst verbessern, indem sie einfach nur versuchen, ihre eigenen Antworten „sicherer" und logischer zu machen.

Zusammenfassung in einem Satz:
INTUITOR gibt der KI einen inneren Kompass an die Hand, der ihr sagt: „Wenn du dir sicher bist, bist du wahrscheinlich auf dem richtigen Weg", und so lernt sie, ohne dass ein menschlicher Lehrer ihr ständig die Hand führt.

Das ist ein großer Schritt hin zu KI-Systemen, die sich selbstständig weiterentwickeln können, auch in Bereichen, wo wir Menschen vielleicht gar nicht mehr wissen, was die „richtige" Antwort ist.

Each language version is independently generated for its own context, not a direct translation.

Titel: Learning to Reason Without External Rewards (Lernen ohne externe Belohnungen)

Autoren: Xuandong Zhao, Zhewei Kang, Aosong Feng, Sergey Levine, Dawn Song (UC Berkeley, Yale University)
Veröffentlicht: ICLR 2026

1. Problemstellung

Das Training großer Sprachmodelle (LLMs) für komplexes logisches Schlussfolgern (Reasoning) erfolgt derzeit erfolgreich durch Reinforcement Learning with Verifiable Rewards (RLVR). Bei RLVR werden Modelle mit automatisch überprüfbaren Signalen trainiert (z. B. exakte Übereinstimmung der Antwort bei Mathematikaufgaben oder Testfälle bei Code-Generierung).

Trotz ihrer Effektivität weist RLVR jedoch fundamentale Einschränkungen auf:

Abhängigkeit von domänenspezifischer Supervision: Es werden Gold-Lösungen (Gold-Standard-Antworten) oder umfangreiche Test-Suiten benötigt, die oft teuer in der Erstellung sind und Expertenwissen erfordern.
Eingeschränkte Anwendbarkeit: RLVR funktioniert gut in geschlossenen Domänen wie Mathematik oder Code, scheitert aber oft bei offenen, mehrdeutigen Aufgaben, für die keine einfache Verifizierung existiert.
Skalierbarkeit: Die Notwendigkeit externer Verifizierer limitiert die Skalierbarkeit von autonomen KI-Systemen, insbesondere in Szenarien, in denen menschliche Bewertung unmöglich wird (z. B. bei übermenschlichen Fähigkeiten).

Die zentrale Forschungsfrage lautet daher: Können LLMs ihre Reasoning-Fähigkeiten verbessern, indem sie sich ausschließlich auf intrinsische, selbstgenerierte Signale verlassen, ohne externe Verifizierer oder domänenspezifische Ground Truth?

2. Methodik: RLIF und INTUITOR

Die Autoren schlagen ein neues Paradigma vor: Reinforcement Learning from Internal Feedback (RLIF). Dabei optimiert das Modell intrinsische Signale, um die Leistung zu steigern, ohne externe Belohnungen.

Der INTUITOR-Ansatz

Als konkrete Implementierung von RLIF stellen die Autoren INTUITOR vor. Die Kernidee ist die Nutzung des eigenen Selbstvertrauens (Self-Certainty) des Modells als einzige Belohnungsfunktion.

Selbstvertrauen (Self-Certainty): Als Metrik wird die durchschnittliche KL-Divergenz zwischen der Ausgabeverteilung des Modells und einer uniformen Verteilung über das Vokabular verwendet.
- Formel: $Self\text{-}certainty(o|q) = \frac{1}{|o|} \sum_{i=1}^{|o|} KL(U \parallel p_{\pi_\theta}(\cdot|q, o_{<i}))$
- Ein höherer Wert bedeutet, dass das Modell bei der Generierung eines Tokens eine hohe Wahrscheinlichkeit für einen spezifischen Token hat (geringe Entropie in Bezug auf die Uniformverteilung), was auf ein starkes, kohärentes Muster hindeutet.
- Im Gegensatz zur reinen Entropie-Minimierung ist Self-Certainty weniger anfällig für Verzerrungen zugunsten längerer Generierungen und dient als zuverlässigeres Maß für intrinsisches Vertrauen.
Optimierungsalgorithmus (GRPO):
- INTUITOR ersetzt die externen Belohnungen im Group Relative Policy Optimization (GRPO)-Algorithmus durch Self-Certainty-Scores.
- Ablauf: Für eine Eingabe $q$ werden $G$ verschiedene Ausgaben (Rollouts) generiert. Jede Ausgabe $o_i$ erhält einen Score $u_i$ basierend auf ihrer Self-Certainty.
- Der Vorteil (Advantage) $\hat{A}_{i,t}$ wird berechnet, indem der Score der aktuellen Ausgabe vom Durchschnitt der Scores der Gruppe subtrahiert und durch die Standardabweichung normalisiert wird.
- Das Modell wird so aktualisiert, dass es Ausgaben bevorzugt, bei denen es selbst ein höheres Vertrauen zeigt.
Vorteile:
- Kein Bedarf an Gold-Antworten oder Testfällen.
- Vollständig unüberwachtes Lernen möglich.
- Das Modell lernt, kohärentere und besser begründete Antwortpfade zu generieren, um sein eigenes Vertrauen zu maximieren.

3. Wichtige Beiträge

Einführung von RLIF: Ein neues Paradigma, das LLMs ermöglicht, Reasoning-Fähigkeiten durch intrinsische Signale zu verbessern, unabhängig von externer Supervision.
Entwicklung von INTUITOR: Eine effiziente Methode, die Self-Certainty als einzige Belohnung nutzt und GRPO als Optimierungsrahmen verwendet.
Nachweis der Generalisierung: INTUITOR erreicht auf In-Domain-Aufgaben (Mathematik) eine Leistung, die mit überwachtem RLVR (GRPO mit Gold-Antworten) vergleichbar ist, zeigt aber eine überlegene Generalisierung auf Out-of-Domain-Aufgaben (Code-Generierung, Instruktionsbefolgung).
Entstehung von strukturiertem Reasoning: Die Methode induziert das spontane Auftreten von langen, strukturierten Denkketten (Chain-of-Thought), selbst wenn diese nicht explizit im Prompt gefordert waren.

4. Ergebnisse und Analyse

Die Experimente wurden mit Qwen2.5-Modellen (1.5B, 3B) sowie Llama und OLMo auf dem MATH-Datensatz durchgeführt.

In-Domain-Leistung (Mathematik):
- INTUITOR erreicht auf Benchmarks wie GSM8K und MATH500 Leistungen, die mit GRPO (trainiert mit Gold-Antworten) vergleichbar sind, obwohl keine Gold-Antworten verwendet wurden.
- INTUITOR zeigt eine schnellere initiale Lernkurve als GRPO.
Out-of-Domain-Generalisierung (Code & Instruktionsbefolgung):
- Dies ist der stärkste Vorteil von INTUITOR. Ein Modell, das nur auf Mathematik mit INTUITOR trainiert wurde, zeigt signifikante Verbesserungen bei Code-Generierung (LiveCodeBench, CRUXEval-O).
- Beispiel: Qwen2.5-3B, trainiert auf MATH mit INTUITOR, erreichte eine 65%ige relative Verbesserung auf LiveCodeBench, während GRPO (Gold-Antworten) keine Verbesserung zeigte.
- Bei CRUXEval-O erreichte INTUITOR eine Steigerung von 76% gegenüber 44% bei GRPO.
- Selbst das kleinere Qwen2.5-1.5B-Modell, das ursprünglich repetitive Inhalte erzeugte und 0% auf LiveCodeBench erreichte, lernte durch INTUITOR kohärente Reasoning-Ketten und strukturierten Code (Ergebnis: 9.9% Genauigkeit).
Emergente Fähigkeiten:
- Lange Reasoning-Ketten: INTUITOR fördert die Generierung längerer, detaillierterer Erklärungen (siehe Abbildung 3 im Paper).
- Selbstkorrektur: Das Modell entwickelt die Fähigkeit, vor der eigentlichen Antwort oder dem Code eine natürliche Sprach-Reasoning-Phase durchzuführen, um sich selbst zu überzeugen.
- Instruktionsbefolgung: Die Modelle lernen, Chat-Prompts besser zu befolgen und „Unsinn" (Gibberish) zu vermeiden.
Robustheit gegen Reward Hacking:
- Ein kritischer Vergleich zwischen Online-Self-Certainty (das Belohnungsmodell ist das aktuelle, sich entwickelnde Policy-Modell) und Offline-Self-Certainty (ein statisches Basis-Modell) zeigt, dass nur die Online-Variante stabil bleibt.
- Offline-Belohnungen führen zu „Reward Hacking" (das Modell generiert lange, sinnlose Texte, um den Score zu maximieren), während die Online-Variante das Modell zwingt, echte Kohärenz zu verbessern.

5. Bedeutung und Ausblick

Die Arbeit demonstriert, dass vortrainierte LLMs reichhaltige latente Verhaltenspriors besitzen, die durch intrinsische Signale aktiviert werden können, ohne dass externe Gold-Standards nötig sind.

Skalierbarkeit: RLIF bietet einen skalierbaren Weg für autonome KI-Systeme, die in Umgebungen operieren, in denen externe Verifizierung unmöglich oder zu teuer ist.
Zukunftsperspektive: Dies ist ein wichtiger Schritt hin zu KI-Agenten, die Fähigkeiten in neuen Domänen autonom erwerben und sich durch Introspektion verbessern können, selbst wenn sie menschliche Aufsichtsgrenzen überschreiten.
Praktische Implikation: INTUITOR ist einfach zu implementieren (Austausch der Reward-Funktion in GRPO) und funktioniert über verschiedene Modellarchitekturen hinweg (Qwen, Llama, OLMo).

Zusammenfassend beweist INTUITOR, dass das Vertrauen eines Modells in seine eigenen Ausgaben ein mächtiger Treiber für das Lernen komplexer Reasoning-Fähigkeiten sein kann, was den Weg für eine neue Generation von selbstverbessernden KI-Systemen ebnet.

Learning to Reason without External Rewards

1. Das Problem: Der teure Lehrer

2. Die Lösung: Der innere Kompass (INTUITOR)

3. Wie funktioniert das Training? (Das Analogie-Spiel)

4. Was ist das Überraschende? (Der Domino-Effekt)

5. Warum ist das wichtig?

Titel: Learning to Reason Without External Rewards (Lernen ohne externe Belohnungen)

1. Problemstellung

2. Methodik: RLIF und INTUITOR

Der INTUITOR-Ansatz

3. Wichtige Beiträge

4. Ergebnisse und Analyse

5. Bedeutung und Ausblick

Mehr davon

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics