Thickening-to-Thinning: Reward Shaping via Human-Inspired Learning Dynamics for LLM Reasoning

Each language version is independently generated for its own context, not a direct translation.

Titel: Vom „Dickmachen" zum „Dünnmachen": Wie KI lernt, wie ein Mensch

Stell dir vor, du möchtest einem sehr klugen, aber noch etwas ungeduldigen Schüler (einem KI-Modell) beibringen, schwierige Mathe-Aufgaben zu lösen.

Bisher haben die Lehrer (die Algorithmen) nur gesagt: „Wenn die Antwort richtig ist, gibt es einen Sternchen. Wenn sie falsch ist, gibt es keine." Das Problem dabei war: Der Schüler lernte nicht, wie er zur Antwort kommt. Er wurde entweder zu langatmig (er redete sich in die Irre) oder zu schnell (er gab auf, bevor er richtig nachgedacht hatte).

Die Forscher aus diesem Papier haben eine neue Methode namens T2T (Thickening-to-Thinning) entwickelt. Der Name kommt von einem alten chinesischen Sprichwort des Mathematikers Hua Luogeng: „Man liest ein Buch erst dick, dann dünn."

Hier ist die Idee, ganz einfach erklärt:

1. Die zwei Phasen des Lernens

Stell dir das Lernen wie das Reisen durch einen dichten Wald vor.

Phase 1: Das „Dickmachen" (Thickening) – Wenn es schwierig ist
Wenn der Schüler auf eine Aufgabe stößt, die er nicht versteht (eine schwierige Aufgabe), sollte er nicht sofort aufhören. Stattdessen sollte er ausprobieren.
- Die Metapher: Stell dir vor, du suchst einen Weg durch einen dichten Wald. Du musst viele Wege gehen, Bäume umrunden und vielleicht sogar ein paar Sackgassen entdecken, bevor du den richtigen Pfad findest.
- Was die KI tut: Wenn die KI eine Aufgabe falsch löst, belohnt sie die T2T-Methode dafür, dass sie lange und ausführlich nachdenkt. Sie sagt quasi: „Gut gemacht, dass du so lange gesucht und viele Ideen ausprobiert hast! Wir brauchen diese Breite, um die Lösung zu finden." Das verhindert, dass die KI zu schnell aufgibt.
Phase 2: Das „Dünnmachen" (Thinning) – Wenn es geklappt hat
Sobald der Schüler die Lösung gefunden hat und verstanden hat, wie es geht, ändert sich die Strategie.
- Die Metapher: Du hast den Weg durch den Wald gefunden. Jetzt willst du nicht mehr jeden einzelnen Ast und jedes Blatt beschreiben, wenn du einem Freund den Weg erklärst. Du fasst es zusammen: „Geh geradeaus, dann links, dann rechts." Du machst die Erklärung kompakt und effizient.
- Was die KI tut: Wenn die KI die Aufgabe richtig gelöst hat, bestraft die T2T-Methode unnötig lange Antworten. Sie sagt: „Super, die Antwort ist richtig! Aber du hast zu viel geredet. Mach es kürzer und präziser." So lernt die KI, ihre Gedanken zu ordnen und nicht zu schwafeln.

2. Warum ist das so genial?

Früher haben die KI-Modelle oft das gleiche Verhalten für alle Aufgaben gezeigt: Entweder sie waren immer sehr kurz (und machten Fehler bei Schwerem) oder immer sehr lang (und verschwenderisch bei Leichtem).

T2T ist wie ein intelligenter Coach, der genau weiß, wann der Schüler welche Strategie braucht:

Bei schwierigen Problemen: „Suche weiter! Denk länger nach! Wir brauchen mehr Informationen!" (Dickmachen).
Bei bekannten Problemen: „Sei effizient! Komm direkt auf den Punkt!" (Dünnmachen).

3. Das Ergebnis

In Tests mit verschiedenen KI-Modellen (wie Qwen und DeepSeek) hat sich gezeigt, dass diese Methode viel besser funktioniert als die alten Methoden.

Die KI wird klüger, weil sie bei schwierigen Aufgaben wirklich tief gräbt.
Die KI wird schneller und effizienter, weil sie bei einfachen Aufgaben nicht unnötig viel Platz verbraucht.
Sie lernt sicherer, weil sie nicht in einem „Entweder-oder"-Modus gefangen ist, sondern dynamisch zwischen Entdecken und Zusammenfassen wechselt.

Zusammenfassend:
Die Forscher haben der KI beigebracht, menschliches Lernen nachzuahmen: Erst mal alles ausprobieren und die Welt erkunden (das Buch „dick" machen), und wenn man es verstanden hat, das Wesentliche extrahieren und effizient anwenden (das Buch „dünn" machen). Das macht die KI nicht nur schlauer, sondern auch besser im Umgang mit ihrer eigenen Rechenzeit.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Paper adressiert die Herausforderungen beim Einsatz von Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) zur Verbesserung des logischen Denkens (Reasoning) in Large Language Models (LLMs), insbesondere in Domänen wie Mathematik und Code.

Obwohl RLVR vielversprechend ist, leiden bestehende Methoden unter mehreren Problemen:

Entropie-Kollaps und übermäßige Verbosität: Modelle neigen dazu, entweder zu früh zu konvergieren (Entropie-Kollaps) oder unnötig lange und redundante Antwortpfade zu generieren.
Fehlende Unterscheidung zwischen Exploration und Konsolidierung: Herkömmliche Belohnungsschemata behandeln korrekte Antworten unabhängig von ihrer Länge gleich (z. B. eine binäre Belohnung von 1 für jede korrekte Antwort). Sie unterscheiden nicht zwischen:
- Der Notwendigkeit einer extensiven Suche (lange Trajektorien) bei schwierigen, unbekannten Problemen.
- Der Notwendigkeit von Effizienz (kurze, präzise Antworten) bei bereits beherrschtem Wissen.
Ineffiziente Ressourcennutzung: Die statische Behandlung von Antwortlängen führt dazu, dass Modelle entweder zu wenig explorieren (um schwierige Lösungen zu finden) oder zu viel Rechenzeit für redundante Schritte verschwenden, nachdem die Lösung bereits gefunden wurde.

2. Methodik: Thickening-to-Thinning (T2T)

Die Autoren schlagen T2T vor, ein dynamisches Reward-Shaping-Framework, das von menschlichen Lernprozessen inspiriert ist (angelehnt an das Prinzip von Hua Luogeng: „Das Buch erst dick lesen, dann dünn"). Das Ziel ist es, die Lernphase in zwei dynamische Phasen zu unterteilen, die durch die aktuelle Kompetenz des Modells gesteuert werden.

Kernmechanismus

T2T moduliert die Belohnung basierend auf zwei Faktoren: der Korrektheit der Antwort und der geschätzten Erfolgswahrscheinlichkeit ( $p$ ) des Modells für die jeweilige Frage.

Phase 1: „Thickening" (Verdickung) – Exploration bei Unsicherheit
- Szenario: Wenn das Modell eine Frage falsch beantwortet ( $V(q, o) = 0$ ) und die Erfolgswahrscheinlichkeit $p$ niedrig ist.
- Mechanismus: Das Reward-Schema belohnt längere Antwortpfade.
- Ziel: Dies ermutigt das Modell, den Suchraum zu erweitern, alternative Lösungswege zu erkunden und tiefere Denkprozesse („Chain of Thought") zu generieren, um die richtige Lösung zu finden. Es simuliert das „dick Lesen" (intensive Exploration).
Phase 2: „Thinning" (Verdünnung) – Konsolidierung bei Sicherheit
- Szenario: Wenn das Modell eine Frage korrekt beantwortet ( $V(q, o) = 1$ ) und die Erfolgswahrscheinlichkeit $p$ hoch ist.
- Mechanismus: Das Reward-Schema bestraft übermäßige Länge (Längen-Penalty).
- Ziel: Dies fördert die Kompression des Wissens, entfernt redundante Informationen und führt zu präzisen, effizienten Lösungen. Es simuliert das „dünn Lesen" (Abstraktion und Konsolidierung).

Mathematische Formulierung

Die Belohnungsfunktion $R_{T2T}$ ist kompetenzabhängig:
$R_{T2T}(q, o, \theta) = \begin{cases} 1 - \alpha \cdot s_L(o) \cdot p & \text{wenn } V(q, o) = 1 \text{ (Korrekt)} \\ \alpha \cdot s_L(o) \cdot (1 - p) & \text{wenn } V(q, o) = 0 \text{ (Falsch)} \end{cases}$

$s_L(o)$ : Normalisierte Länge der Antwort.
$p$ : Geschätzte Pass-Rate (Erfolgswahrscheinlichkeit) für die Frage $q$ , berechnet on-policy aus einer Gruppe von Stichproben.
$\alpha$ : Ein Skalierungsfaktor ($0 < \alpha < 0.5$), der sicherstellt, dass korrekte Antworten immer eine höhere Belohnung erhalten als falsche, unabhängig von der Länge.

Wichtig: T2T erfordert keine zusätzlichen Modelle, keine Token-Level-Überwachung und keinen zusätzlichen Inferenzaufwand. Es ist eine reine Anpassung der Reward-Funktion innerhalb bestehender RLVR-Pipelines (wie GRPO).

3. Schlüsselbeiträge

Dynamische Lernarchitektur: Einführung eines zweiphasigen Lernmechanismus, der Exploration und Konsolidierung strukturell trennt, anstatt sie gleichzeitig zu optimieren.
Kompetenzbewusste Belohnung: Die erste Einführung einer Belohnungsfunktion, die die Länge der Antwort dynamisch basierend auf der aktuellen Schwierigkeit der Aufgabe und der Leistung des Modells anpasst.
Verbesserte Entropie-Dynamik: T2T verhindert den Entropie-Kollaps, indem es das Modell in frühen Phasen (bei schwierigen Aufgaben) zu einer höheren Entropie (breiterer Suche) zwingt, während es später zur Effizienz übergeht.
Leichtgewichtigkeit: Die Methode ist einfach in bestehende Frameworks (wie GRPO) integrierbar und fügt keine algorithmische Komplexität hinzu.

4. Ergebnisse

Die Methode wurde auf mathematischen Benchmarks (MATH-500, AIME'24/25, AMC'23) mit Modellen der Qwen- und DeepSeek-Serie (von 1.5B bis 14B Parameter) evaluiert.

Überlegene Leistung: T2T übertrifft den Standard-GRPO-Baseline sowie fortschrittliche Baselines (LASER, W-REINFORCE, EntroPIC) konsistent.
- Auf dem Qwen3-14B Modell erzielte T2T die besten Ergebnisse in allen Metriken (Pass@1 und Pass@64), z. B. 85.1 Pass@1 auf MATH-500 (vs. 83.3 bei GRPO).
- Auf kleineren Modellen (3B, 4B) zeigte T2T signifikante Verbesserungen, insbesondere bei schwierigen Aufgaben (AIME, AMC).
Lernverhalten:
- Entropie: Im Gegensatz zu GRPO, das oft zu einer statischen oder sinkenden Entropie neigt, zeigt T2T eine initiale Entropie-Erhöhung (Exploration), gefolgt von einer Stabilisierung (Konsolidierung).
- Längendynamik: Die Analyse zeigt, dass T2T bei falschen Antworten die Länge erhöht (Thickening) und bei korrekten Antworten die Länge verringert (Thinning). Dies bestätigt die bi-modale Strategie.
Skalierbarkeit: Die Methode funktioniert effektiv über verschiedene Modellgrößen hinweg, wobei sie bei sehr kleinen Modellen (1.5B) aufgrund begrenzter Kapazität für komplexe Suchpfade marginale Verbesserungen zeigt.

5. Bedeutung und Fazit

Das Paper demonstriert, dass die Nachahmung menschlicher Lernstrategien – erst intensive Exploration, dann effiziente Abstraktion – ein kraftvoller Hebel zur Verbesserung von LLM-Reasoning ist.

Paradigmenwechsel: Statt nur die Endkorrektheit zu belohnen, steuert T2T den Prozess des Denkens dynamisch. Es allokiert Rechenressourcen („Thinking Budget") intelligent: viel Aufwand für unbekannte Probleme, wenig Aufwand für beherrschte Aufgaben.
Praktische Relevanz: Da T2T keine zusätzlichen Modelle benötigt und leicht implementierbar ist, bietet es einen sofort einsetzbaren Weg, um die Effizienz und Leistungsfähigkeit von RLVR-Systemen in verifizierbaren Domänen zu steigern.
Zukunftsperspektive: Die Arbeit legt nahe, dass die Trennung von Explorations- und Konsolidierungsphasen ein grundlegendes Prinzip für das Training von Reasoning-Modellen ist, das über statische Reward-Formulierungen hinausgeht.

Zusammenfassend stellt T2T einen eleganten, prinzipiellen Ansatz dar, der die Lücke zwischen der Notwendigkeit der Exploration und der Effizienz in RL-basiertem Reasoning schließt.

Thickening-to-Thinning: Reward Shaping via Human-Inspired Learning Dynamics for LLM Reasoning

1. Die zwei Phasen des Lernens

2. Warum ist das so genial?

3. Das Ergebnis

1. Problemstellung

2. Methodik: Thickening-to-Thinning (T2T)

Kernmechanismus

Mathematische Formulierung

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers