Training Large Language Models To Reason In Parallel With Global Forking Tokens

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen sehr klugen, aber manchmal etwas verwirrten Assistenten (ein großes Sprachmodell), der komplexe Matheaufgaben oder Programmieraufgaben lösen soll. Wenn Sie ihm eine schwierige Frage stellen, neigt er dazu, lange zu überlegen. Aber hier ist das Problem: Oft denkt er zu lange in einer einzigen Richtung und gerät in eine Sackgasse, oder er denkt gar nicht richtig nach, weil er sich zu sehr auf die erste Idee stürzt.

Dieses Papier stellt eine neue Methode vor, wie man diesen Assistenten trainiert, damit er nicht nur mehr denkt, sondern besser und vielfältiger denkt.

Hier ist die einfache Erklärung, unterteilt in die wichtigsten Konzepte:

1. Das Problem: Der "Ein-Denken"-Effekt

Normalerweise trainiert man KI-Modelle, indem man ihnen eine Aufgabe und die eine "perfekte" Lösung zeigt. Das ist wie ein Schüler, der nur eine einzige Art lernt, eine Matheaufgabe zu lösen. Wenn die Aufgabe dann etwas anders aussieht, weiß er nicht weiter.

Wenn man versucht, dem Modell zu sagen: "Denk mal in 10 verschiedenen Richtungen!", passiert oft das Gegenteil: Das Modell wird verwirrt und denkt am Ende trotzdem nur in einer Richtung weiter, nur dass es sich dabei verheddert. Es verliert die Vielfalt.

2. Die Lösung: Der "Forking-Token" (Der Gabelungs-Knopf)

Die Autoren haben eine clevere Idee: Statt dem Modell zu erlauben, zufällig zu raten, welche Richtung es einschlagen soll, geben wir ihm spezielle Schalter (die sogenannten "Global Forking Tokens").

Stellen Sie sich diese Schalter wie Farbige Knöpfe an einer Maschine vor:

Knopf "Rot" (<think 1>): "Okay, jetzt löse die Aufgabe mit der Methode 'Algebra'."
Knopf "Blau" (<think 2>): "Okay, jetzt löse sie mit der Methode 'Geometrie'."
Knopf "Grün" (<think 3>): "Okay, jetzt versuche es mit 'Logik'."

Das Ziel ist es, dass das Modell lernt: "Wenn ich den roten Knopf drücke, muss ich wirklich den algebraischen Weg gehen, und wenn ich den blauen drücke, den geometrischen."

3. Der Trainings-Trick: SSFT (Das perfekte Matchmaking)

Das Schwierige ist: Wie lernt das Modell, welcher Knopf zu welchem Lösungsweg passt?

Stellen Sie sich vor, Sie haben 4 verschiedene Lösungen für eine Aufgabe (von 4 verschiedenen Experten) und 6 verschiedene Knöpfe.

Der alte Weg (Standard-Training): Man wirft alles in einen Topf. Das Modell versucht, alles zu lernen, aber am Ende vermischt es alles. Alle Knöpfe führen zum gleichen, langweiligen Ergebnis.
Der neue Weg (SSFT - Set Supervised Fine-Tuning):
Das Modell macht hier einen kleinen "Matchmaking"-Trick. Es schaut sich alle Lösungen und alle Knöpfe an und fragt sich: "Welcher Knopf passt am besten zu welcher Lösung?"

Es nutzt einen mathematischen Algorithmus (den "Hungarian Algorithmus"), um die perfekte Zuordnung zu finden.
- Beispiel: Der Algorithmus merkt: "Ah, Lösung A ist sehr kreativ, also passt sie am besten zu Knopf 3. Lösung B ist sehr streng, also passt sie zu Knopf 1."
Das Modell wird dann so trainiert, dass es diese perfekte Zuordnung lernt. Es lernt nicht nur die Lösung, sondern auch, welcher Schalter die Lösung auslöst.

4. Das Ergebnis: Ein Meister der Vielfalt

Nach diesem Training passiert etwas Magisches:

Wenn Sie den roten Knopf drücken, denkt das Modell tiefgründig und kreativ.
Wenn Sie den blauen Knopf drücken, denkt es streng und logisch.
Es verliert diese Fähigkeiten nicht mehr.

Das ist wie ein Orchester, bei dem jeder Musiker (jeder Knopf) sein eigenes Instrument perfekt beherrscht, anstatt dass alle Musiker versuchen, auf demselben Instrument zu spielen und dabei nur Lärm machen.

5. Warum ist das besser als "einfach mehr Temperatur"?

Normalerweise versucht man, KI-Modelle vielfältiger zu machen, indem man sie "wilder" macht (man nennt das "Temperature Scaling"). Das ist wie ein DJ, der den Bass so laut dreht, dass alles chaotisch wird. Das führt oft zu mehr Fehlern.

Die neue Methode (SSFT) ist wie ein Dirigent, der jedem Musiker genau sagt, wann er was spielen soll. Das Ergebnis ist nicht nur vielfältig, sondern auch korrekter.

Zusammenfassung in einem Satz

Die Autoren haben eine Methode entwickelt, bei der man einer KI beibringt, verschiedene "Denk-Modi" durch spezielle Schalter zu steuern, indem sie sie trainieren, die perfekte Verbindung zwischen einem Schalter und einer Lösungsweg-Strategie zu finden. Das Ergebnis ist ein KI-Modell, das bei schwierigen Aufgaben nicht nur mehr, sondern auch klüger und vielfältiger denkt.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Große Sprachmodelle (LLMs) haben gezeigt, dass ihre reasoning-Fähigkeiten durch Skalierung der Rechenleistung zur Laufzeit (Test-Time Compute) verbessert werden können. Zwei Hauptansätze existieren:

Sequenzielle Skalierung: Längere Denkketten (Chain-of-Thought) generieren. Dies führt jedoch oft zu „Overthinking", bei dem die Leistung nach einer bestimmten Sequenzlänge abnimmt.
Parallele Skalierung: Mehrere parallele Stichproben (Sampling) und Aggregation (z. B. Self-Consistency).

Das zentrale Problem besteht darin, dass für komplexe Aufgaben die „Forking Tokens" (Tokens, die den Denkprozess in verschiedene, korrekte Richtungen lenken) oft tief im Sampling-Baum liegen. Herkömmliche Strategien zur Förderung der Vielfalt, wie das Erhöhen der Temperatur (Temperature Scaling), führen zu einem verschlechterten Kompromiss zwischen Vielfalt und Genauigkeit. Zudem neigt das einfache Fine-Tuning auf mehreren Denkpfaden dazu, diese Pfade zu kollabieren (Mode Collapse), sodass das Modell nur noch einen einzigen Denkmodus lernt, anstatt eine diverse Palette von Lösungsstrategien zu beherrschen.

2. Methodik

Die Autoren schlagen einen neuen Ansatz vor, der paralleles Reasoning als Problem der Vorhersage eines Satzes von nächsten Tokens (Set of Next-Token Prediction) formuliert.

A. Globale Forking Tokens (Global Forking Tokens)

Statt zu hoffen, dass das Modell zufällig den richtigen Startpunkt für einen Denkpfad findet, führen die Autoren reservierte spezielle Tokens ein, sogenannte globale Forking Tokens (z. B. <think 1>, <think 2>, ..., <think N>). Diese Tokens dienen als explizite Steuerelemente, um unterschiedliche, aber korrekte Reasoning-Traces parallel zu initiieren.

B. Set Supervised Fine-Tuning (SSFT)

Das Kernstück der Methode ist SSFT. Anstatt jedes Beispiel unabhängig zu trainieren, wird ein satzbasierter globaler Verlust (Set-based Global Loss) eingeführt.

Bipartites Matching: Für eine gegebene Eingabe $x$ und eine Menge von $M$ Ground-Truth-Reasoning-Traces $\{r^{(j)}\}$ sowie $N$ globalen Forking Tokens $\{g^{(i)}\}$ (wobei $N \ge M$ ) wird ein bipartites Matching-Problem gelöst.
Ziel: Es wird die Zuordnung (Matching) $\sigma$ gefunden, die die Summe der Next-Token-Prediction (NTP) Verluste minimiert. Das bedeutet, das Modell lernt, welches <think i>-Token am besten zu welchem Reasoning-Pfad $r^{(j)}$ passt.
Verlustfunktion: Der Verlust wird unter Verwendung des Hungarian Algorithmus berechnet, um das optimale Matching zu finden. Der Gradient wird nur auf die gewählten Paare zurückgeführt. Dies erzwingt, dass das Modell lernt, spezifische Forking-Tokens mit spezifischen Denkmodi zu verknüpfen, anstatt alle Tokens auf einen einzigen Pfad zu mitteln.

C. Global Forking Policy Optimization (GFPO)

Nach dem SSFT wird eine leichte Reinforcement-Learning-Phase (GFPO) durchgeführt. Dabei werden nur die Policy-Gradienten der globalen Forking-Tokens optimiert, um die Wahrscheinlichkeitsverteilung darüber zu verfeinern, welches Token für eine bestimmte Frage am besten geeignet ist. Dies ermöglicht es dem Modell, den optimalen Denkpfad aktiv auszuwählen, ohne die gesamte Generierung neu zu berechnen.

3. Schlüsselbeiträge

Einführung globaler Forking-Tokens: Ein Mechanismus, der es ermöglicht, Reasoning-Modi direkt über Eingabe-Tokens zu steuern, anstatt auf zufälliges Sampling angewiesen zu sein.
SSFT-Framework: Ein Fine-Tuning-Verfahren, das durch bipartites Matching verhindert, dass diverse Reasoning-Traces kollabieren. Im Gegensatz zum Standard-SFT behält SSFT distincte Denkmodi bei.
GFPO: Eine effiziente RL-Methode, die die Auswahl der Forking-Tokens optimiert und so komplexe Reasoning-Pfade ohne Mode Collapse fördert.
Nachweis der Emergenz: Die Autoren zeigen, dass SSFT-Tokens tatsächlich unterschiedliche Reasoning-Strategien (unterschiedliche Länge, unterschiedliche Herangehensweisen) auslösen, während Standard-SFT dies nicht tut.

4. Ergebnisse

Die Methode wurde auf mehreren Benchmarks evaluiert (AIME 2024/25, MATH-500, GPQA-Diamond, LiveCodeBench) mit dem Modell Qwen2.5-32B.

Leistung (Pass@1 und Cons@k): SSFT übertrifft sowohl Single-Target- als auch Multi-Target-Standard-SFT-Baselines signifikant.
- Auf AIME 2024 erreichte SSFT-32B 64,06% (Pass@1), verglichen mit 58,23% bei einem starken Multi-Target-SFT-Baseline.
- Bei Cons@6 (Majority Voting mit 6 parallelen Generationen) erreichte SSFT 75,45% auf AIME 2024 und 73,94% auf AIME 2025.
Vielfalt und Abdeckung: SSFT zeigt eine deutlich höhere Abdeckung (Coverage) über verschiedene $k$ -Werte hinweg als Modelle, die nur mit Temperatur-Skalierung trainiert wurden. Standard-SFT benötigt höhere Temperaturen und mehr Versuche, um eine ähnliche Abdeckung zu erreichen, was jedoch die Pass@1-Leistung verschlechtert.
Robustheit: Die Verbesserungen bleiben auch bei Out-of-Distribution-Aufgaben (z. B. Code-Generierung auf LiveCodeBench, obwohl nur auf Mathematik trainiert) und bei kleineren Modellen (Qwen3-4B, Llama3.1-8B) bestehen.
Visualisierung: Analysen zeigen, dass bei SSFT mit optimalem Matching verschiedene <think i>-Tokens zu unterschiedlichen Längen der Denkprozesse und unterschiedlichen Genauigkeiten führen, was auf echte Diversität der Reasoning-Modi hindeutet. Bei zufälligem Matching (Random $\sigma$ ) verschwindet dieser Effekt.

5. Bedeutung und Fazit

Dieses Papier adressiert ein fundamentales Problem beim Training von Reasoning-Modellen: Die Schwierigkeit, diverse und korrekte Denkpfade gleichzeitig zu lernen, ohne dass sie zu einem einzigen, suboptimalen Pfad kollabieren.

Paradigmenwechsel: Statt nur auf zufälliges Sampling zu setzen, wird Reasoning als ein Steuerungsproblem behandelt, bei dem spezifische Tokens als Schalter für verschiedene Denkstrategien dienen.
Effizienz: Die Methode ermöglicht es, die Vorteile paralleler Skalierung (mehr Rechenleistung zur Laufzeit) effizienter zu nutzen, da das Modell gezielt verschiedene Pfade generieren kann, anstatt blind zu raten.
Zukunft: Die Arbeit legt den Grundstein für „Agentic AI", bei der Modelle in der Lage sein müssen, flexibel zwischen verschiedenen Denkmodi zu wechseln, um komplexe Probleme zu lösen. Die Kombination aus SSFT und GFPO stellt einen neuen State-of-the-Art für das Fine-Tuning von Reasoning-Modellen dar.

Zusammenfassend demonstriert das Paper, dass durch die Einführung eines satzbasierten Verlusts und globaler Steuertokens LLMs lernen können, eine breite Palette von Reasoning-Strategien zu beherrschen, was zu robusteren und leistungsfähigeren Modellen führt.