Training Large Language Models To Reason In Parallel With Global Forking Tokens

Die vorgestellte Arbeit führt Set Supervised Fine-Tuning (SSFT) und Global Forking Policy Optimization (GFPO) ein, um durch die Erhaltung einzigartiger Denkpfade und die Identifizierung globaler Verzweigungstokens die parallele Testzeit-Berechnung von Large Language Models für komplexe mathematische und Programmieraufgaben signifikant zu verbessern.

Sheng Jia, Xiao Wang, Shiva Prasad Kasiviswanathan

Veröffentlicht 2026-03-03
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen sehr klugen, aber manchmal etwas verwirrten Assistenten (ein großes Sprachmodell), der komplexe Matheaufgaben oder Programmieraufgaben lösen soll. Wenn Sie ihm eine schwierige Frage stellen, neigt er dazu, lange zu überlegen. Aber hier ist das Problem: Oft denkt er zu lange in einer einzigen Richtung und gerät in eine Sackgasse, oder er denkt gar nicht richtig nach, weil er sich zu sehr auf die erste Idee stürzt.

Dieses Papier stellt eine neue Methode vor, wie man diesen Assistenten trainiert, damit er nicht nur mehr denkt, sondern besser und vielfältiger denkt.

Hier ist die einfache Erklärung, unterteilt in die wichtigsten Konzepte:

1. Das Problem: Der "Ein-Denken"-Effekt

Normalerweise trainiert man KI-Modelle, indem man ihnen eine Aufgabe und die eine "perfekte" Lösung zeigt. Das ist wie ein Schüler, der nur eine einzige Art lernt, eine Matheaufgabe zu lösen. Wenn die Aufgabe dann etwas anders aussieht, weiß er nicht weiter.

Wenn man versucht, dem Modell zu sagen: "Denk mal in 10 verschiedenen Richtungen!", passiert oft das Gegenteil: Das Modell wird verwirrt und denkt am Ende trotzdem nur in einer Richtung weiter, nur dass es sich dabei verheddert. Es verliert die Vielfalt.

2. Die Lösung: Der "Forking-Token" (Der Gabelungs-Knopf)

Die Autoren haben eine clevere Idee: Statt dem Modell zu erlauben, zufällig zu raten, welche Richtung es einschlagen soll, geben wir ihm spezielle Schalter (die sogenannten "Global Forking Tokens").

Stellen Sie sich diese Schalter wie Farbige Knöpfe an einer Maschine vor:

  • Knopf "Rot" (<think 1>): "Okay, jetzt löse die Aufgabe mit der Methode 'Algebra'."
  • Knopf "Blau" (<think 2>): "Okay, jetzt löse sie mit der Methode 'Geometrie'."
  • Knopf "Grün" (<think 3>): "Okay, jetzt versuche es mit 'Logik'."

Das Ziel ist es, dass das Modell lernt: "Wenn ich den roten Knopf drücke, muss ich wirklich den algebraischen Weg gehen, und wenn ich den blauen drücke, den geometrischen."

3. Der Trainings-Trick: SSFT (Das perfekte Matchmaking)

Das Schwierige ist: Wie lernt das Modell, welcher Knopf zu welchem Lösungsweg passt?

Stellen Sie sich vor, Sie haben 4 verschiedene Lösungen für eine Aufgabe (von 4 verschiedenen Experten) und 6 verschiedene Knöpfe.

  • Der alte Weg (Standard-Training): Man wirft alles in einen Topf. Das Modell versucht, alles zu lernen, aber am Ende vermischt es alles. Alle Knöpfe führen zum gleichen, langweiligen Ergebnis.

  • Der neue Weg (SSFT - Set Supervised Fine-Tuning):
    Das Modell macht hier einen kleinen "Matchmaking"-Trick. Es schaut sich alle Lösungen und alle Knöpfe an und fragt sich: "Welcher Knopf passt am besten zu welcher Lösung?"

    Es nutzt einen mathematischen Algorithmus (den "Hungarian Algorithmus"), um die perfekte Zuordnung zu finden.

    • Beispiel: Der Algorithmus merkt: "Ah, Lösung A ist sehr kreativ, also passt sie am besten zu Knopf 3. Lösung B ist sehr streng, also passt sie zu Knopf 1."

    Das Modell wird dann so trainiert, dass es diese perfekte Zuordnung lernt. Es lernt nicht nur die Lösung, sondern auch, welcher Schalter die Lösung auslöst.

4. Das Ergebnis: Ein Meister der Vielfalt

Nach diesem Training passiert etwas Magisches:

  • Wenn Sie den roten Knopf drücken, denkt das Modell tiefgründig und kreativ.
  • Wenn Sie den blauen Knopf drücken, denkt es streng und logisch.
  • Es verliert diese Fähigkeiten nicht mehr.

Das ist wie ein Orchester, bei dem jeder Musiker (jeder Knopf) sein eigenes Instrument perfekt beherrscht, anstatt dass alle Musiker versuchen, auf demselben Instrument zu spielen und dabei nur Lärm machen.

5. Warum ist das besser als "einfach mehr Temperatur"?

Normalerweise versucht man, KI-Modelle vielfältiger zu machen, indem man sie "wilder" macht (man nennt das "Temperature Scaling"). Das ist wie ein DJ, der den Bass so laut dreht, dass alles chaotisch wird. Das führt oft zu mehr Fehlern.

Die neue Methode (SSFT) ist wie ein Dirigent, der jedem Musiker genau sagt, wann er was spielen soll. Das Ergebnis ist nicht nur vielfältig, sondern auch korrekter.

Zusammenfassung in einem Satz

Die Autoren haben eine Methode entwickelt, bei der man einer KI beibringt, verschiedene "Denk-Modi" durch spezielle Schalter zu steuern, indem sie sie trainieren, die perfekte Verbindung zwischen einem Schalter und einer Lösungsweg-Strategie zu finden. Das Ergebnis ist ein KI-Modell, das bei schwierigen Aufgaben nicht nur mehr, sondern auch klüger und vielfältiger denkt.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →