ReasonXL: Shifting LLM Reasoning Language Without Sacrificing Performance

Die Arbeit stellt ReasonXL vor, ein groß angelegtes paralleles Korpus mit über zwei Millionen abgestimmten Denkspuren in fünf europäischen Sprachen, das es ermöglicht, große Sprachmodelle durch eine Kombination aus überwachtem Feinabstimmen und verstärkendem Lernen mit verifizierbaren Belohnungen so anzupassen, dass sie vollständig in der Zielsprache reasoning, ohne dabei ihre Leistungsfähigkeit oder das allgemeine Wissen zu beeinträchtigen.

Daniil Gurgurov, Tom Röhr, Sebastian von Rohrscheidt, Josef van Genabith, Alexander Löser, Simon Ostermann

Veröffentlicht 2026-04-15
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der „Englische-Verstand"

Stell dir vor, du hast einen extrem intelligenten Roboter (ein KI-Modell), der alles auf der Welt weiß. Wenn du ihn auf Deutsch fragst: „Wie berechne ich die Fläche eines Kreises?", antwortet er dir zwar auf Deutsch, aber sein Gedankenprozess läuft im Inneren immer noch auf Englisch ab.

Es ist, als würde ein deutscher Koch, der ein italienisches Gericht zubereitet, im Kopf ständig englische Rezepte murmeln, während er auf Deutsch mit dem Gast spricht. Das funktioniert oft gut, aber es führt zu Problemen:

  1. Missverständnisse: Nuancen gehen verloren („Lost in Translation").
  2. Vertrauen: Wenn du den Gedankengang des Kochs nicht direkt auf Deutsch verfolgen kannst, traust du dem Ergebnis weniger.
  3. Fehler: Manchmal übersetzt der Roboter das Problem im Kopf falsch, bevor er die Lösung findet.

Bisher gab es keine gute Möglichkeit, diesen Roboter dazu zu bringen, wirklich auf Deutsch (oder Französisch, Italienisch, Spanisch) zu denken, ohne dass er dabei dümmer wird.


Die Lösung: ReasonXL – Ein riesiges Trainingslager

Die Forscher haben jetzt etwas Neues geschaffen, das sie ReasonXL nennen.

1. Die Bibliothek (Das Datenset)
Stell dir vor, sie haben eine riesige Bibliothek gebaut, die nicht nur Bücher, sondern auch die Gedankenwege darin enthält.

  • Sie haben über 2 Millionen Beispiele pro Sprache (Deutsch, Englisch, Französisch, Italienisch, Spanisch) gesammelt.
  • Jedes Beispiel besteht aus: einer Frage, dem Denkprozess (wie man zur Lösung kommt) und der Lösung.
  • Wichtig: Der Denkprozess ist in der jeweiligen Zielsprache verfasst. Es ist, als hätten sie für jede Sprache einen eigenen „Denk-Trainer" entwickelt.

2. Der Trainingsplan (Die zwei Stufen)
Wie bringen sie den Roboter dazu, in einer neuen Sprache zu denken? Mit einem zweistufigen Training, ähnlich wie beim Sport:

  • Stufe 1: Der Sprachkurs (SFT - Supervised Fine-Tuning)
    Der Roboter liest die Millionen Beispiele aus der Bibliothek. Er lernt: „Aha, wenn ich auf Deutsch nachdenke, muss ich diese Wörter und diesen Satzbau verwenden."

    • Das Ergebnis: Der Roboter denkt jetzt auf Deutsch. Aber er ist etwas unsicher und macht mehr Fehler bei den Aufgaben, weil er sich an die neue Denkweise gewöhnen muss.
  • Stufe 2: Der Wettkampf (RL - Reinforcement Learning)
    Jetzt kommt der Trainer (die KI) ins Spiel. Der Roboter löst Aufgaben auf Deutsch. Wenn er die richtige Antwort findet, gibt es einen Punkt. Wenn er falsch denkt oder die Sprache vermischt, gibt es einen Minuspunkt.

    • Das Ergebnis: Der Roboter verfeinert seine Fähigkeiten. Er lernt, nicht nur auf Deutsch zu denken, sondern gut auf Deutsch zu denken. Er holt die Leistungsniveau wieder auf das Niveau des Englischen auf.

Was haben sie herausgefunden? (Die Geheimnisse im Inneren)

Das Coolste an dieser Studie ist nicht nur, dass es funktioniert, sondern wie es im Gehirn des Roboters passiert. Die Forscher haben wie Chirurgen hineingeschaut:

  • Der „Sprach-Schalter" (Die frühen Schichten):
    Das KI-Modell besteht aus vielen Schichten (wie Stockwerke in einem Wolkenkratzer). Die Forscher haben entdeckt, dass die Entscheidung, in welcher Sprache gedacht wird, in den unteren Stockwerken (den ersten Schichten) getroffen wird.

    • Analogie: Stell dir vor, die unteren Schichten sind wie ein Türsteher. Er entscheidet: „Heute sprechen wir Deutsch!" Sobald diese Tür passiert ist, fließt der Rest des Denkens automatisch auf Deutsch.
  • Der „Qualitäts-Filter" (Die oberen Schichten):
    Die oberen Stockwerke kümmern sich darum, ob die Lösung richtig ist. Hier passieren die meisten Änderungen beim Training, um die Intelligenz zu verbessern.

  • Der effiziente Trick (RL vs. SFT):
    Das zweite Training (RL) ist wie ein Wundermittel. Es verändert die Gewichte im Gehirn des Roboters kaum (weniger als ein Prozent), führt aber zu einer riesigen Verbesserung im Verhalten. Es ist, als würde man einem Auto nur den Motor abstimmen lassen, anstatt das ganze Chassis zu tauschen, und es fährt plötzlich doppelt so schnell.

Warum ist das wichtig?

Früher dachte man: „Um gut zu denken, muss man Englisch denken." Diese Studie zeigt: Nein! Man kann eine KI so trainieren, dass sie in ihrer Muttersprache denkt und dabei genauso schlau bleibt wie auf Englisch.

Das ist ein großer Schritt für die Zukunft, damit KI-Assistenten nicht nur unsere Sprache sprechen, sondern auch in unserer Sprache verstehen und denken. Das macht sie vertrauenswürdiger und genauer für alle Menschen auf der Welt, nicht nur für Englischsprecher.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →