ReasonXL: Shifting LLM Reasoning Language Without Sacrificing Performance

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der „Englische-Verstand"

Stell dir vor, du hast einen extrem intelligenten Roboter (ein KI-Modell), der alles auf der Welt weiß. Wenn du ihn auf Deutsch fragst: „Wie berechne ich die Fläche eines Kreises?", antwortet er dir zwar auf Deutsch, aber sein Gedankenprozess läuft im Inneren immer noch auf Englisch ab.

Es ist, als würde ein deutscher Koch, der ein italienisches Gericht zubereitet, im Kopf ständig englische Rezepte murmeln, während er auf Deutsch mit dem Gast spricht. Das funktioniert oft gut, aber es führt zu Problemen:

Missverständnisse: Nuancen gehen verloren („Lost in Translation").
Vertrauen: Wenn du den Gedankengang des Kochs nicht direkt auf Deutsch verfolgen kannst, traust du dem Ergebnis weniger.
Fehler: Manchmal übersetzt der Roboter das Problem im Kopf falsch, bevor er die Lösung findet.

Bisher gab es keine gute Möglichkeit, diesen Roboter dazu zu bringen, wirklich auf Deutsch (oder Französisch, Italienisch, Spanisch) zu denken, ohne dass er dabei dümmer wird.

Die Lösung: ReasonXL – Ein riesiges Trainingslager

Die Forscher haben jetzt etwas Neues geschaffen, das sie ReasonXL nennen.

1. Die Bibliothek (Das Datenset)
Stell dir vor, sie haben eine riesige Bibliothek gebaut, die nicht nur Bücher, sondern auch die Gedankenwege darin enthält.

Sie haben über 2 Millionen Beispiele pro Sprache (Deutsch, Englisch, Französisch, Italienisch, Spanisch) gesammelt.
Jedes Beispiel besteht aus: einer Frage, dem Denkprozess (wie man zur Lösung kommt) und der Lösung.
Wichtig: Der Denkprozess ist in der jeweiligen Zielsprache verfasst. Es ist, als hätten sie für jede Sprache einen eigenen „Denk-Trainer" entwickelt.

2. Der Trainingsplan (Die zwei Stufen)
Wie bringen sie den Roboter dazu, in einer neuen Sprache zu denken? Mit einem zweistufigen Training, ähnlich wie beim Sport:

Stufe 1: Der Sprachkurs (SFT - Supervised Fine-Tuning)
Der Roboter liest die Millionen Beispiele aus der Bibliothek. Er lernt: „Aha, wenn ich auf Deutsch nachdenke, muss ich diese Wörter und diesen Satzbau verwenden."
- Das Ergebnis: Der Roboter denkt jetzt auf Deutsch. Aber er ist etwas unsicher und macht mehr Fehler bei den Aufgaben, weil er sich an die neue Denkweise gewöhnen muss.
Stufe 2: Der Wettkampf (RL - Reinforcement Learning)
Jetzt kommt der Trainer (die KI) ins Spiel. Der Roboter löst Aufgaben auf Deutsch. Wenn er die richtige Antwort findet, gibt es einen Punkt. Wenn er falsch denkt oder die Sprache vermischt, gibt es einen Minuspunkt.
- Das Ergebnis: Der Roboter verfeinert seine Fähigkeiten. Er lernt, nicht nur auf Deutsch zu denken, sondern gut auf Deutsch zu denken. Er holt die Leistungsniveau wieder auf das Niveau des Englischen auf.

Was haben sie herausgefunden? (Die Geheimnisse im Inneren)

Das Coolste an dieser Studie ist nicht nur, dass es funktioniert, sondern wie es im Gehirn des Roboters passiert. Die Forscher haben wie Chirurgen hineingeschaut:

Der „Sprach-Schalter" (Die frühen Schichten):
Das KI-Modell besteht aus vielen Schichten (wie Stockwerke in einem Wolkenkratzer). Die Forscher haben entdeckt, dass die Entscheidung, in welcher Sprache gedacht wird, in den unteren Stockwerken (den ersten Schichten) getroffen wird.
- Analogie: Stell dir vor, die unteren Schichten sind wie ein Türsteher. Er entscheidet: „Heute sprechen wir Deutsch!" Sobald diese Tür passiert ist, fließt der Rest des Denkens automatisch auf Deutsch.
Der „Qualitäts-Filter" (Die oberen Schichten):
Die oberen Stockwerke kümmern sich darum, ob die Lösung richtig ist. Hier passieren die meisten Änderungen beim Training, um die Intelligenz zu verbessern.
Der effiziente Trick (RL vs. SFT):
Das zweite Training (RL) ist wie ein Wundermittel. Es verändert die Gewichte im Gehirn des Roboters kaum (weniger als ein Prozent), führt aber zu einer riesigen Verbesserung im Verhalten. Es ist, als würde man einem Auto nur den Motor abstimmen lassen, anstatt das ganze Chassis zu tauschen, und es fährt plötzlich doppelt so schnell.

Warum ist das wichtig?

Früher dachte man: „Um gut zu denken, muss man Englisch denken." Diese Studie zeigt: Nein! Man kann eine KI so trainieren, dass sie in ihrer Muttersprache denkt und dabei genauso schlau bleibt wie auf Englisch.

Das ist ein großer Schritt für die Zukunft, damit KI-Assistenten nicht nur unsere Sprache sprechen, sondern auch in unserer Sprache verstehen und denken. Das macht sie vertrauenswürdiger und genauer für alle Menschen auf der Welt, nicht nur für Englischsprecher.

ReasonXL: Shifting LLM Reasoning Language Without Sacrificing Performance

Das Problem: Der „Englische-Verstand"

Die Lösung: ReasonXL – Ein riesiges Trainingslager

Was haben sie herausgefunden? (Die Geheimnisse im Inneren)

Warum ist das wichtig?

1. Problemstellung

2. Methodik

A. Datensatz: ReasonXL

B. Trainings-Pipeline

3. Hauptbeiträge

4. Ergebnisse

Leistung auf Downstream-Aufgaben

Wissensverlust und Cross-Lingual Transfer

Mechanistische Analyse (Interpretierbarkeit)

5. Bedeutung und Fazit

ReasonXL: Shifting LLM Reasoning Language Without Sacrificing Performance

Das Problem: Der „Englische-Verstand"

Die Lösung: ReasonXL – Ein riesiges Trainingslager

Was haben sie herausgefunden? (Die Geheimnisse im Inneren)

Warum ist das wichtig?

1. Problemstellung

2. Methodik

A. Datensatz: ReasonXL

B. Trainings-Pipeline

3. Hauptbeiträge

4. Ergebnisse

Leistung auf Downstream-Aufgaben

Wissensverlust und Cross-Lingual Transfer

Mechanistische Analyse (Interpretierbarkeit)

5. Bedeutung und Fazit

Mehr davon

Filtered Reasoning Score: Evaluating Reasoning Quality on a Model's Most-Confident Traces

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

LLMs Struggle with Abstract Meaning Comprehension More Than Expected

Benchmarking Deflection and Hallucination in Large Vision-Language Models

Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration