Is continuous CoT better suited for multi-lingual reasoning?

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Forschung, als würde man sie einem Freund beim Kaffee erzählen – mit ein paar bildhaften Vergleichen.

Das große Problem: Wenn das Gehirn auf "Fremdsprache" schaltet

Stellen Sie sich vor, Sie haben einen sehr klugen Schüler (einen KI-Modell), der Matheaufgaben löst. Wenn Sie ihm die Aufgabe auf Englisch geben, denkt er laut mit: "Okay, zuerst addiere ich das, dann ziehe ich das ab..." und schreibt alles auf. Das funktioniert super.

Aber wenn Sie ihm die gleiche Aufgabe auf Urdu (eine Sprache mit weniger digitalen Daten) oder Chinesisch geben, wird er plötzlich stottern. Er verliert den Faden, macht Fehler oder gibt gar keine Antwort. Warum? Weil er gelernt hat, über das Denken in Worten nachzudenken. Und wenn die Wörter in einer "armen" Sprache sind, fehlt ihm das Vokabular für den Denkprozess.

Die alte Lösung: Der Dolmetscher-Trick

Bisher haben Forscher versucht, das Problem so zu lösen:

Der Schüler liest die Urdu-Aufgabe.
Ein Dolmetscher übersetzt sie ins Englische.
Der Schüler denkt auf Englisch laut mit (CoT = Chain of Thought).
Ein Dolmetscher übersetzt die Antwort zurück ins Urdu.

Das Problem: Wie bei jeder Übersetzung gehen Nuancen verloren. Es ist, als würde man ein feines Gemälde kopieren, aber bei jedem Kopiervorgang ein bisschen Farbe verlieren. Außerdem ist es langsam und teuer.

Die neue Idee: Der "Gedanken-Telepath" (Continuous CoT)

Die Autoren dieses Papers (aus dem Jahr 2026) haben eine radikal andere Idee getestet. Statt den Schüler zu zwingen, seine Gedanken in Wörtern (Tokens) zu formulieren, lassen sie ihn in einer geheimen, flüssigen Sprache denken.

Stellen Sie sich das so vor:

Normales Denken (CoT-SFT): Der Schüler muss jeden einzelnen Schritt seines Denkens in Sätze kleiden, wie einen Brief, den er schreibt. Das braucht viel Platz und Papier.
Kontinuierliches Denken (CODI): Der Schüler denkt in Gedankenblitzen. Es sind keine Wörter, sondern reine, kompakte Ideen-Ströme. Es ist wie ein direkter Telepathie-Kontakt zwischen Frage und Antwort, ohne den Umweg über die Sprache.

Was haben sie herausgefunden?

Die Forscher haben das an fünf verschiedenen Sprachen getestet (Englisch, Deutsch, Französisch, Chinesisch und Urdu). Hier sind die drei wichtigsten Ergebnisse, einfach erklärt:

1. Der "Urdu-Effekt" (Besser bei armen Sprachen)
Das ist das Überraschendste: Der "Gedanken-Telepath" (CODI) war auf Urdu viel besser als der "Briefschreiber" (normales CoT), selbst wenn er Urdu im Training nie gesehen hatte!

Die Analogie: Stellen Sie sich vor, Sie lernen Schwimmen. Der "Briefschreiber" lernt nur die Theorie auf Deutsch. Wenn er ins Wasser (Urdu) springt, ertrinkt er. Der "Telepath" hat gelernt, das Gefühl des Schwimmens zu verstehen, nicht die Wörter. Deshalb kann er auch im fremden Wasser (Urdu) schwimmen, obwohl er es nie geübt hat.

2. Der Platz-Sparer (Extreme Effizienz)
Das normale Denken braucht riesige Textmengen. Der "Telepath" braucht winzige Datenpakete.

Der Vergleich: Wenn der normale Schüler eine Aufgabe löst, schreibt er einen ganzen Roman (ca. 300 Wörter). Der "Telepath" schreibt nur eine Postkarte (ca. 6 Zeichen).
Das Ergebnis: Der neue Ansatz ist 29- bis 50-mal effizienter. Das spart enorm viel Rechenleistung und Zeit.

3. Die "Sprach-Unabhängigkeit"
Da die Gedanken in einer flüssigen, mathematischen Form gespeichert werden (nicht in festen Wörtern), sind sie universeller. Sie funktionieren fast wie ein universeller Übersetzer, der direkt von der Idee zur Antwort springt, ohne sich an die Grammatik einer bestimmten Sprache zu klammern.

Fazit für den Alltag

Diese Forschung zeigt uns, dass wir KI vielleicht nicht zwingen müssen, in menschlichen Sprachen zu "denken", um sie multilingual zu machen. Indem wir sie lehren, in einer abstrakten, sprachneutralen Gedankenwelt zu arbeiten, werden sie nicht nur schneller, sondern auch fairer – sie funktionieren dann genauso gut auf Urdu wie auf Englisch, ohne dass wir für jede Sprache neue Daten sammeln müssen.

Es ist, als hätten wir endlich die "Gedanken-Telepathie" für Computer erfunden, die nicht mehr an die Grenzen unserer menschlichen Sprachen gebunden ist.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Is Continuous CoT Better Suited for Multilingual Reasoning?" auf Deutsch:

Titel und Kontext

Titel: Ist Continuous Chain-of-Thought (CoT) besser für mehrsprachiges Reasoning geeignet?
Veröffentlichung: Latent & Implicit Thinking Workshop @ ICLR 2026
Autoren: Ali Hamza Bashir et al. (Lamarr Institute, Fraunhofer IAIS, Universität Bonn)

1. Problemstellung

Große Sprachmodelle (LLMs) zeigen zwar beeindruckende Reasoning-Fähigkeiten, leiden jedoch unter einer signifikanten Leistungsungleichheit zwischen ressourcenstarken Sprachen (wie Englisch) und ressourcenarmen Sprachen.

Herausforderung: Herkömmliche Ansätze, wie das Übersetzen von Prompts in eine Pivot-Sprache (z. B. Englisch) vor dem Reasoning, führen zu Informationsverlusten durch Nuancenverluste.
Limitierung bestehender Methoden: Das direkte Fine-Tuning auf mehrsprachigen CoT-Daten skaliert schlecht (praktisch unmöglich für Hunderte von Sprachen) und birgt das Risiko des „katastrophalen Vergessens" bei Hinzufügen neuer Sprachen.
Fragestellung: Kann ein Reasoning-Prozess, der in einem kontinuierlichen latenten Raum statt in expliziten Sprach-Token abläuft, robustere und sprachunabhängigere Repräsentationen lernen?

2. Methodik

Datensätze und Sprachen

Die Studie verwendet zwei Hauptdatensätze:

GSM8k-Aug-NL: Ein mathematisches Reasoning-Datenset (erweitert auf 385k Trainingsbeispiele).
CommonsenseQA-CoT: Ein Datenset für Alltagslogik (ca. 8,1k Trainingsbeispiele).

Die Evaluation erfolgt in fünf typologisch und schriftsystemisch diverse Sprachen:

Englisch, Deutsch, Französisch (hohe Ressourcen, lateinische Schrift)
Chinesisch (hohe Ressourcen, chinesische Schrift)
Urdu (geringe Ressourcen, arabische Schrift)

Ein striktes Design verhindert Datenüberlappung zwischen den Sprachen (jedes Problem erscheint nur in einer Sprache), um echte Generalisierung zu testen.

Modellarchitektur und Trainingsansätze

Als Basis-Modell dient LLaMA3.2-1B-Instruct. Es werden zwei Fine-Tuning-Strategien verglichen:

Baseline: CoT-SFT (Supervised Fine-Tuning)
- Standard-Training auf expliziten Chain-of-Thought-Token-Sequenzen.
- Das Modell lernt, den Reasoning-Pfad als Text zu generieren.
Vorschlag: Continuous CoT (CODI Framework)
- Basierend auf dem CODI-Ansatz (Shen et al., 2025).
- Teacher-Task: Lernt explizite CoT-Generierung (Token-basiert).
- Student-Task: Generiert Reasoning in einem kontinuierlichen latenten Raum. Statt Text-Token werden versteckte Zustände ( $Z$ ) autoregressiv zwischen <bot> und <eot>-Markern propagiert.
- Wissensdistillation (Knowledge Distillation): Die latenten Aktivierungen des Students werden an der Stelle unmittelbar vor der Antwort mit den Aktivierungen des Teachers aligniert (L1-Verlust). Dies verankert das latente Reasoning an der expliziten Spur, ohne den gesamten Text generieren zu müssen.

3. Schlüsselergebnisse

A. Leistung in ressourcenarmen Sprachen (Zero-Shot)

Urdu-Experiment: Das Modell wurde auf Englisch, Deutsch, Französisch und Chinesisch trainiert, aber nicht auf Urdu.
Ergebnis: CODI übertrifft CoT-SFT signifikant im Zero-Shot-Setting für Urdu.
- Auf CommonsenseQA erreicht CODI (ohne Urdu im Training) 35,95 %, während CoT-SFT (mit Urdu im Training) nur 34,73 % erreicht.
- Auf GSM8k zeigt CODI ebenfalls eine deutlich bessere Generalisierung auf Urdu (9,58 % vs. 5,38 % bei CoT-SFT im Zero-Shot).
Interpretation: Die kontinuierlichen latenten Repräsentationen zeigen eine höhere Sprachinvarianz und generalisieren besser auf unbekannte Sprachen als explizite Token-basierte Reasoning-Pfade.

B. Leistung bei gemischten Sprach-Trainings

Wenn Urdu in den Trainingsdaten enthalten ist, verbessert sich die Leistung beider Modelle, aber CODI bleibt bei ressourcenarmen Sprachen überlegen.
Bei ressourcenstarken Sprachen (Englisch, Deutsch) ist CoT-SFT oft leicht besser oder gleichauf, was auf den Informationsverlust durch die Kompression im latenten Raum hindeuten könnte.
Bei CommonsenseQA übertrifft CODI CoT-SFT konsistent über alle Sprachen hinweg.

C. Effizienz und Kompression

Ein Hauptvorteil von CODI ist die extreme Kompression der Reasoning-Spur:

GSM8k: Reduktion der Token-Anzahl um den Faktor ~29x (von ~176 auf 6 latente Tokens).
CommonsenseQA: Reduktion um den Faktor ~50x (von ~299 auf 6 latente Tokens).
Dies ermöglicht eine drastische Reduktion der Inferenzkosten und Latenz, da keine langen Textausgaben generiert werden müssen.

4. Beiträge und Bedeutung

Nachweis der Sprachinvarianz: Die Arbeit liefert empirische Belege dafür, dass Reasoning in einem kontinuierlichen latenten Raum natürlicherweise sprachunabhängigere Merkmale lernt als Token-basiertes Reasoning. Dies ist besonders wertvoll für ressourcenarme Sprachen, für die kaum Trainingsdaten existieren.
Skalierbarkeit: Da das Modell nicht für jede neue Sprache explizite CoT-Daten benötigt, bietet CODI einen skalierbaren Ansatz für cross-linguales Reasoning.
Effizienzsteigerung: Die Kompression von Reasoning-Traces um fast zwei Größenordnungen macht fortgeschrittenes Reasoning in ressourcenbeschränkten Umgebungen (Edge Devices, hohe Kosten) praktikabler.
Paradigmenwechsel: Die Studie unterstützt die Hypothese, dass „Denken" (Reasoning) nicht zwingend in natürlicher Sprache erfolgen muss, um effektiv zu sein, und dass latente Räume eine robustere Basis für universelle Intelligenz darstellen können.

Fazit

Die Autoren schlussfolgern, dass Continuous CoT (CODI) eine überlegene Strategie für mehrsprachiges Reasoning darstellt, insbesondere für ressourcenarme Sprachen und Zero-Shot-Szenarien. Durch die Nutzung kontinuierlicher Repräsentationen wird nicht nur die Generalisierungsfähigkeit über Sprachgrenzen hinweg verbessert, sondern auch die Rechenkosten massiv gesenkt. Zukünftige Arbeiten sollen diese latenten Repräsentationen weiter analysieren und auf größere Modelle und diverse Domänen skalieren.