SASFT: Sparse Autoencoder-guided Supervised Finetuning to Mitigate Unexpected Code-Switching in LLMs

Each language version is independently generated for its own context, not a direct translation.

🌍 Das Problem: Der verwirrte Übersetzer

Stell dir vor, du hast einen sehr klugen, mehrsprachigen Roboter-Assistenten (einen „Large Language Model" oder LLM). Er kann fließend Deutsch, Englisch, Chinesisch, Russisch und Koreanisch sprechen. Das ist toll!

Aber manchmal passiert etwas Seltsames: Du fragst ihn auf Deutsch nach einem Rezept, und plötzlich fängt er mitten im Satz an, russische Wörter zu benutzen, oder er mischt chinesische Zeichen ein, ohne dass du darum gebeten hast.

Das nennt man „unerwartetes Code-Switching" (Sprachwechsel).
Es ist, als würde ein Koch, der dir ein italienisches Pasta-Gericht kochen soll, plötzlich mitten im Rezept griechische Kräuter hinzufügen, nur weil er sie im Schrank hat. Das verwirrt dich, macht den Text schwer lesbar und nervt einfach.

Bisher wussten die Entwickler nicht genau, warum der Roboter das macht, und ihre Lösungen waren oft wie ein „Pflaster auf eine tiefe Wunde" – sie halfen nur kurz oder gar nicht.

🔍 Die Entdeckung: Der „Sprach-Detektor" im Gehirn

Die Forscher haben nun eine neue Methode benutzt, um in das „Gehirn" des Roboters zu schauen. Sie nutzen ein Werkzeug namens Sparse Autoencoder (SAE).

Die Analogie:
Stell dir das Gehirn des Roboters wie ein riesiges Büro mit tausenden von Schreibtischen vor. Jeder Schreibtisch ist für eine bestimmte Idee oder ein bestimmtes Wort zuständig.

Es gibt einen Schreibtisch für „Hund".
Einen für „Apfel".
Und es gibt spezielle Schreibtische, die nur für eine bestimmte Sprache zuständig sind (z. B. ein „Chinesisch-Schreibtisch").

Die Forscher haben entdeckt: Wenn der Roboter eigentlich Deutsch sprechen soll, aber plötzlich auf Chinesisch umschaltet, dann passiert Folgendes: Der „Chinesisch-Schreibtisch" im Gehirn des Roboters fängt an, extrem hell zu leuchten (er hat einen sehr hohen „Voraktivierungs-Wert"). Es ist, als würde ein Lichtschalter für Chinesisch versehentlich auf „MAXIMAL" gedreht werden, noch bevor der Roboter das erste chinesische Wort sagt.

💡 Die Lösung: SASFT – Das Training für den Roboter

Anstatt dem Roboter während des Sprechens ständig zu sagen „Hey, mach das Licht aus!" (was den Prozess verlangsamt und kompliziert macht), haben die Forscher eine bessere Idee: Sie trainieren den Roboter neu.

Sie nennen ihre Methode SASFT (Sparse Autoencoder-guided Supervised Finetuning).

Wie funktioniert das?
Stell dir vor, du bist ein Trainer für einen Schauspieler.

Beobachtung: Du siehst, dass der Schauspieler, wenn er eine deutsche Szene spielt, unwillkürlich anfängt, russische Wörter zu flüstern, weil sein innerer „Russisch-Muskel" zu stark angespannt ist.
Die Übung: Anstatt ihm während der Vorstellung zu schreien, gibst du ihm ein neues Training. Du sagst ihm: „Wenn du eine deutsche Szene spielst, musst du lernen, deinen Russisch-Muskel entspannt zu halten. Er darf nicht zucken."
Das Ergebnis: Nach dem Training weiß der Schauspieler genau, wann er welche Muskeln benutzen darf. Er bleibt konsequent bei der deutschen Sprache, ohne dass du ihm ständig hinterherlaufen musst.

In technischer Sprache bedeutet das: Die Forscher fügen dem Trainingsprozess eine kleine „Straf-Regel" hinzu. Wenn der Roboter merkt, dass er gerade Deutsch spricht, aber sein innerer „Chinesisch-Schalter" zu hell leuchtet, wird er dafür „bestraft" (durch eine mathematische Formel). So lernt er, diese Schalter ruhig zu halten, wenn sie nicht gebraucht werden.

🚀 Was hat das gebracht?

Die Forscher haben diese Methode an fünf verschiedenen großen Robotern getestet (wie Llama, Gemma und Qwen).

Das Ergebnis: Der unerwünschte Sprachwechsel ist in den meisten Fällen um über 50 % gesunken. In einigen Fällen (besonders beim Koreanischen) war das Problem zu 100 % verschwunden!
Der Bonus: Der Roboter ist nicht dümmer geworden. Im Gegenteil: Er kann immer noch alle Sprachen gut sprechen und hat seine Fähigkeiten in anderen Bereichen (wie Mathe oder Logik) sogar verbessert oder behalten.

🎯 Zusammenfassung in einem Satz

Die Forscher haben herausgefunden, dass unerwünschte Sprachwechsel durch zu starkes „Aufleuchten" bestimmter Sprach-Schalter im Gehirn des KI-Modells verursacht werden, und sie haben eine Trainingsmethode entwickelt, die dem Modell beibringt, diese Schalter genau dann ruhig zu lassen, wenn sie nicht gebraucht werden – ohne dabei die Intelligenz des Modells zu beeinträchtigen.

Kurz gesagt: Sie haben dem KI-Modell beigebracht, sich auf die Sprache zu konzentrieren, die du willst, und die anderen Sprachen im Hintergrund ruhig zu halten.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Große Sprachmodelle (LLMs) verfügen zwar über beeindruckende mehrsprachige Fähigkeiten, leiden jedoch unter dem Phänomen des unerwarteten Code-Switching (Sprachmischung). Dabei wechselt das Modell während der Generierung einer Antwort, die in einer bestimmten Sprache erwartet wird, plötzlich und ungewollt in eine andere Sprache (z. B. eine englische Antwort, die mitten im Satz chinesische Wörter enthält).

Auswirkung: Dies beeinträchtigt die Lesbarkeit und die Nutzbarkeit der Modellantworten erheblich.
Bestehende Lösungen: Bisherige Ansätze (z. B. von Guo et al., 2025) nutzen Verstärkungslernen (GRPO) mit Belohnungsfunktionen für Sprachkonsistenz. Diese Methoden zeigen jedoch nur begrenzte Wirksamkeit und basieren nicht auf einer tiefgehenden mechanistischen Analyse der Ursachen im Modell.

2. Methodik: SASFT (Sparse Autoencoder-Guided Supervised Finetuning)

Die Autoren schlagen eine neue Methode vor, die auf der mechanistischen Interpretierbarkeit von LLMs mittels Sparse Autoencodern (SAEs) basiert.

A. Mechanistische Analyse (Feasibility Study)

Die Autoren identifizierten mithilfe von SAEs spezifische Merkmalsvektoren („Features") im Reststrom (Residual Stream) des Modells, die stark mit bestimmten Sprachen korrelieren.

Beobachtung: Vor einem unerwarteten Code-Switching in eine Zielsprache (z. B. Chinesisch) zeigen die SAE-Features dieser Sprache ungewöhnlich hohe Pre-Activation-Werte (die Werte vor der ReLU-Aktivierungsfunktion).
Kausalität: Experimente zeigten, dass das gezielte Reduzieren (Ablation) dieser Features während der Inferenz das Code-Switching reduziert, während das Erhöhen (Enhancement) nicht-sprachspezifischer Features das Phänomen induzieren kann.

B. Der SASFT-Ansatz

Statt externe Eingriffe während der Inferenz vorzunehmen, trainiert SASFT das Modell, diese Pre-Activation-Werte während des Trainings selbstständig zu kontrollieren.

Identifikation von Sprach-Features: Zuerst werden mittels SAEs die sprachspezifischen Features für die zu vermeidende Sprache (z. B. Chinesisch) identifiziert. Diese sind durch hohe Aktivierungswerte nur bei Eingaben in dieser Sprache gekennzeichnet.
Auxiliary Loss Function: Während des Supervised Fine-Tunings (SFT) wird eine zusätzliche Verlustfunktion ( $L_{reduce}$ $L_{r e d u ce}$ ) eingeführt.
- Diese Funktion bestraft hohe Pre-Activation-Werte der irrelevanten Sprach-Features, wenn das Modell Text in einer anderen Sprache generiert.
- Formel: $L_{reduce} = \mathbb{E}[\sum \text{ReLU}(f_s(x) - \alpha_j)]$ , wobei $f_s(x)$ der Pre-Activation-Wert ist und $\alpha_j$ ein Schwellenwert (basierend auf dem durchschnittlichen Pre-Activation-Wert) ist.
Gesamtverlust: Der finale Trainingsverlust kombiniert den Standard Cross-Entropy-Verlust mit dem gewichteten Auxiliary Loss:
$L_{training} = L_{cross-entropy} + \lambda L_{reduce}$

Dieses Training „lehrt" dem Modell, die Aktivierung unerwünschter Sprachfeatures zu unterdrücken, ohne die generellen Sprachfähigkeiten zu zerstören.

3. Wichtige Beiträge

Erste mechanistische Analyse: Erstmals wurde unerwartetes Code-Switching mittels SAEs analysiert, wobei gezeigt wurde, dass es direkt mit übermäßigen Pre-Activation-Werten irrelevanter Sprachfeatures zusammenhängt.
Neue Trainingsmethode (SASFT): Entwicklung eines Verfahrens, das LLMs beibringt, während des Trainings die Aktivierung spezifischer Features zu regulieren, anstatt sie nur zur Laufzeit zu manipulieren.
Umfassende Evaluation: Die Methode wurde an fünf verschiedenen Modellen (Gemma-2, Llama-3.1, Qwen-3) und drei Zielsprachen (Chinesisch, Russisch, Koreanisch) getestet.

4. Ergebnisse

Die Experimente wurden auf fünf Modellen durchgeführt und mit Baselines wie Standard-SFT, SFT+GRPO und SFT+Penalty verglichen.

Reduktion von Code-Switching:
- SASFT reduziert unerwartetes Code-Switching in den meisten Fällen um mehr als 50 % im Vergleich zum Standard-SFT.
- In einigen Szenarien (insbesondere bei Koreanisch und dem Qwen3-1.7B-Modell) wurde eine vollständige Eliminierung (100 % Reduktion) erreicht.
- SASFT übertrifft konsistent die GRPO-basierten Baselines, die oft instabil waren oder sogar zu Verschlechterungen führten.
Erhaltung der Fähigkeiten:
- Im Gegensatz zu vielen anderen Eingriffsmethoden verschlechtert SASFT die allgemeinen mehrsprachigen Fähigkeiten des Modells nicht.
- Auf sechs verschiedenen Benchmarks (MMLU, HumanEval, Flores-200, HellaSwag, LogiQA, IFEval, MGSM) blieb die Leistung stabil oder verbesserte sich sogar teilweise (z. B. +3,13 % bei MMLU für Llama-3.1-8B).
Architektur-Analyse:
- Die Anwendung von SASFT auf mehrere Schichten (Multi-Layer) erwies sich als robuster und effektiver als die Anwendung auf eine einzelne Schicht.
- Die Verwendung mehrerer Features (Multi-Feature) war effektiver als die Nutzung eines einzelnen Features.

5. Bedeutung und Fazit

Das Paper liefert einen wichtigen Beitrag zur Verbesserung der Zuverlässigkeit mehrsprachiger LLMs.

Praktische Relevanz: Unerwartetes Code-Switching ist ein häufiges Hindernis für den Einsatz von LLMs in produktiven Umgebungen. SASFT bietet eine effiziente Lösung, die direkt in den Trainingsprozess integriert wird und keine zusätzlichen Inferenz-Overheads erfordert.
Methodischer Fortschritt: Die Arbeit demonstriert die Kraft von Sparse Autoencodern nicht nur zur Analyse, sondern als direkte Leitlinie für das Training von Modellen („Mechanistic Interpretability as a Training Signal").
Zukunftsaussichten: Die Ergebnisse legen nahe, dass die Kontrolle spezifischer neuronaler Merkmale ein vielversprechender Weg ist, um das Verhalten von LLMs präzise zu steuern, ohne ihre allgemeinen Fähigkeiten zu beeinträchtigen.

Zusammenfassend stellt SASFT einen robusten, skalierbaren und effektiven Ansatz dar, um die Sprachkonsistenz von LLMs zu gewährleisten und gleichzeitig deren multilinguale Kompetenzen zu erhalten.

SASFT: Sparse Autoencoder-guided Supervised Finetuning to Mitigate Unexpected Code-Switching in LLMs

🌍 Das Problem: Der verwirrte Übersetzer

🔍 Die Entdeckung: Der „Sprach-Detektor" im Gehirn

💡 Die Lösung: SASFT – Das Training für den Roboter

🚀 Was hat das gebracht?

🎯 Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: SASFT (Sparse Autoencoder-Guided Supervised Finetuning)

A. Mechanistische Analyse (Feasibility Study)

B. Der SASFT-Ansatz

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics