SASFT: Sparse Autoencoder-guided Supervised Finetuning to Mitigate Unexpected Code-Switching in LLMs

Each language version is independently generated for its own context, not a direct translation.

Titel: SASFT: De "Taal-Filter" die LLM's helpt om niet te vergeten welke taal ze spreken

Stel je voor dat je een zeer slimme, meertalige robot hebt die je kunt vragen om verhalen te vertellen, code te schrijven of feiten te verklaren. Je vraagt hem in het Nederlands: "Vertel me een grapje." Maar in plaats van een Nederlandse grap, begint de robot halverwege ineens in het Koreaans of Russisch te praten.

Dit noemen onderzoekers "onverwachte taalwisseling" (code-switching). Voor de gebruiker is dit verwarrend, leest het slecht en maakt het de robot minder bruikbaar. Het is alsof je een gesprek voert met iemand die plotseling in een andere taal begint te fluisteren zonder reden.

Dit artikel van ICLR 2026 introduceert een nieuwe oplossing genaamd SASFT. Hier is hoe het werkt, vertaald naar alledaags taalgebruik:

1. Het Probleem: De "Taal-Geesten" in de Robot

De onderzoekers keken diep in de "hersenen" van deze grote taalmodellen (LLMs) met een soort röntgenapparaat dat ze Sparse Autoencoders (SAE) noemen.

De Analogie: Stel je de hersenen van de robot voor als een enorm gebouw met duizenden kamers. In elke kamer wonen specifieke "geesten" of "ideeën". Er is een geest voor "wiskunde", een geest voor "liefde", en er zijn ook taal-geesten: een geest die alleen spreekt als het Nederlands is, een andere voor Chinees, enzovoort.
De Ontdekking: De onderzoekers merkten iets raars op. Als de robot per ongeluk van Nederlands naar Chinees wisselt, gebeurt er iets vreemds in de hersenen: de "Chinees-geest" begint plotseling heel hard te schreeuwen (ze noemen dit een hoge pre-activatie). Het is alsof de Chinees-geest zo enthousiast wordt dat hij de rest van het gesprek overneemt, zelfs als je in het Nederlands vroeg.

2. De Oude Oplossing: De "Stopknop" (Inference Interventie)

Eerder probeerden mensen dit op te lossen door tijdens het praten van de robot handmatig de "Chinees-geest" een duw te geven om stil te houden.

Het Nadeel: Dit is als een leraar die tijdens een examen steeds in de klas loopt om te zeggen: "Hé, niet in het Frans praten!" Het werkt tijdelijk, maar het verandert de robot niet. Het kost extra tijd en moeite, en als je de hand van de leraar weghaalt, begint de robot weer te wisselen.

3. De Nieuwe Oplossing: SASFT (De "Taal-Training")

De onderzoekers bedachten een slimme manier om de robot dit gedrag voor altijd af te leren, zonder dat je er tijdens het praten bij hoeft te staan. Ze noemen dit SASFT (Sparse Autoencoder-guided Supervised Finetuning).

De Analogie: In plaats van de robot tijdens het examen te corrigeren, geven ze hem een nieuwe training.
- Tijdens deze training laten ze de robot oefenopdrachten doen.
- Als de robot in het Nederlands moet praten, maar de "Chinees-geest" begint te schreeuwen, krijgen ze een straf (een extra "pijn" in de training).
- De robot leert hierdoor: "Oh, als ik in het Nederlands praat, moet ik die Chinees-geest rustig houden. Als ik hem te hard laat schreeuwen, krijg ik een straf."
Het Resultaat: Na de training weet de robot vanzelf: "Als ik Nederlands moet spreken, houd ik mijn Chinees-geest op een rustig niveau." De robot heeft het gedrag intern aangepast.

4. Wat leverde dit op?

De onderzoekers hebben dit getest op vijf verschillende modellen (zoals Llama, Gemma en Qwen) met drie talen (Chinees, Russisch, Koreaans).

Minder Taalwisseling: In de meeste gevallen verminderde de ongewenste taalwisseling met meer dan 50%. In sommige gevallen (vooral bij het Koreaans) was het probleem zelfs 100% verdwenen.
Geen Verlies aan Kwaliteit: Het mooie is dat de robot niet dommer werd. Hij kon nog steeds net zo goed wiskunde doen, coderen en redeneren in alle talen. Sterker nog, in sommige gevallen werd hij zelfs beter, omdat hij zich beter kon focussen op de juiste taal.

Samenvatting in één zin

SASFT is een slimme trainingstechniek die grote taalmodellen leert om hun "taal-geesten" in toom te houden, zodat ze niet per ongeluk van taal wisselen, terwijl ze tegelijkertijd hun slimme vaardigheden behouden.

Het is alsof je een meertalige vertaler een spiegel voorhoudt en leert: "Je bent een Nederlandse vertaler, blijf dus Nederlands praten, en laat die andere talen rustig slapen tenzij je ze echt nodig hebt."

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling: Onverwachte Taalwisseling (Code-Switching)

Grote Taalmodellen (LLMs) hebben indrukwekkende meertalige capaciteiten, maar lijden vaak aan onverwachte taalwisseling (unexpected code-switching). Dit is het fenomeen waarbij een model, terwijl het reageert in een specifieke taal (bijv. Engels), plotseling en ongepast overschakelt naar een andere taal (bijv. Chinees, Russisch of Koreaans) in het midden van een zin.

Gevolgen: Dit leidt tot slechte leesbaarheid, vermindert de bruikbaarheid van het model en kan gebruikers verwarren.
Huidige staat van zaken: Bestaande oplossingen, zoals het toepassen van GRPO (Group Relative Policy Optimization) met een beloning voor taalkonsistentie, tonen beperkte effectiviteit en missen een diepgaand mechanistisch inzicht in waarom dit gebeurt.

Methodologie: SASFT

De auteurs introduceren SASFT (Sparse Autoencoder-guided Supervised Finetuning), een methode die de interne representaties van het model gebruikt om het probleem fundamenteel op te lossen tijdens het trainen, in plaats van alleen tijdens de inferentie.

1. Mechanistisch Inzicht via Sparse Autoencoders (SAEs)

De kern van de analyse berust op het gebruik van Sparse Autoencoders (SAEs) om de verborgen staten van LLMs te ontleden in specifieke kenmerken (features).

Vindst: De auteurs ontdekten dat onverwachte taalwisseling correleert met overmatig hoge pre-activatie-waarden van kenmerken die specifiek zijn voor de niet-gewenste taal.
Observatie: Net voordat een model overschakelt naar een andere taal, stijgt de pre-activatie van de kenmerken van die taal abnormaal, zelfs als de input in een andere taal is.
Causaal bewijs: Experimenten met "directional ablation" (het wegnemen van een kenmerk) toonden aan dat het verlagen van deze pre-activatie de taalwisseling vermindert. Omgekeerd veroorzaakte het kunstmatig verhogen van deze pre-activatie onverwachte taalwisseling.

2. Het SASFT Trainingsproces

In plaats van externe ingrepen tijdens de inferentie, leert SASFT het model om deze pre-activatie-waarden tijdens het trainen zelf te beheersen.

Identificatie van Taalkenmerken: Eerst worden de "taalspecifieke kenmerken" geïdentificeerd voor de taal die vermeden moet worden (bijv. Chinees) door te kijken naar welke kenmerken sterk activeren voor die taal en zwak voor andere talen.
Auxiliary Loss (Hulpverlies): Tijdens het Supervised Finetuning (SFT) wordt een extra verliesfunctie ( $L_{reduce}$ $L_{r e d u ce}$ ) toegevoegd aan de standaard cross-entropy loss.
- Deze loss straft het model af als de pre-activatie-waarden van de irrelevante taalkenmerken (bijv. Chinees-kenmerken bij een Engelse prompt) boven een bepaalde drempelwaarde ( $\alpha$ ) komen.
- Formule: $L_{reduce} = \mathbb{E}[\sum \text{ReLU}(f_s(x) - \alpha_j)]$ , waarbij $f_s(x)$ de pre-activatie is van een taalspecifiek kenmerk.
Doel: Het model leert om de pre-activatie van ongewenste taalkenmerken laag te houden tijdens de generatie van andere talen, zonder de basisvaardigheden van het model te beschadigen.

Belangrijkste Bijdragen

Mechanistische Analyse: De eerste diepgaande analyse van onverwachte taalwisseling met behulp van SAEs, die aantoont dat dit fenomeen direct gerelateerd is aan abnormaal hoge pre-activatie van irrelevante taalkenmerken.
Nieuwe Methode (SASFT): Een innovatieve trainingsbenadering die LLMs instrueert om de pre-activatie van specifieke kenmerken te beheersen, waardoor het probleem fundamenteel wordt opgelost in plaats van alleen gefixt tijdens het gebruik.
Uitgebreide Validatie: Experimenten uitgevoerd op vijf verschillende modellen (Gemma-2, Llama-3.1, Qwen-3) en drie talen (Chinees, Russisch, Koreaans), wat de generaliseerbaarheid van de methode bewijst.

Resultaten

De experimenten tonen aan dat SASFT aanzienlijk beter presteert dan bestaande methoden (zoals standaard SFT, SFT+GRPO en SFT+Penalty).

Reductie van Code-Switching:
- SASFT vermindert onverwachte taalwisseling met meer dan 50% in de meeste scenario's vergeleken met standaard SFT.
- In enkele gevallen (vooral bij het Koreaans op de Qwen-3 modellen) werd een volledige eliminatie (100% reductie) bereikt.
- De methode is consistent superieur aan GRPO, die vaak instabiele resultaten liet zien (soms zelfs een toename van taalwisseling).
Behoud van Meertalige Capaciteiten:
- Cruciaal is dat SASFT de prestaties van het model op zes meertalige benchmarks (zoals MMLU, HumanEval, Flores-200, MGSM) behoudt of zelfs verbetert.
- In tegenstelling tot sommige baselines die de algemene prestaties lieten dalen, toonde SASFT vaak kleine verbeteringen (bijv. +3.13% op MMLU voor Llama-3.1-8B).
Architecturale Inzichten:
- Het toepassen van SASFT op meerdere lagen (in plaats van slechts één laag) leverde stabielere en betere resultaten op.
- Het gebruik van meerdere kenmerken (multi-feature) was effectiever dan het gebruik van slechts één kenmerk.

Betekenis en Impact

Dit werk biedt een praktische en mechanistisch onderbouwde oplossing voor een veelvoorkomend probleem in meertalige LLMs. Door in te spelen op de interne representaties (features) via SAEs, biedt SASFT een manier om modellen te "repareren" zonder hun algemene intelligentie of meertalige vaardigheden te offeren. Dit is een belangrijke stap naar het ontwikkelen van betrouwbaardere LLMs voor productieomgevingen waar consistente taalgebruik essentieel is voor de gebruikerservaring. De code en data zijn openbaar beschikbaar, wat verdere research en adoptie faciliteert.

SASFT: Sparse Autoencoder-guided Supervised Finetuning to Mitigate Unexpected Code-Switching in LLMs

1. Het Probleem: De "Taal-Geesten" in de Robot

2. De Oude Oplossing: De "Stopknop" (Inference Interventie)

3. De Nieuwe Oplossing: SASFT (De "Taal-Training")

4. Wat leverde dit op?

Samenvatting in één zin

Probleemstelling: Onverwachte Taalwisseling (Code-Switching)

Methodologie: SASFT

1. Mechanistisch Inzicht via Sparse Autoencoders (SAEs)

2. Het SASFT Trainingsproces

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics