ReasonXL: Shifting LLM Reasoning Language Without Sacrificing Performance

Each language version is independently generated for its own context, not a direct translation.

ReasonXL: Hoe we AI dwingen om in je eigen taal na te denken (zonder dat het dom wordt)

Stel je voor dat je een zeer slimme, universitair opgeleide assistent hebt die alles weet. Maar er is één groot probleem: deze assistent denkt alleen in het Engels.

Als je hem in het Nederlands een ingewikkelde wiskundepuzzel geeft, leest hij je vraag, denkt hij even na in zijn hoofd (in het Engels), en geeft hij vervolgens het antwoord in het Nederlands. Dit klinkt misschien niet erg, maar het is alsof je een chef-kok vraagt om een Italiaans gerecht te bereiden, maar die chef alleen recepten in het Frans kent. Hij moet eerst vertalen, en dat kan leiden tot fouten, misverstanden en een gebrek aan vertrouwen.

Dit is precies wat er gebeurt met de meeste grote AI-modellen (LLMs). Zelfs als je ze in het Duits, Frans of Spaans vraagt om te redeneren, denken ze stiekem in het Engels.

De auteurs van dit paper, ReasonXL, wilden dit veranderen. Ze wilden AI-modellen leren om volledig in je eigen taal te denken, zonder dat ze daarvoor minder slim worden.

Hier is hoe ze dat hebben gedaan, vertaald in simpele beelden:

1. De Grote Bibliotheek (ReasonXL)

Om een AI te leren in een nieuwe taal te denken, heb je eerst veel voorbeelden nodig. Stel je voor dat je een student wilt leren hoe je een wiskundeprobleem in het Italiaans oplost. Je kunt niet zomaar zeggen: "Denk in het Italiaans." Je moet hem laten zien hoe dat eruit ziet.

De auteurs hebben een enorme bibliotheek gecreëerd genaamd ReasonXL.

Wat is het? Een verzameling van meer dan 2 miljoen voorbeelden in vijf talen (Engels, Duits, Frans, Italiaans, Spaans).
Het geheim: Elke voorbeeld bevat niet alleen de vraag en het antwoord, maar ook de gedachtenstroom (de "redenatie") van de AI.
De analogie: Het is alsof ze een school hebben gebouwd waar studenten niet alleen het antwoord op een proefwerk zien, maar ook de volledige, stap-voor-stap uitleg van hoe de leraar tot dat antwoord kwam, geschreven in hun moedertaal.

2. De Twee-Stappen Training (SFT + RL)

Met deze bibliotheek hebben ze een AI-model getraind. Ze deden dit in twee fases, zoals het trainen van een atleet:

Fase 1: Het Leren (Supervised Fine-Tuning / SFT)
De AI kreeg duizenden voorbeelden te zien van mensen die in het doelwit (bijvoorbeeld Duits) naalden. De AI leerde: "Oh, als ik een vraag krijg, moet ik mijn gedachten ook in het Duits uitspreken."
- Het resultaat: De AI begon nu in het Duits te denken, maar hij werd een beetje slordig. Zijn antwoorden werden minder nauwkeurig. Het was alsof hij de taal had geleerd, maar zijn wiskundekennis een beetje vergeten was door de verwarring.
Fase 2: De Fijnafstelling (Reinforcement Learning / RL)
Nu kwam de echte trainer. De AI kreeg oefeningen, en als hij het goed deed in het Duits, kreeg hij een beloning. Als hij per ongeluk weer in het Engels begon te denken of een fout maakte, kreeg hij een straf.
- Het resultaat: De AI leerde dat hij niet hoefde te kiezen tussen "goed denken" en "in het juiste taal denken". Hij kon beide. Na deze training was hij net zo slim als voorheen, maar hij dacht nu volledig in het doelwit.

3. Wat hebben ze ontdekt? (De "Geheime Gang" in het brein)

Dit is het meest fascinerende deel. De auteurs keken niet alleen naar de resultaten, maar ook naar het "brein" van de AI (de interne werking) om te zien wat er precies veranderde.

Ze ontdekten een interessante verdeling, alsof het brein van de AI twee verschillende afdelingen heeft:

De Voordeur (De vroege lagen):
Ze vonden dat de eerste paar lagen van het AI-brein fungeren als een poortwachter. Deze lagen beslissen puur: "In welke taal gaan we praten?" Als je deze lagen van een getraind model neemt en in het originele model stopt, begint het originele model plotseling in het doelwit te denken. Het is de "taal-switch".
De Werkvloer (De bovenste lagen):
De bovenste lagen van het brein zijn waar het echte zware werk gebeurt: het oplossen van de wiskunde, het vinden van feiten en het bouwen van de logica. Hier veranderden de meeste gewichten tijdens de training. Deze lagen zorgen voor de kwaliteit van het antwoord, ongeacht de taal.

De grote les: Je kunt de "taal-switch" (de voordeur) herschakelen zonder de "werkvloer" (de intelligentie) te verstoren.

Waarom is dit belangrijk?

Vroeger dachten experts dat AI's moesten denken in het Engels om slim te blijven. Dit paper bewijst het tegendeel.

Betrouwbaarheid: Als je in het Spaans met een AI praat, wil je dat hij in het Spaans nadenkt, zodat je zijn redenering kunt volgen en vertrouwen.
Geen verlies aan kwaliteit: Je hoeft niet te kiezen tussen "slim zijn" en "in je eigen taal zijn". Je kunt beide hebben.

Kort samengevat:
ReasonXL heeft een enorme bibliotheek gebouwd om AI's te leren in hun eigen taal te denken. Ze hebben getoond dat je dit kunt doen zonder dat de AI dommer wordt, en ze hebben ontdekt dat het "taal-delen" van een AI eigenlijk heel makkelijk te sturen is via een specifieke poort in zijn brein. Het is een grote stap naar AI die echt voor iedereen werkt, in de taal die we het liefst spreken.

ReasonXL: Shifting LLM Reasoning Language Without Sacrificing Performance

1. De Grote Bibliotheek (ReasonXL)

2. De Twee-Stappen Training (SFT + RL)

3. Wat hebben ze ontdekt? (De "Geheime Gang" in het brein)

Waarom is dit belangrijk?

3. Belangrijkste Bijdragen

4. Resultaten

5. Mechanistische Analyse (Interpretability)

6. Betekenis en Conclusie

ReasonXL: Shifting LLM Reasoning Language Without Sacrificing Performance

1. De Grote Bibliotheek (ReasonXL)

2. De Twee-Stappen Training (SFT + RL)

3. Wat hebben ze ontdekt? (De "Geheime Gang" in het brein)

Waarom is dit belangrijk?

3. Belangrijkste Bijdragen

4. Resultaten

5. Mechanistische Analyse (Interpretability)

6. Betekenis en Conclusie

Meer zoals dit

Filtered Reasoning Score: Evaluating Reasoning Quality on a Model's Most-Confident Traces

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

LLMs Struggle with Abstract Meaning Comprehension More Than Expected

Benchmarking Deflection and Hallucination in Large Vision-Language Models

Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration