Conditioning LLMs to Generate Code-Switched Text

Each language version is independently generated for its own context, not a direct translation.

Hier is een uitleg van het onderzoek, vertaald naar eenvoudig Nederlands met behulp van creatieve vergelijkingen.

De Probleemstelling: Een Taalbarrière in de Wereld van AI

Stel je voor dat je een zeer slimme robot hebt die talen spreekt, maar die robot is opgeleid om te denken dat mensen alleen maar één taal tegelijk spreken. In de echte wereld, vooral in gemeenschappen waar mensen tweetalen zijn (zoals in de VS waar veel mensen zowel Engels als Spaans spreken), is dat niet zo. Mensen wisselen constant van taal in één zin. Dit noemen we code-switching.

Voorbeeld: "Why make everybody sentarse atrás pa' que everybody has to move..." (Waarom moet iedereen achter gaan zitten zodat iedereen moet bewegen...).

De huidige AI-modellen (zoals grote taalmodellen) vinden dit lastig. Ze zijn vaak verward, maken fouten of spreken gewoon één taal, terwijl de gebruiker een mix wil. Het probleem is dat er niet genoeg voorbeelden zijn van deze "mix-talen" om de AI goed op te leiden. Het is alsof je iemand wilt leren fietsen, maar je hebt geen fietsen in de garage.

De Oplossing: De "Taal-Backpack" en de Kunstmatige Werkplaats

De onderzoekers van de Universiteit van het Baskenland hebben een slimme truc bedacht om dit op te lossen. Ze hebben een nieuwe manier bedacht om AI te trainen om deze taalmixen natuurlijk te maken.

Stap 1: Het bouwen van een trainingsset (De "EN-CS" corpus)
Ze hadden een grote stapel bestaande zinnen waarin mensen al Engels en Spaans mixten (uit sociale media). Maar ze hadden geen "antwoorden" bij die zinnen om te zien hoe ze eruit zouden zien als ze puur Engels waren.

De truc: Ze gebruikten een andere, zeer slimme AI om die gemengde zinnen terug te vertalen naar puur Engels.
Het resultaat: Ze kregen nu een paar: aan de ene kant de originele gemengde zin, en aan de andere kant de pure Engelse versie. Dit noemen ze een parallel corpus.
De analogie: Het is alsof je een boek in een vreemde taal hebt, en je gebruikt een vertaler om het in het Nederlands te zetten. Nu heb je een boek met twee kolommen: links de originele tekst, rechts de vertaling. Je kunt nu leren hoe de vertaler werkt.

Stap 2: De AI trainen (Fine-tuning)
Met deze nieuwe "leermaterialen" hebben ze een AI-model getraind.

De methode: Ze gaven de AI een pure Engelse zin en zeiden: "Vertaal dit nu naar een mix van Engels en Spaans, net zoals de mensen in onze trainingsdata deden."
Het resultaat: De AI leerde niet alleen vertalen, maar leerde hoe je natuurlijk wisselt tussen de talen. Het werd een echte "tweeling-taal" sprekende AI.

Wat Vonden Ze? (De Proef)

Ze hebben gekeken of hun getrainde AI beter was dan de "standaard" AI's (zoals GPT-4 of Llama) die je gewoon een opdracht geeft zonder ze eerst te trainen.

Mensen vs. Robots: Mensen die de zinnen beoordeelden, vonden dat hun getrainde AI veel natuurlijker klinkt dan de grote, ongetrainde modellen. De grote modellen maakten vaak de fout dat ze gewoon in het Engels bleven, of dat de Spaanse woorden er "geplakt" uitzagen. De getrainde AI wist precies waar de taalgrens over moest gaan.
De "Meetlat" Probleem: Dit is misschien wel het belangrijkste punt. De onderzoekers keken of de automatische meetinstrumenten (die AI's normaal gebruiken om te zeggen of een tekst goed is) het ook goed deden.
- De ontdekking: De automatische meetinstrumenten faalden totaal. Ze gaven hoge scores aan teksten die helemaal geen Spaans bevatten, zolang maar de Engelse woorden klopten.
- De analogie: Stel je voor dat je een jury hebt die moet beoordelen wie de beste Italiaanse pizza maakt. De automatische meetlat kijkt alleen of er kaas op ligt. Als er geen tomatensaus op ligt (geen Spaans), maar wel veel kaas, zegt de meetlat: "Perfecte pizza!". Maar de menselijke jury zegt: "Nee, dit is geen pizza, dit is een broodje kaas."
- Conclusie: De bestaande meetmethoden zijn te dom om te zien of een AI goed code-switching doet. Ze missen de "smaak" van de mix.

Waarom is dit Belangrijk?

Dit onderzoek laat zien dat we AI niet zomaar kunnen laten "gokken" op taalmixen. We moeten ze specifiek trainen met de juiste voorbeelden. Als we dat doen, krijgen we AI's die veel natuurlijker communiceren met tweetalige mensen.

Maar er is nog een waarschuwing: we kunnen niet vertrouwen op de oude meetinstrumenten om te zien of het goed gaat. We moeten nieuwe, slimme manieren vinden om te meten of een AI echt "twee talen in één mond" spreekt, en niet alleen maar één taal met een paar vreemde woorden erin.

Kort samengevat: De onderzoekers hebben een nieuwe "school" gebouwd voor AI's om tweetalig te leren praten. De leerlingen (de getrainde AI) doen het veel beter dan degenen die gewoon op hun eigen kennis vertrouwen. Maar de examinatoren (de automatische meetinstrumenten) moeten nog even bijgeschaafd worden, want ze zien niet goed wat er echt goed is.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Conditioning LLMs to Generate Code-Switched Text" in het Nederlands.

Probleemstelling

Code-switching (CS), het mengen van twee of meer talen binnen één uiting, is een veelvoorkomend fenomeen in meertalige gemeenschappen. Desondanks vormen CS-teksten een kritische uitdaging voor Natural Language Processing (NLP). De huidige staat van de kunst (SOTA) modellen presteren slecht op CS-gegevens omdat:

Er een gebrek is aan grote, diverse datasets voor robuust trainen en evalueren.
Bestaande meertalige taalmodellen vaak monolingualisme als standaard veronderstellen.
Er geen parallelle datasets bestaan om CS-generatie op toezicht (supervised) te leren, zoals gebruikelijk is bij Machine Translation (MT).
Bestaande evaluatiemethoden onvoldoende zijn om de nuances van natuurlijk CS te vangen; traditionele metrics correleren slecht met menselijke oordelen.

Het doel van dit onderzoek is een methodologie te ontwikkelen om Large Language Models (LLMs) te conditioneren voor het genereren van natuurlijk code-switched text (specifiek Engels-Spaans) en een robuust evaluatiekader te bieden.

Methodologie

De auteurs stellen een nieuwe aanpak voor die bestaat uit drie hoofdfasen:

1. Creatie van een Pseudo-Parallel Corpus (EN-CS)
Omdat er geen bestaande systemen zijn om CS-tekst direct naar monolinguale tekst te vertalen, gebruiken de auteurs een "back-translation" strategie:

Bron: Ze starten met het LINCE-benchmark (Engels-Spaans), een dataset van natuurlijke CS-teksten uit sociale media.
Filtering: Ze filteren zinnen die niet echt CS bevatten (bijv. alleen leenwoorden) en verwijderen task-specifieke annotaties.
Back-translation: Ze gebruiken het Command R-model (Cohere) om de natuurlijke CS-zinnen terug te vertalen naar puur Engels. Omdat LLMs beter zijn in het converteren van CS naar monolinguale tekst dan andersom, levert dit hoge kwaliteit "silver" (automatisch gegenereerde) en "gold" (handmatig geposte) parallelle paren op.
Resultaat: Een nieuw corpus genaamd EN-CS met ongeveer 10.703 trainingsvoorbeelden en 1.040 gouden testvoorbeelden.

2. Fine-tuning van LLMs
Ze behandelen de taak als een vertaaltask (Engels $\to$ Code-Switched).

Modellen: Ze fine-tunen twee modellen uit de Llama 3-familie (Llama3 8B en Llama3 Instruct 8B) met behulp van QLoRA (Quantized Low-Rank Adaptation).
Input/Output: Het model krijgt een monolinguale Engelse zin als input en moet de code-switched Spaans-Engelse variant genereren.
Post-processing: Om hallucinaties en herhalingen te voorkomen, wordt de output getruncateerd bij het eerste leesteken dat de lengte van de originele zin benadert.

3. Evaluatie
De prestaties worden getest in zowel in-domain (op het LINCE-domein) als out-of-domain (op creatieve non-fictie teksten) settings. De evaluatie omvat:

Menselijke evaluatie: Een tournament-based ranking waarbij annotatoren de meest natuurlijke CS-zin kiezen op basis van criteria als aanwezigheid van CS, natuurlijkheid, inhoud en vorm.
Foutenanalyse: Een kwalitatieve analyse van fouttypes (CS-fouten, vertaalfouten, formatfouten).
Automatische evaluatie: Vergelijking van traditionele metrics (BLEU, BERTScore, chrF) en een LLM-judge (GPT-4o) met menselijke voorkeuren.

Belangrijkste Resultaten

1. Fine-tuning is cruciaal

Menselijke voorkeur: Fine-tuned modellen (vooral de base Llama3) presteren significant beter dan zero-shot/few-shot prompting van grote modellen (zoals GPT-4o en Llama3.3-70B) en een gespecialiseerd MT-model (NLLB).
Natuurlijkheid: Fine-tuned modellen genereren veel vaker natuurlijke code-switching. Few-shot modellen neigen vaak naar volledig monolinguale output (een kritieke fout in deze context), hoewel ze soms vlotter lijken.
Generalisatie: De fine-tuned base-modellen generaliseren beter naar out-of-domain data dan instructie-getuned modellen of gespecialiseerde MT-modellen, die vaak overfitten op het trainingsdomein.

2. Foutanalyse

Traditionele modellen (GPT-4o, NLLB) maken de minste vertaalfouten, maar maken veel CS-fouten (bijv. het niet switchen van taal).
Fine-tuned modellen maken minder CS-fouten (<15% van de totale fouten), maar kunnen wel vaker last hebben van formatfouten of betekenisverlies door instructie-tuning.

3. Evaluatiemetrics en correlatie

Traditionele metrics: BLEU, BERTScore en chrF correleren zeer zwak met menselijke oordelen (Pearson $\rho$ rond 0.05 - 0.09). Ze straffen modellen die CS genereren niet genoeg, omdat ze vaak de Engelse delen van de referentie matchen, zelfs als de CS-fouten zijn.
LLM-judge: GPT-4o als judge correleert beter ( $\rho \approx 0.35$ ), maar neigt nog steeds naar modellen die vlot zijn maar geen CS bevatten.
Conclusie: Geen enkele bestaande automatische metric is voldoende om de kwaliteit van CS-generatie betrouwbaar te beoordelen.

Bijdragen

EN-CS Dataset: Een nieuw, openbaar gemaakt parallel corpus voor Engels-Spaans code-switching, gegenereerd via back-translation.
Methodologie: Een bewezen effectieve pipeline om LLMs te fine-tunen voor het genereren van natuurlijk CS vanuit monolinguale input.
Evaluatie-inzicht: Een grondige analyse die aantoont dat standaard NLG-metrics misleidend zijn voor CS-taken en dat menselijke evaluatie (of gespecialiseerde metrics) noodzakelijk blijft.
Open Source: De code en het gegenereerde dataset zijn beschikbaar onder een CC-BY-NC-SA licentie.

Betekenis en Toekomst

Dit werk benadrukt dat LLMs, wanneer ze correct worden gefine-tuned, superieur kunnen zijn aan grote, niet-fine-tuned modellen en gespecialiseerde MT-systemen voor de generatie van code-switched tekst. Het onderzoek identificeert echter ook een kritieke lacune in de NLP-veld: het ontbreken van robuuste, automatische evaluatiemethoden die de sociale en linguïstische complexiteit van code-switching vatten. De auteurs pleiten voor toekomstig onderzoek naar gespecialiseerde evaluatiekaders die verder gaan dan oppervlakkige vlottheid en daadwerkelijke meertaligheid meten.

Conditioning LLMs to Generate Code-Switched Text

De Probleemstelling: Een Taalbarrière in de Wereld van AI

De Oplossing: De "Taal-Backpack" en de Kunstmatige Werkplaats

Wat Vonden Ze? (De Proef)

Waarom is dit Belangrijk?

Probleemstelling

Methodologie

Belangrijkste Resultaten

Bijdragen

Betekenis en Toekomst

Meer zoals dit

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA