Conditioning LLMs to Generate Code-Switched Text

Dit onderzoek toont aan dat het fine-tunen van grote taalmodellen op een parallelle corpus, gegenereerd door back-vertaling van natuurlijke code-switching-zinnen, leidt tot vloeiende Spaans-Engelse code-switching-teksten, waarbij LLM-gebaseerde beoordeling beter overeenkomt met menselijke voorkeuren dan traditionele metrieken.

Maite Heredia, Gorka Labaka, Jeremy Barnes, Aitor Soroa

Gepubliceerd 2026-03-09
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Hier is een uitleg van het onderzoek, vertaald naar eenvoudig Nederlands met behulp van creatieve vergelijkingen.

De Probleemstelling: Een Taalbarrière in de Wereld van AI

Stel je voor dat je een zeer slimme robot hebt die talen spreekt, maar die robot is opgeleid om te denken dat mensen alleen maar één taal tegelijk spreken. In de echte wereld, vooral in gemeenschappen waar mensen tweetalen zijn (zoals in de VS waar veel mensen zowel Engels als Spaans spreken), is dat niet zo. Mensen wisselen constant van taal in één zin. Dit noemen we code-switching.

Voorbeeld: "Why make everybody sentarse atrás pa' que everybody has to move..." (Waarom moet iedereen achter gaan zitten zodat iedereen moet bewegen...).

De huidige AI-modellen (zoals grote taalmodellen) vinden dit lastig. Ze zijn vaak verward, maken fouten of spreken gewoon één taal, terwijl de gebruiker een mix wil. Het probleem is dat er niet genoeg voorbeelden zijn van deze "mix-talen" om de AI goed op te leiden. Het is alsof je iemand wilt leren fietsen, maar je hebt geen fietsen in de garage.

De Oplossing: De "Taal-Backpack" en de Kunstmatige Werkplaats

De onderzoekers van de Universiteit van het Baskenland hebben een slimme truc bedacht om dit op te lossen. Ze hebben een nieuwe manier bedacht om AI te trainen om deze taalmixen natuurlijk te maken.

Stap 1: Het bouwen van een trainingsset (De "EN-CS" corpus)
Ze hadden een grote stapel bestaande zinnen waarin mensen al Engels en Spaans mixten (uit sociale media). Maar ze hadden geen "antwoorden" bij die zinnen om te zien hoe ze eruit zouden zien als ze puur Engels waren.

  • De truc: Ze gebruikten een andere, zeer slimme AI om die gemengde zinnen terug te vertalen naar puur Engels.
  • Het resultaat: Ze kregen nu een paar: aan de ene kant de originele gemengde zin, en aan de andere kant de pure Engelse versie. Dit noemen ze een parallel corpus.
  • De analogie: Het is alsof je een boek in een vreemde taal hebt, en je gebruikt een vertaler om het in het Nederlands te zetten. Nu heb je een boek met twee kolommen: links de originele tekst, rechts de vertaling. Je kunt nu leren hoe de vertaler werkt.

Stap 2: De AI trainen (Fine-tuning)
Met deze nieuwe "leermaterialen" hebben ze een AI-model getraind.

  • De methode: Ze gaven de AI een pure Engelse zin en zeiden: "Vertaal dit nu naar een mix van Engels en Spaans, net zoals de mensen in onze trainingsdata deden."
  • Het resultaat: De AI leerde niet alleen vertalen, maar leerde hoe je natuurlijk wisselt tussen de talen. Het werd een echte "tweeling-taal" sprekende AI.

Wat Vonden Ze? (De Proef)

Ze hebben gekeken of hun getrainde AI beter was dan de "standaard" AI's (zoals GPT-4 of Llama) die je gewoon een opdracht geeft zonder ze eerst te trainen.

  1. Mensen vs. Robots: Mensen die de zinnen beoordeelden, vonden dat hun getrainde AI veel natuurlijker klinkt dan de grote, ongetrainde modellen. De grote modellen maakten vaak de fout dat ze gewoon in het Engels bleven, of dat de Spaanse woorden er "geplakt" uitzagen. De getrainde AI wist precies waar de taalgrens over moest gaan.
  2. De "Meetlat" Probleem: Dit is misschien wel het belangrijkste punt. De onderzoekers keken of de automatische meetinstrumenten (die AI's normaal gebruiken om te zeggen of een tekst goed is) het ook goed deden.
    • De ontdekking: De automatische meetinstrumenten faalden totaal. Ze gaven hoge scores aan teksten die helemaal geen Spaans bevatten, zolang maar de Engelse woorden klopten.
    • De analogie: Stel je voor dat je een jury hebt die moet beoordelen wie de beste Italiaanse pizza maakt. De automatische meetlat kijkt alleen of er kaas op ligt. Als er geen tomatensaus op ligt (geen Spaans), maar wel veel kaas, zegt de meetlat: "Perfecte pizza!". Maar de menselijke jury zegt: "Nee, dit is geen pizza, dit is een broodje kaas."
    • Conclusie: De bestaande meetmethoden zijn te dom om te zien of een AI goed code-switching doet. Ze missen de "smaak" van de mix.

Waarom is dit Belangrijk?

Dit onderzoek laat zien dat we AI niet zomaar kunnen laten "gokken" op taalmixen. We moeten ze specifiek trainen met de juiste voorbeelden. Als we dat doen, krijgen we AI's die veel natuurlijker communiceren met tweetalige mensen.

Maar er is nog een waarschuwing: we kunnen niet vertrouwen op de oude meetinstrumenten om te zien of het goed gaat. We moeten nieuwe, slimme manieren vinden om te meten of een AI echt "twee talen in één mond" spreekt, en niet alleen maar één taal met een paar vreemde woorden erin.

Kort samengevat: De onderzoekers hebben een nieuwe "school" gebouwd voor AI's om tweetalig te leren praten. De leerlingen (de getrainde AI) doen het veel beter dan degenen die gewoon op hun eigen kennis vertrouwen. Maar de examinatoren (de automatische meetinstrumenten) moeten nog even bijgeschaafd worden, want ze zien niet goed wat er echt goed is.