Are Language Models Borrowing-Blind? A Multilingual Evaluation of Loanword Identification across 10 Languages

Each language version is independently generated for its own context, not a direct translation.

Titel: Zijn Taalmodellen Taalblinde? (Of: Waarom AI moeite heeft met 'leende' woorden)

Stel je voor dat je een enorme bibliotheek hebt, gevuld met boeken in tien verschillende talen. In deze bibliotheek zijn woorden uit andere talen 'geleend' en zijn ze zo langzamerhand een vast onderdeel geworden van de taal, net als een vreemde boom die in een nieuw bos is geplant en daar nu volledig thuis lijkt te zijn.

De onderzoekers van dit paper (Mérilin Sousa Silva en Sina Ahmadi) wilden weten of de slimme computerprogramma's (de 'Taalmodellen' of AI's) die we vandaag de dag gebruiken, kunnen zien welk woord een 'geleend' woord is en welk woord 'thuis' hoort.

Hier is wat ze ontdekten, vertaald naar alledaags taalgebruik:

1. Het Probleem: De AI is een 'Taalblinde'

Je zou denken dat een computer die miljarden teksten heeft gelezen, elk woord perfect kan herkennen. Maar nee. De onderzoekers gaven de AI's een opdracht: "Vind alle woorden in deze zin die uit een andere taal zijn gekomen."

Het resultaat? De AI's faalden opvallend vaak. Het was alsof je een kind vraagt om in een volgepropte kamer te zoeken naar de rode ballen, maar het kind ziet ze niet of verwart ze met rode sokken. Zelfs als je de AI heel duidelijk uitlegde wat een 'geleend woord' is (bijvoorbeeld: "een woord dat in de loop der tijd is overgenomen"), konden ze het nog steeds niet goed doen.

De analogie: Stel je voor dat je een gast uitnodigt voor een diner. Je vraagt de gast om te vertellen welke gerechten op het menu 'thuisgemaakt' zijn en welke 'besteld' zijn bij de Chinese afhaal. De AI is die gast die, ondanks dat hij alles heeft gegeten, denkt dat de pizza (die oorspronkelijk uit Italië komt, maar nu in Nederland standaard is) 'thuisgemaakt' is, en dat het woord 'sjaal' (oorspronkelijk Perzisch) 'besteld' is.

2. De Drie Soorten Verwarring

De onderzoekers keken waarom de AI's het zo moeilijk hadden. Ze ontdekten drie grote valkuilen:

Verwarring met 'Code-Switching' (Taalwisselen):
Soms zeggen mensen in een gesprek ineens een woord in een andere taal, zoals: "Ik ga naar de party."
De AI dacht vaak: "Ah, party is een geleend woord!" Maar dat is het niet in deze context; de spreker wisselt gewoon even van taal. De AI zag de 'vreemdheid' van het woord, maar miste de context dat het een bewuste wisseling was.
- Vergelijking: Het is alsof je iemand ziet met een hoed op en denkt: "Die hoed is zeker van een ander land!" terwijl de persoon de hoed gewoon elke dag draagt als onderdeel van zijn outfit.
De 'Naam' Valstrik:
AI's houden van namen. Als ze een woord zagen als NASA of PISA, dachten ze direct: "Dit klinkt als een leenwoord!" Maar dat zijn gewoon namen van organisaties.
- Vergelijking: Het is alsof je denkt dat "Apple" (het fruit) een leenwoord is omdat het ook een computerbedrijf is. De AI kijkt naar de vorm van het woord, niet naar wat het echt betekent.
De 'Wetenschappelijke' Valstrik:
Veel wetenschappelijke woorden komen oorspronkelijk uit het Grieks of Latijn (zoals filosofie of nitraat). Voor de AI was dit een raadsel. Sommige modellen dachten: "Dit klinkt oud en vreemd, dus het is een leenwoord!" Andere modellen dachten: "Nee, dit wordt al eeuwen gebruikt, dus het is gewoon Nederlands."
- Vergelijking: Het is alsof je een oude, ingeburgerde eik in je tuin ziet en denkt: "Die is zeker pas gisteren geplant omdat hij er zo anders uitziet dan de rest," terwijl hij daar al 100 jaar staat.

3. De Oplossing: Oefening baart Kunst (maar niet perfect)

De onderzoekers probeerden de AI's te trainen met speciale oefeningen (zogenaamde 'fine-tuning'). Ze gaven de computer duizenden voorbeelden van zinnen met geleende woorden.

Het resultaat:

Zonder training: De AI's waren bijna volledig blind (slechts 1-2% goed).
Met training: De AI's werden veel beter (tot wel 85% goed).

Het was alsof je een blindeman een kaart geeft en hem laat oefenen. Plotseling ziet hij de weg. Maar zelfs de getrainde AI's maakten nog steeds fouten. Ze vertrouwden te veel op hoe een woord eruitzag (de schrijfwijze) in plaats van wat het betekende in de context.

4. Waarom is dit belangrijk?

Dit klinkt misschien als een klein taalkundig gedoe, maar het heeft grote gevolgen:

Voor minderheidstalen: Veel talen worden overspoeld door woorden uit machtigere talen (zoals Engels). Als we AI-tools willen bouwen om die minderheidstalen te beschermen of te onderwijzen, moeten we eerst weten welke woorden 'echt' van die taal zijn en welke 'geleend' zijn. Als de AI dit niet kan, helpt hij niet goed bij het behoud van de taal.
Voor geschiedenis: Woorden vertellen ons hoe culturen met elkaar omgaan. Als AI's dit niet snappen, missen we een stukje van de geschiedenis van de mensheid.

Conclusie

De titel van het paper vraagt: "Zijn Taalmodellen Taalblinde?"
Het antwoord is: Ja, ze zijn nog een beetje blind.

Ze kunnen heel goed zinnen maken en vertalen, maar als je ze vraagt om de 'oorsprong' van een woord te achterhalen, raken ze in de war. Ze zien de 'kleding' van het woord (hoe het eruitziet), maar begrijpen niet de 'geschiedenis' (waar het vandaan komt en hoe het is ingeburgerd).

De boodschap voor de toekomst is duidelijk: we moeten AI's niet alleen leren wat woorden betekenen, maar ook waar ze vandaan komen en hoe mensen ze in het echt gebruiken. Tot die tijd blijven ze een beetje 'taalblinde' gasten in onze bibliotheek.

Are Language Models Borrowing-Blind? A Multilingual Evaluation of Loanword Identification across 10 Languages

1. Het Probleem: De AI is een 'Taalblinde'

2. De Drie Soorten Verwarring

3. De Oplossing: Oefening baart Kunst (maar niet perfect)

4. Waarom is dit belangrijk?

Conclusie

Probleemstelling

Methodologie

Belangrijkste Resultaten

Bijdragen

Significantie en Implicaties

Are Language Models Borrowing-Blind? A Multilingual Evaluation of Loanword Identification across 10 Languages

1. Het Probleem: De AI is een 'Taalblinde'

2. De Drie Soorten Verwarring

3. De Oplossing: Oefening baart Kunst (maar niet perfect)

4. Waarom is dit belangrijk?

Conclusie

Probleemstelling

Methodologie

Belangrijkste Resultaten

Bijdragen

Significantie en Implicaties

Meer zoals dit

The Moral Foundations Reddit Corpus

Automated stance detection in complex topics and small languages: the challenging case of immigration in polarizing news media

BioMamba: Domain-Adaptive Biomedical Language Models

Multilingual LLMs Struggle to Link Orthography and Semantics in Bilingual Word Processing

Byte-token Enhanced Language Models for Temporal Point Processes Analysis