Multilingual LLMs Struggle to Link Orthography and Semantics in Bilingual Word Processing

Each language version is independently generated for its own context, not a direct translation.

Wanneer Woorden Leugenachtig Zijn: Waarom AI's Bilingualiteit Moeilijk Vindt

Stel je voor dat je een enorme bibliotheek hebt waar alle woorden van de wereld in staan. Voor een mens die twee talen spreekt (bijvoorbeeld Nederlands en Engels), is deze bibliotheek één grote, gemengde ruimte. Woorden die op elkaar lijken, staan vaak dicht bij elkaar.

Deze studie kijkt naar hoe Artificiële Intelligentie (AI) – specifiek de slimme taalmodellen zoals die van ons – omgaat met deze "gemengde bibliotheek". De onderzoekers wilden weten: Begrijpen deze AI's echt wat woorden betekenen, of kijken ze alleen maar naar hoe ze eruitzien?

Om dit te testen, gebruikten ze drie soorten "woordparen" tussen talen zoals Engels, Spaans, Frans en Duits. Laten we ze vergelijken met drie soorten vrienden op een feestje:

1. De Tweeling (Cognaten)

Dit zijn woorden die er bijna hetzelfde uitzien én hetzelfde betekenen in twee talen.

Voorbeeld: Soup (Engels) en Sopa (Spaans). Beide betekenen "soep".
De AI-reactie: Dit is makkelijk voor de AI. Het is alsof je een tweeling ziet; ze lijken op elkaar, dus de AI denkt: "Ah, dit is hetzelfde!" De AI doet dit heel goed.

2. De Vreemdelingen (Non-cognaten)

Woorden die hetzelfde betekenen, maar er totaal anders uitzien.

Voorbeeld: Pot (Engels) en Olla (Spaans). Beide zijn een pot, maar de naam is anders.
De AI-reactie: De AI moet hier even nadenken, maar het lukt meestal wel.

3. De Bedriegers (Interlinguale Homografen)

Dit is het echte probleem. Dit zijn woorden die er precies hetzelfde uitzien, maar heel iets anders betekenen in een andere taal.

Voorbeeld: Het woord Gift.
- In het Engels betekent het: "Een cadeautje".
- In het Duits betekent het: "Vergif".
De AI-reactie: Hier gaat het mis. De AI kijkt naar het woord, ziet dat het op "cadeautje" lijkt (want dat is wat ze vaak in hun training hebben gezien), en negeert de context. Het is alsof je iemand ziet met een giftig glimlachje en denkt: "Hij is zo vriendelijk!", terwijl hij eigenlijk een mes vasthoudt.

Wat Vonden Ze? De Grote Ontmaskering

De onderzoekers deden drie proeven om de AI te testen:

1. De "Wie is wie?" Test (Woorden los van elkaar)
Ze gaven de AI twee woorden en vroegen: "Betekenen deze hetzelfde?"

Resultaat: De AI was slim genoeg om te zien dat Soup en Sopa hetzelfde zijn. Maar bij de "bedriegers" (zoals Gift) faalde de AI. Ze deden vaak alsof ze wisten dat het een cadeautje was, zelfs als het in een Duitse zin zat.
Conclusie: De AI kijkt te veel naar de vorm (hoe het woord eruitziet) en te weinig naar de betekenis. Ze vertrouwen op hun ogen, niet op hun verstand.

2. De "Wat betekent dit?" Test (Betekenis ophalen)
Ze vroegen de AI: "Wat betekent dit woord?" en gaven twee opties.

Resultaat: De AI deed het niet veel beter dan een gok. Het maakte geen verschil of het woord een "tweeling" was of een "bedrieger".
Conclusie: De AI heeft eigenlijk geen echte connectie met de echte wereld. Het heeft woorden geleerd als statistische patronen (zoals een papegaai die zinnen nabootst), niet als dingen met een echte betekenis. Het kan de betekenis niet echt "ophalen" uit zijn geheugen.

3. De "Context Test" (Woorden in een zin)
Dit was de belangrijkste test. Ze gaven de AI een zin in het Engels, maar met een Duits woord erin dat erop leek.

Voorbeeld: "The dog drank the Gift." (De hond dronk het Gift/Vergif).
- In het Engels zou dit "cadeautje" zijn, maar dat past niet bij "drinken".
- In het Duits is het "vergif", wat wel past.
Resultaat: De AI had moeite om de context te gebruiken. Als de zin in het Engels was, dacht de AI vaak: "Het is een cadeautje!" en negeerde het feit dat je geen cadeautjes drinkt. Ze lieten zich te makkelijk leiden door het woord zelf, in plaats van de hele zin.

De Grote Leerles: Waarom is dit belangrijk?

De onderzoekers vergelijken de AI met een mens die twee talen spreekt. Mensen hebben een "geïntegreerd brein": als ze het woord Gift zien, weten ze direct dat het in het Duits "vergif" betekent als de context daar om vraagt.

De AI's doen dit niet. Ze zijn te veel gefocust op hoe woorden eruitzien (de orthografie) en te weinig op wat ze echt betekenen (de semantiek). Het is alsof de AI een boek leest waarbij ze alleen naar de letters kijken, maar de verhalen niet echt begrijpen.

Samengevat in één zin:
Deze slimme computers zijn goed in het herkennen van woorden die op elkaar lijken, maar ze worden slordig en verwarrend wanneer woorden er hetzelfde uitzien maar iets anders betekenen, omdat ze te veel vertrouwen op hun "ogen" en te weinig op hun "verstand".

Dit betekent dat we nog niet klaar zijn voor AI's die perfect meedoen in een gesprek waar mensen spontaan van taal wisselen (zoals in een druk café). Ze moeten nog leren om echt te begrijpen wat er gezegd wordt, en niet alleen hoe het eruitziet.

Multilingual LLMs Struggle to Link Orthography and Semantics in Bilingual Word Processing

Wanneer Woorden Leugenachtig Zijn: Waarom AI's Bilingualiteit Moeilijk Vindt

1. De Tweeling (Cognaten)

2. De Vreemdelingen (Non-cognaten)

3. De Bedriegers (Interlinguale Homografen)

Wat Vonden Ze? De Grote Ontmaskering

De Grote Leerles: Waarom is dit belangrijk?

Titel: Meertalige LLMs worstelen met het koppelen van orthografie en semantiek bij tweetalige woordverwerking

1. Het Probleem

2. Methodologie

3. Belangrijkste Resultaten

4. Bijdragen en Significatie

Multilingual LLMs Struggle to Link Orthography and Semantics in Bilingual Word Processing

Wanneer Woorden Leugenachtig Zijn: Waarom AI's Bilingualiteit Moeilijk Vindt

1. De Tweeling (Cognaten)

2. De Vreemdelingen (Non-cognaten)

3. De Bedriegers (Interlinguale Homografen)

Wat Vonden Ze? De Grote Ontmaskering

De Grote Leerles: Waarom is dit belangrijk?

Titel: Meertalige LLMs worstelen met het koppelen van orthografie en semantiek bij tweetalige woordverwerking

1. Het Probleem

2. Methodologie

3. Belangrijkste Resultaten

4. Bijdragen en Significatie

Meer zoals dit

The Moral Foundations Reddit Corpus

Automated stance detection in complex topics and small languages: the challenging case of immigration in polarizing news media

BioMamba: Domain-Adaptive Biomedical Language Models

Byte-token Enhanced Language Models for Temporal Point Processes Analysis

Integrating Arithmetic Learning Improves Mathematical Reasoning in Smaller Models