Are Language Models Borrowing-Blind? A Multilingual Evaluation of Loanword Identification across 10 Languages

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Les Détectives de Mots : Les IA sont-elles "Aveugles" aux Mots Empruntés ?

Imaginez que les langues sont comme de grandes cuisines familiales. Au fil du temps, on y ajoute des ingrédients venus d'ailleurs : du curry indien, du chocolat suisse ou du sushi japonais. Ces ingrédients sont les mots empruntés (ou loanwords). Parfois, ils sont si bien intégrés qu'on ne se rend même plus compte qu'ils ne sont pas d'origine locale.

Des chercheurs de l'Université de Zurich se sont demandé une chose très simple : Les intelligences artificielles (les "cerveaux" des chatbots) sont-elles capables de repérer ces ingrédients importés ?

Pour répondre, ils ont organisé un grand concours culinaire avec 10 langues différentes (du chinois au kurde, en passant par le français et le russe). Voici ce qu'ils ont découvert, expliqué avec des images simples.

1. Le Problème : L'IA est un Touriste Perdu

Les chercheurs ont donné aux IA une mission : "Lis cette phrase et surligne tous les mots qui viennent d'une autre langue."

Le résultat ? C'est un désastre.
Même avec des instructions très claires, les IA ont eu beaucoup de mal. C'est comme si vous demandiez à un touriste de repérer dans un marché local quels fruits sont locaux et lesquels sont importés, et qu'il confondait tout.

L'analogie du "Puriste" : On s'attendait à ce que les IA soient des "puristes" linguistiques, capables de dire : "Ah, ce mot 'franchise' en portugais, c'est un emprunt !"
La réalité : Les IA sont en fait des "aveugles aux emprunts". Elles ne voient pas la différence entre un mot natif et un mot importé. Elles préfèrent même souvent les mots empruntés, comme si elles étaient plus à l'aise avec les termes internationaux que avec les mots traditionnels de la langue.

2. L'Expérience : Deux Approches pour Apprendre

Les chercheurs ont testé deux méthodes pour voir si on pouvait "éduquer" ces IA :

Méthode A : Le Questionnaire (Prompting)
Ils ont juste demandé aux IA (comme ChatGPT ou Gemini) de faire le travail sans les entraîner.
- Résultat : C'était comme demander à quelqu'un qui ne connaît pas la cuisine de deviner les ingrédients. Les IA ont obtenu de très mauvais scores (moins de 50 % de réussite). Elles confondaient tout.
Méthode B : L'École de Cuisine (Fine-tuning)
Ils ont pris des modèles d'IA et les ont fait "répéter" des milliers de fois avec des exemples de phrases où les mots empruntés étaient déjà surlignés. C'est comme donner un manuel de cuisine à l'IA.
- Résultat : Là, ça a beaucoup mieux marché ! Les scores sont montés à 85 %. L'IA a appris à reconnaître les motifs.
- Mais attention : Même après l'école, l'IA n'est pas parfaite. Elle fait encore des erreurs de débutant.

3. Les Pièges où l'IA Trébuche

Même les IA "entraînées" tombent dans des pièges très humains. Les chercheurs ont trouvé trois grandes catégories d'erreurs :

🎭 Le Confusion entre "Étranger" et "Visiteur" (Code-switching)
Imaginez quelqu'un qui parle français mais qui dit soudainement "C'est vraiment cool" en anglais.
- L'erreur de l'IA : Elle pense souvent que "cool" est un mot français emprunté. En réalité, c'est juste un visiteur (un code-switching) qui passe la porte. L'IA ne comprend pas la nuance entre un mot qui est devenu français et un mot qu'on utilise juste pour faire joli.
🏷️ Les Noms Propres (Les Étoiles)
Si vous dites "J'ai vu la NASA", l'IA pense souvent que "NASA" est un mot emprunté.
- La réalité : C'est juste un nom propre (comme un nom de personne). L'IA a du mal à distinguer un nom de marque d'un mot de vocabulaire courant.
🔬 Les Mots Scientifiques (Les Anciens)
Des mots comme "nitrates" ou "philosophie" viennent du latin ou du grec. Ils sont vieux, mais ils sont parfaitement intégrés.
- L'erreur : L'IA se dit : "Tiens, ça vient du latin, donc c'est un emprunt récent !" alors que pour un locuteur natif, c'est un mot aussi français que "pomme". L'IA regarde l'histoire du mot, mais pas comment il est utilisé aujourd'hui.

4. La Conclusion : Pourquoi est-ce important ?

Cette étude nous apprend une chose fondamentale : Les IA ne sont pas des linguistes. Elles sont très fortes pour répéter des patterns, mais elles ne comprennent pas la "vie" de la langue.

C'est un problème pour deux raisons :

Pour les langues minoritaires : Si une langue est sous la pression d'une langue dominante (comme l'anglais), il est crucial de savoir quels mots sont vraiment locaux et lesquels sont des emprunts pour préserver l'identité de la langue. Si l'IA ne sait pas faire la différence, elle risque d'effacer l'histoire de ces langues.
Pour l'avenir : Tant que les IA ne sauront pas distinguer un mot natif d'un mot emprunté, elles ne pourront pas vraiment "parler" toutes les langues avec finesse. Elles resteront des touristes qui parlent un peu, mais sans comprendre la culture profonde.

En résumé : Les IA sont comme des enfants très brillants qui ont lu tous les dictionnaires du monde, mais qui n'ont jamais joué dans la cour de récréation avec les locuteurs natifs. Ils connaissent les mots, mais ils ne comprennent pas encore qui les utilise, pourquoi et comment ils s'intègrent vraiment dans la vie quotidienne.

Are Language Models Borrowing-Blind? A Multilingual Evaluation of Loanword Identification across 10 Languages

🕵️‍♂️ Les Détectives de Mots : Les IA sont-elles "Aveugles" aux Mots Empruntés ?

1. Le Problème : L'IA est un Touriste Perdu

2. L'Expérience : Deux Approches pour Apprendre

3. Les Pièges où l'IA Trébuche

4. La Conclusion : Pourquoi est-ce important ?

1. Problématique et Contexte

2. Méthodologie

A. Évaluation des Grands Modèles de Langage (LLM)

B. Évaluation des Encodeurs Multilingues

Métriques d'évaluation

3. Résultats Clés

Performance des LLM (Zero/Few-shot)

Performance des Encodeurs (Zero-shot vs Fine-tuning)

4. Analyse des Erreurs

5. Contributions et Signification

Are Language Models Borrowing-Blind? A Multilingual Evaluation of Loanword Identification across 10 Languages

🕵️‍♂️ Les Détectives de Mots : Les IA sont-elles "Aveugles" aux Mots Empruntés ?

1. Le Problème : L'IA est un Touriste Perdu

2. L'Expérience : Deux Approches pour Apprendre

3. Les Pièges où l'IA Trébuche

4. La Conclusion : Pourquoi est-ce important ?

1. Problématique et Contexte

2. Méthodologie

A. Évaluation des Grands Modèles de Langage (LLM)

B. Évaluation des Encodeurs Multilingues

Métriques d'évaluation

3. Résultats Clés

Performance des LLM (Zero/Few-shot)

Performance des Encodeurs (Zero-shot vs Fine-tuning)

4. Analyse des Erreurs

5. Contributions et Signification

Articles similaires

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics