Conditioning LLMs to Generate Code-Switched Text

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée de ce papier de recherche, comme si on en parlait autour d'un café.

🌍 Le Problème : Le "Bilinguisme" des Robots

Imaginez que vous apprenez à un robot à parler. Habituellement, on lui donne des livres entiers en anglais ou en français. Il devient très fort dans cette langue, mais il reste un peu bête quand il doit mélanger les deux langues dans la même phrase.

C'est ce qu'on appelle le code-switching (ou "changement de code"). C'est quand quelqu'un dit : "Je vais au supermarché pour acheter du pain et des croissants." En réalité, dans la vraie vie, les gens bilingues font ça tout le temps : "Je vais au supermarché pour acheter du pain et des croissants." (En anglais et en espagnol, par exemple).

Le problème, c'est que les robots (les IA) actuels ont du mal à faire ça naturellement. Ils soit parlent tout en anglais, soit tout en espagnol, soit ils font un mélange bizarre qui sonne faux. Pourquoi ? Parce qu'il n'y a pas assez de "livres" (données) qui montrent comment les humains mélangent vraiment les langues.

🛠️ La Solution : L'Atelier de Traduction Inversée

Les chercheurs de l'Université du Pays Basque ont eu une idée géniale pour résoudre ce problème. Au lieu d'essayer de trouver des millions de phrases mélangées (ce qui est difficile), ils ont créé leur propre "usine" à phrases mélangées.

Voici comment leur méthode fonctionne, avec une analogie :

La Recette de Base : Ils ont pris des phrases réelles mélangées (trouvées sur Twitter, par exemple) et ils ont demandé à une IA très intelligente de les traduire en anglais pur. C'est comme si un chef cuisinier prenait un plat complexe et en décrivait les ingrédients de base.
Le Jeu de Rôle : Maintenant, ils ont un couple : une phrase en anglais pur (la recette) et la phrase mélangée originale (le plat fini).
L'Entraînement : Ils ont donné ce couple à un robot (un modèle d'IA) et lui ont dit : "Regarde cette phrase en anglais, et imagine comment un humain bilingue la dirait en mélangeant l'anglais et l'espagnol."

C'est comme entraîner un acteur : on lui donne le texte original en anglais, et on lui apprend à improviser le mélange des langues de manière naturelle.

🏆 Les Résultats : Qui gagne ?

Ils ont testé plusieurs robots pour voir qui faisait le meilleur travail :

Les "Géants" (sans entraînement spécial) : Des robots très puissants comme GPT-4 ou Llama 3.5. Quand on leur demande de faire le mélange, ils ont tendance à être paresseux et à tout écrire en anglais, ou alors à faire des mélanges très artificiels. C'est comme un acteur qui oublie son rôle et parle dans sa langue maternelle.
Les "Spécialisés" (après entraînement) : Les mêmes robots, mais après avoir fait l'entraînement spécial décrit plus haut. Eux, ils sont excellents ! Ils mélangent les langues naturellement, comme un vrai humain. Ils comprennent que parfois, il faut dire "Hola" au milieu d'une phrase anglaise.

Le verdict : Un robot entraîné spécifiquement pour cette tâche bat même les géants de l'IA qui n'ont pas été entraînés. C'est la preuve qu'il faut "spécialiser" les robots pour des tâches précises.

📏 Le Problème des Juges (Comment on note le travail ?)

C'est là que ça devient drôle. Comment savoir si le robot a bien fait son travail ?

Les Juges Humains : Des personnes réelles écoutent les phrases. Elles disent : "Ah, celle-ci sonne vrai !" ou "Non, celle-ci est bizarre."
Les Juges Automatiques (Les Règles Mathématiques) : Ce sont des outils classiques qui comparent les mots. Le problème ? Ils sont souvent aveugles. Si le robot fait une phrase parfaite en anglais (sans mélange), les règles mathématiques disent : "Super ! 100/100 !" alors que le but était de faire un mélange. C'est comme noter un examen de cuisine en comptant le nombre d'ingrédients, sans goûter le plat.
Les Juges IA (GPT-4) : Ils sont un peu mieux que les règles mathématiques, mais ils ne sont pas parfaits non plus. Ils préfèrent souvent les phrases trop polies et fluides, même si elles ne mélangent pas assez les langues.

La leçon : Pour juger si un robot parle "bilingue", on ne peut pas se fier uniquement aux maths. Il faut souvent l'avis d'un humain, car le mélange des langues est une question de culture et de sentiment, pas juste de grammaire.

🎯 En Résumé

Le but : Apprendre aux robots à parler comme des humains bilingues (mélanger les langues).
La méthode : Créer un entraînement spécial en utilisant des phrases réelles mélangées et leur version anglaise pure.
Le résultat : Ça marche super bien ! Les robots entraînés sont bien meilleurs que les robots "tout-venant".
Le défi : Nos outils pour noter le travail des robots sont encore un peu bêtes. Ils ne comprennent pas toujours la beauté d'un mélange de langues naturel.

C'est une étape importante pour que les robots comprennent vraiment comment nous, humains, communiquons dans un monde multilingue !

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article « Conditioning LLMs to Generate Code-Switched Text » en français.

1. Problématique

Le changement de code (Code-Switching ou CS), c'est-à-dire le mélange de deux ou plusieurs langues au sein d'une même énonciation, est un phénomène courant dans les communautés bilingues. Cependant, il représente un défi majeur en Traitement Automatique des Langues (TAL) pour plusieurs raisons :

Manque de données : Il existe peu de grands ensembles de données CS de haute qualité pour l'entraînement et l'évaluation.
Limites des modèles actuels : Les modèles de langage (LLM) multilingues, bien qu'avancés, peinent à générer du texte CS naturel et fluide. Ils tendent souvent à produire des sorties monolingues ou à mélanger les langues de manière non naturelle.
Évaluation inadéquate : Les métriques automatiques standard (comme BLEU) ne capturent pas les nuances du CS et ne corrélaient pas bien avec le jugement humain.

L'objectif de ce travail est de développer une méthodologie pour conditionner les LLMs afin qu'ils génèrent du texte CS naturel à partir de phrases monolingues, spécifiquement pour la paire de langues Anglais-Espagnol, et d'évaluer la fiabilité des méthodes d'évaluation existantes.

2. Méthodologie

Les auteurs proposent un cadre de travail en trois étapes principales :

A. Création d'un Corpus Parallèle Synthétique (EN-CS)

Puisqu'il n'existe pas de corpus parallèle de haute qualité (Anglais $\leftrightarrow$ CS) pour l'entraînement supervisé, les auteurs en créent un :

Source : Ils partent du benchmark LINCE (données CS réelles issues des réseaux sociaux).
Rétro-traduction (Back-translation) : Utilisant le modèle Command R (Cohere), ils traduisent les phrases CS originales en anglais monolingue. L'hypothèse est que les LLMs sont plus performants pour convertir du CS vers une langue monolingue que l'inverse.
Filtrage et Post-édition :
- Filtrage des phrases ne contenant pas assez de mots dans chaque langue (pour éviter les faux positifs de type "emprunts").
- Post-édition manuelle par des locuteurs natifs pour créer un ensemble de test "Gold Standard" (1 040 instances).
- Le résultat est le corpus EN-CS, contenant des paires (Anglais $\rightarrow$ CS).

B. Entraînement et Fine-Tuning

Les auteurs utilisent le corpus EN-CS pour affiner (fine-tune) des modèles génératifs :

Modèles : Llama3 8B (base) et Llama3 Instruct 8B.
Technique : Adaptation à faible rang quantifiée (QLoRA) pour un entraînement efficace.
Objectif : Transformer l'anglais monolingue en texte CS.
Contrôle de la longueur : Une heuristique de troncature est appliquée pour éviter que le modèle ne génère des traductions complètes ou des hallucinations après le premier point de ponctuation.

C. Évaluation

L'évaluation est menée sur des données in-domain (issues de LINCE) et out-of-domain (textes créatifs non fictionnels).

Baselines : Modèles LLM en few-shot prompting (GPT-4o, Llama3.3-70B) et un modèle de traduction neuronale (NLLB) affiné.
Évaluation Humaine : Un tournoi par paires (pairwise tournament) où des annotateurs choisissent la phrase la plus naturelle selon trois critères : présence/naturalité du CS, contenu/fluide, et erreurs orthographiques.
Évaluation Automatique : Métriques de référence (BLEU, BERTScore, chrF) et utilisation de GPT-4o comme juge (JudgeLLM).

3. Contributions Clés

Méthodologie de génération de données : Une approche innovante utilisant la rétro-traduction par LLM pour créer un corpus parallèle de haute qualité (EN-CS) sans nécessiter de traduction humaine massive initiale.
Preuve de l'efficacité du Fine-Tuning : Démonstration que le fine-tuning de petits LLMs (8B) sur des données CS synthétiques surpasse les modèles massifs en few-shot prompting (comme GPT-4o) et les modèles de traduction spécialisés pour cette tâche spécifique.
Analyse critique des métriques : Une étude approfondie montrant que les métriques traditionnelles (BLEU, etc.) échouent à évaluer le CS, car elles pénalisent mal les sorties monolingues (qui sont incorrectes pour cette tâche) ou ne capturent pas la fluidité du mélange.
Ressources Open Source : Publication du code, du modèle et du dataset EN-CS sous licence CC-BY-NC-SA.

4. Résultats

Performance Humaine :
- Le modèle Llama3 8B fine-tuné obtient le meilleur score de préférence humaine, surpassant à la fois le modèle instructé (Llama3 Instruct), les modèles few-shot (GPT-4o, Llama3.3-70B) et le modèle NLLB.
- Les modèles few-shot ont tendance à produire des sorties entièrement monolingues (erreur critique de CS), même si elles sont grammaticalement correctes.
- Le modèle fine-tuné généralise mieux aux domaines out-of-domain que les autres modèles.
Analyse des Erreurs :
- Les erreurs de type CS (absence de mélange ou mélange non naturel) sont les plus fréquentes chez les modèles non affines (90% des erreurs de GPT-4o).
- Les modèles affines commettent moins d'erreurs de CS mais plus d'erreurs de format ou de traduction mineures.
Corrélation avec l'Évaluation Humaine :
- Métriques de référence : Corrélation très faible ( $\rho \approx 0.09$ ) avec le jugement humain. Elles favorisent souvent les modèles qui ne font pas de CS (car le texte ressemble plus à la référence anglaise).
- JudgeLLM (GPT-4o) : Corrélation modérée ( $\rho \approx 0.35$ ), meilleure que les métriques classiques, mais toujours insuffisante. GPT tend à privilégier la fluidité au détriment de la présence du CS, contrairement aux humains pour qui le CS est le critère principal.

5. Signification et Conclusion

Cette recherche démontre que pour des tâches de génération de texte spécifiques comme le changement de code, le fine-tuning sur des données ciblées est supérieur à l'utilisation de modèles massifs en mode zero-shot ou few-shot, même pour des modèles de taille modeste (8B).

L'article met également en lumière un problème fondamental dans l'évaluation du TAL multilingue : les métriques automatiques standards sont inadéquates pour le CS. Elles ne peuvent pas distinguer une phrase monolingue correcte d'une phrase CS correcte, ce qui fausse les résultats. Les auteurs appellent au développement de métriques spécialisées et de méthodes d'évaluation plus fines, intégrant des juges humains ou des LLMs mieux calibrés pour les nuances sociolinguistiques.

Enfin, la méthodologie proposée (création de corpus via rétro-traduction) offre une voie prometteuse pour étendre la recherche sur le CS à d'autres paires de langues, y compris celles à ressources limitées, en utilisant l'anglais et l'espagnol comme langues pivots.