Meenz bleibt Meenz, but Large Language Models Do Not Speak Its Dialect

Cette étude pionnière en traitement automatique des langues présente le premier jeu de données numérique pour le dialecte de Mayence (Meenzerisch) et démontre que les grands modèles de langage actuels échouent à le comprendre ou à le générer avec précision, soulignant ainsi l'urgence de développer davantage de ressources pour la préservation des dialectes allemands.

Minh Duc Bui, Manuel Mager, Peter Herbert Kann, Katharina von der Wense

Publié 2026-03-05
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🍷 Le Titre : « Meenz reste Meenz, mais les robots ne parlent pas son dialecte »

Imaginez que la ville de Mayence (en allemand : Mainz) est comme un vieux vignoble. Ses habitants parlent un dialecte unique, le Meenzerisch, qui sent le terroir, l'histoire et la fête (surtout le carnaval). C'est une langue vivante, pleine de caractère, utilisée pour les blagues locales et les discours télévisés.

Mais ce dialecte est en danger. Il est menacé de disparaître, un peu comme une vieille recette de grand-mère que plus personne ne sait cuisiner.

Les chercheurs de cet article ont voulu demander à l'intelligence artificielle moderne (les grands modèles de langage, ou LLM) de l'aider à sauver cette langue. Leur conclusion ? C'est un échec cuisant. Les robots, aussi intelligents soient-ils, sont complètement perdus face à ce dialecte.


🛠️ L'Expérience : Construire un dictionnaire pour un robot

Pour tester les robots, les chercheurs ont dû d'abord leur donner un manuel. Comme il n'y avait pas de dictionnaire numérique pour le Meenzerisch, ils ont dû en créer un eux-mêmes à partir d'un vieux livre papier de 1966.

C'est un peu comme si vous deviez enseigner l'anglais à un alien en scannant un vieux dictionnaire, en corrigeant les erreurs de lecture, et en demandant à un autre robot de résumer chaque définition.

  • Le résultat : Ils ont créé une liste de 2 351 mots en dialecte, avec leur signification en allemand standard (le "Hochdeutsch").

🤖 Le Test : Les robots sont-ils de bons élèves ?

Ensuite, ils ont mis les robots à l'épreuve avec deux exercices simples, comme à l'école primaire :

  1. Exercice de Compréhension (Définition) :

    • Question : « Que veut dire le mot Schimmes en dialecte ? »
    • Réponse attendue : « Faim ».
    • Résultat : Les robots ont eu 6 % de bonnes réponses (le meilleur d'entre eux). C'est comme si un élève de 6 ans, sur 100 questions, en avait juste 6 bonnes. Le reste, c'est du hasard ou de l'invention.
  2. Exercice de Production (Le mot) :

    • Question : « Comment dit-on "faim" en dialecte de Mayence ? »
    • Réponse attendue : « Schimmes ».
    • Résultat : C'est encore pire. Les robots ont eu 1,5 % de bonnes réponses. C'est l'équivalent de demander à quelqu'un de deviner le numéro gagnant de la loterie. Ils ne trouvent presque jamais le bon mot.

📉 Pourquoi est-ce si difficile pour les robots ?

Les chercheurs ont comparé cela à l'anglais. Si on demande aux mêmes robots de définir un mot anglais, ils réussissent à 87 %.

  • L'analogie : Imaginez un chef étoilé qui peut cuisiner n'importe quel plat français ou italien (les langues "standard" comme l'anglais ou l'allemand standard), mais qui, dès qu'on lui demande de faire un plat régional très spécifique avec des ingrédients locaux rares (le dialecte), il brûle tout.

Les robots sont entraînés sur des milliards de textes "normes". Le Meenzerisch, étant une langue parlée à l'oral et peu écrite sur internet, est invisible pour eux. C'est comme essayer de trouver une aiguille dans une botte de foin, sauf que l'aiguille est faite de sons que le robot n'a jamais entendus.

🚑 Les tentatives de sauvetage (et pourquoi ça ne suffit pas)

Les chercheurs n'ont pas abandonné. Ils ont essayé deux astuces pour aider les robots :

  1. L'astuce du "Copier-Coller" (Few-shot learning) : Ils ont donné quelques exemples aux robots avant la question. Résultat : Une petite amélioration, mais toujours très faible.
  2. L'astuce des "Règles de grammaire" : Ils ont demandé à un robot d'extraire les règles de transformation (ex: "en dialecte, on change le 'en' en 'ele'") et de les donner aux autres robots. Résultat : Ça aide un tout petit peu pour comprendre, mais ça ne sert à rien pour produire les mots.

Même avec ces aides, les robots restent en dessous de 10 % de réussite.

💡 La Conclusion : Il faut plus que de la technologie

Ce papier nous dit une chose importante : La technologie seule ne sauvera pas les dialectes.

Les robots actuels sont comme des touristes qui arrivent à Mayence avec un guide touristique en allemand standard. Ils peuvent commander une bière, mais ils ne comprendront jamais les blagues des locaux ni ne pourront pas chanter les chants du carnaval.

Pour que l'IA puisse vraiment aider le Meenzerisch (et tous les autres dialectes allemands en danger), il faut :

  • Créer beaucoup plus de données (plus de livres, plus d'enregistrements).
  • Former les robots spécifiquement sur ces langues, pas juste sur les langues "populaires".
  • Ne pas attendre que les robots fassent tout le travail : les humains doivent continuer à parler, à écrire et à transmettre leur culture.

En résumé : Le robot est un excellent traducteur de langues officielles, mais il est encore un enfant perdu dans le dialecte de Mayence. Il faudra beaucoup d'efforts pour qu'il apprenne à parler comme un vrai Mayençais.