Oral to Web: Digitizing 'Zero Resource'Languages of Bangladesh

Cet article présente le Multilingual Cloud Corpus, premier corpus numérique national et multimodal du Bangladesh, qui documente systématiquement 42 variétés linguistiques autochtones et minoritaires, dont beaucoup sont en danger, grâce à des enregistrements audio et des transcriptions textuelles collectés lors d'un travail de terrain rigoureux pour soutenir la préservation linguistique et le traitement automatique des langues à ressources limitées.

Mohammad Mamun Or Rashid

Publié 2026-03-06
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que la langue est comme une plante. Au Bangladesh, tout le monde pense que le pays est un immense champ de riz (la langue bengalie), où tout le monde parle la même chose. Mais en réalité, ce champ est entouré de petites clairières cachées où poussent des fleurs rares et fragiles : les langues des minorités ethniques.

Le problème ? Ces fleurs sont en train de se faner. Beaucoup de ces langues n'ont jamais été écrites, elles ne vivent que dans la bouche des gens qui les parlent. Si les derniers locuteurs disparaissent, ces langues disparaissent à jamais, comme si on avait brûlé une bibliothèque unique sans jamais en avoir pris de copie.

Voici l'histoire de comment une équipe a décidé de sauver ces fleurs en les transformant en graines numériques pour l'avenir.

1. Le Grand Défi : De la Bouche au Web

Le projet s'appelle "Oral vers Web". C'est un peu comme si vous preniez une conversation qu'un grand-père raconte à son petit-fils autour d'un feu de camp, et que vous la transformiez instantanément en un livre numérique, une chanson enregistrée et une leçon de grammaire, le tout accessible sur Internet.

L'objectif était de créer une "Banque de Graines Numérique" (le Multilingual Cloud Corpus) pour 42 langues différentes du Bangladesh. C'est la première fois qu'on le fait à cette échelle dans le pays.

2. Comment ont-ils fait ? (La Méthode)

Imaginez que vous êtes un explorateur qui doit cartographier un territoire inconnu. Voici comment ils ont procédé :

  • La Carte du Trésor (Le Modèle) : Avant de partir, ils ont dessiné une carte très précise. Ils ont décidé de demander exactement les mêmes choses à tout le monde : "Comment dit-on 'manger' ?", "Comment dit-on 'Je vais à la maison hier' ?", "Racontez-moi l'histoire du vent et du soleil". Cela permet de comparer les langues comme on compare des pommes avec des pommes.
  • Les Explorateurs (Le Travail de Terrain) : Une équipe de 16 personnes est partie pendant 90 jours dans 9 districts différents, des collines du sud-est aux plaines du nord. Ils ont rencontré 77 conteurs et conteuses.
  • La Capture : Ils ont enregistré les gens parlant, puis ont écrit ce qu'ils disaient avec une précision scientifique (en utilisant l'alphabet phonétique international, ou IPA, qui est comme un code universel pour les sons).
  • Le Contrôle Qualité : Pour s'assurer que la "recette" était bonne, d'autres membres de la communauté ont écouté les enregistrements et dit : "Oui, c'est bien ça qu'on dit chez nous", ou "Non, ce mot n'est pas naturel".

3. Le Résultat : Un Trésor de 107 Heures

Le résultat est impressionnant. Ils ont créé une base de données géante qui contient :

  • 85 792 entrées textuelles : Des mots, des phrases et des histoires, traduits en bengali, en anglais et écrits en phonétique.
  • 107 heures d'audio : C'est l'équivalent de plus de 4 jours et demi de musique ou de discours, enregistré et transcrit.

C'est comme si on avait construit une immense bibliothèque où chaque livre est aussi une chanson. Même les langues les plus rares, parlées par seulement 6 personnes âgées, ont été enregistrées. C'est une sauvegarde de dernière chance.

4. Pourquoi est-ce si important ?

Ce projet répond à deux besoins vitaux :

  • Pour les ordinateurs (L'IA) : Aujourd'hui, les intelligences artificielles (comme les traducteurs ou les assistants vocaux) parlent très bien l'anglais ou le bengali, mais elles sont "illettrées" pour ces petites langues. C'est comme essayer de faire cuisiner un robot avec des ingrédients qu'il ne connaît pas. Cette base de données donne aux ordinateurs les "ingrédients" nécessaires pour apprendre à comprendre et à parler ces langues.
  • Pour les communautés (L'Âme) : Pour les gens qui parlent ces langues, c'est une bouée de sauvetage. Cela leur permet de voir leur langue sur un écran, d'avoir des polices d'écriture pour l'écrire sur leur téléphone, et de transmettre leur culture à leurs enfants, même si le monde extérieur change trop vite.

5. La Conclusion : Une Graine pour l'Avenir

Ce projet ne se contente pas de prendre des notes ; il plante des graines. Même si une langue s'éteint un jour, elle ne sera plus jamais perdue. Elle vivra dans ce "Nuage Multilingue" (Multilingual Cloud), accessible à tous, gratuitement.

C'est une preuve que même dans un pays en développement, on peut utiliser la technologie moderne pour protéger le patrimoine le plus précieux : la voix de ses peuples. C'est comme construire un coffre-fort numérique pour les trésors de l'humanité, afin que personne ne puisse les voler ou les oublier.