BaltiVoice: A Speech Corpus and Fine-tuned Whisper ASR… — Explication vulgarisée

Imaginez que vous possédez une bibliothèque de livres, mais pour une langue spécifique — le Balti, parlé par environ 400 000 personnes au Pakistan et en Inde — il n'existe aucun livre du tout. Pas seulement pas de livres, mais pas non plus d'assistants vocaux, de logiciels de dictée, ou aucun moyen pour les ordinateurs de comprendre la parole. C'est comme essayer de naviguer dans une ville sans aucun panneau de signalisation ni carte.

Ce document présente BaltiVoice, un projet conçu pour construire cette toute première carte.

Le Problème : Une langue dans l'obscurité

Le Balti est une langue unique avec ses propres sons et sa propre grammaire, écrite dans un bel écriture appelée Nastaliq (qui ressemble à l'ourdou). Malgré une large communauté de locuteurs, elle est restée totalement invisible pour le monde de l'Intelligence Artificielle. Si vous aviez essayé de demander à un ordinateur intelligent d'« écouter » le Balti avant ce projet, ce serait comme demander à un chien de lire un livre ; l'ordinateur ne ferait que deviner au hasard, se trompant sur presque tout.

La Solution : Construire une salle de sport d'entraînement

Pour apprendre à un ordinateur à parler une langue, vous devez lui montrer des milliers d'exemples de personnes parlant cette langue. L'auteur, Muhammad Ali, s'est rendu sur un immense projet communautaire en ligne appelé Mozilla Common Voice. Voyez cela comme une cabine d'enregistrement mondiale où des bénévoles lisent des phrases à haute voix.

La Collection : Ali a rassemblé 16,8 heures de paroles enregistrées.
Le Volume : Cela équivaut à 10 060 phrases prononcées par 136 personnes différentes.
La Validation : Tout comme un professeur corrigeant des devoirs, d'autres bénévoles ont vérifié ces enregistrements pour s'assurer qu'ils étaient corrects.

Cette collection est désormais appelée le corpus BaltiVoice. C'est le premier « manuel scolaire » public pour enseigner aux ordinateurs la langue balti.

Le Professeur : Whisper et l'astuce de l'« Ourdou »

L'auteur n'a pas construit un cerveau informatique à partir de zéro. Au lieu de cela, il a utilisé un modèle d'IA préexistant et très intelligent appelé Whisper (plus précisément la version « small »).

Imaginez Whisper comme un étudiant polyglotte qui a déjà étudié 99 langues (comme l'anglais, l'espagnol et le mandarin) pendant des milliers d'heures. Cependant, cet étudiant n'a jamais entendu le Balti auparavant. Si vous demandiez à cet étudiant d'écouter le Balti en ce moment, il hallucinerait des absurdités, se trompant de 182 % sur les mots (ce qui signifie qu'il invente des mots qui n'ont même pas été dits).

Pour corriger cela, l'auteur a utilisé une astuce ingénieuse :

L'Analogie : Puisque le Balti est écrit en script Nastaliq (qui est très similaire à l'ourdou), l'auteur a dit à l'IA : « Hé, fais comme si c'était de l'ourdou un instant. »
L'Entraînement : L'IA a ensuite été « affinée » (fine-tuned). C'est comme prendre cet étudiant polyglotte et lui donner un cours intensif en utilisant les 16,8 heures d'enregistrements en Balti. L'étudiant devait écouter, lire le texte et apprendre les sons spécifiques du Balti.

Les Résultats : Du chaos à la clarté

Après environ 2 heures d'entraînement sur un ordinateur standard, les résultats sont spectaculaires :

Avant l'entraînement : L'IA devinait de manière sauvage (taux d'erreur de 182 %). Elle inventait essentiellement des choses.
Après l'entraînement : Les erreurs de l'IA sont tombées à 30 %.

Que signifie un taux d'erreur de 30 % ?
Imaginez l'IA écoutant une phrase. Si la phrase contient 10 mots, l'IA en aura environ 7 de corrects et 3 de faux.

Est-ce parfait ? Non. Ce n'est pas encore assez bon pour la dictée d'un médecin ou une transcription juridique où chaque mot doit être exact.
Est-ce utile ? Oui. Cela prouve que la langue peut être comprise par les machines. C'est la différence entre un aveugle qui trébuche dans l'obscurité et une personne qui peut désormais voir une faible lueur à l'horizon.

Pourquoi cela importe

Le document souligne que ce n'est pas seulement une question d'obtenir un score élevé ; il s'agit de lancer la conversation.

La Ligne de Base : Avant cela, il n'y avait aucun moyen de mesurer les progrès. Désormais, les chercheurs ont une « ligne de départ » pour courir.
Le Futur : L'auteur espère que cette « salle de sport » en open-source (les données et le modèle entraîné) permettra à d'autres scientifiques de venir, de faire plus d'entraînements et, finalement, de faire baisser ce taux d'erreur.

L'Essentiel à Retenir

Ce document est une étape fondamentale. Il a pris une langue qui était invisible pour l'IA, a construit une petite bibliothèque d'exemples parlés et a appris à un ordinateur intelligent comment l'écouter. Bien que l'ordinateur fasse encore des erreurs (environ un mot sur trois), il est passé de la « confusion totale » à la « compréhension des bases », ouvrant la porte à de futurs outils qui pourraient aider les locuteurs du Balti à interagir avec la technologie dans leur propre langue.

Résumé Technique : BaltiVoice

Énoncé du Problème
La langue Balti (ISO 639-3 : bft), parlée par environ 400 000 personnes au Gilgit-Baltistan (Pakistan) et dans certaines parties du Ladakh (Inde), a été historiquement absente de la recherche en traitement du langage naturel (NLP) et en reconnaissance automatique de la parole (ASR). Malgré sa nature de langue tibétique possédant une phonologie et une grammaire distinctes, et étant écrite en script Nastaliq adapté de l'ourdou, il n'existait aucune ressource ASR publique, aucun corpus de parole annoté, ni de système de référence pour cette langue. Par conséquent, les locuteurs n'ont pas accès aux interfaces vocales, aux logiciels de dictée et aux outils d'accessibilité dans leur langue maternelle, et les chercheurs n'ont aucun critère pour mesurer les progrès de l'ASR pour le Balti.

Méthodologie
Pour combler cette lacune, les auteurs ont développé BaltiVoice, un pipeline pour la collecte de données, le prétraitement et le réglage fin (fine-tuning) de modèles :

Construction du Jeu de Données : Le corpus a été dérivé d'un sous-ensemble Balti de Mozilla Common Voice. Les auteurs ont utilisé 10 060 énoncés validés (sur 10 547 clips enregistrés), totalisant 16,8 heures de parole. Les données consistent en des enregistrements de parole lue en script Nastaliq natif.
- Prétraitement : Les fichiers audio ont été convertis du format MP3 vers le format WAV mono 16 kHz. Les énoncés de moins de deux mots ont été filtrés.
- Division (Splitting) : Une division stricte par locuteur disjoint (GroupShuffleSplit, graine 42) a été appliquée pour garantir l'absence de chevauchement entre les locuteurs dans les ensembles d'entraînement et de validation. Cela a abouti à 9 519 énoncés d'entraînement (122 locuteurs) et 538 énoncés de validation (14 locuteurs).
- Normalisation : Aucne normalisation de texte n'a été appliquée ; la ponctuation a été conservée telle quelle. Les auteurs ont noté une limitation concernant l'ambiguïté Unicode dans le script Nastaliq (par exemple, des points de code différents pour des caractères visuellement identiques) mais ont reporté la normalisation systématique à des travaux futurs.
Architecture du Modèle et Entraînement :
- Modèle de Base : Le modèle Whisper-small (244 millions de paramètres) d'OpenAI a été sélectionné comme modèle de base. Il a été choisi de préférence aux variantes plus grandes (ex: Whisper-medium) en raison des contraintes de mémoire sur le GPU NVIDIA T4 utilisé pour l'entraînement.
- Tokenisation : Le tokenizer a été initialisé avec language="urdu" et task="transcribe". Ce choix est motivé par la similitude scripturale entre le Balti et l'ourdou (tous deux utilisent le Nastaliq), permettant au modèle de gérer correctement les caractères Unicode du Balti sans perte de caractères lors de la tokenisation aller-retour.
- Réglage Fin (Fine-tuning) : Le modèle a été affiné à l'aide du Seq2SeqTrainer de HuggingFace Transformers avec l'optimiseur AdamW, un taux d'apprentissage de $1 \times 10^{-5}$ et une précision fp16. L'entraînement s'est déroulé sur 1 000 étapes avec 16,8 heures de données, avec des points de contrôle (checkpoints) sauvegardés tous les 250 pas.

Contributions Clés
Le document présente trois artefacts principaux, tous publiés publiquement sur HuggingFace et GitHub :

Corpus BaltiVoice : Un corpus de parole lue de 16,8 heures et 10 060 énoncés avec des transcriptions en Nastaliq natif, publié sous licence CC0.
Whisper-small-balti : Un modèle ASR spécifiquement affiné pour la langue Balti.
Pipeline Reproductible : Code d'entraînement complet, un notebook Colab et une démo Gradio en direct pour la transcription.

Résultats
Le modèle affiné a démontré une amélioration significative par rapport à la ligne de base zero-shot :

Ligne de base Zero-Shot : Appliqué au Balti sans réglage fin, Whisper-small a produit un taux d'erreur par mot (WER) de 182,18 %. Les auteurs notent qu'un WER supérieur à 100 % indique que le modèle hallucine des mots absents de la référence, confirmant que le Balti se situe entièrement en dehors de la distribution de pré-entraînement du modèle.
Performance après Réglage Fin : Après 1 000 étapes d'entraînement, le modèle a atteint un WER de 30,07 % sur l'ensemble de validation mis de côté.
Analyse d'Erreur : Une analyse qualitative suggère que la plupart des erreurs sont des substitutions de caractères uniques à la fin des mots, ce qui est cohérent avec le fait que le modèle apprend les motifs lexicaux mais peine avec les complexités morphologiques de cette langue agglutinante. Les erreurs de suppression ou d'insertion de mots entiers étaient moins fréquentes.

Signification et Revendications
Les auteurs présentent la portée de ce travail comme l'établissement d'un point de départ mesurable pour une langue qui n'en possédait aucun auparavant.

Établissement d'une Référence : L'objectif principal est de fournir une base reproductible pour accélérer les recherches futures en NLP pour le Balti.
Faisabilité du Transfert à Faibles Ressources : La réduction du WER de 182 % à 30 % en utilisant seulement 16,8 heures de données suggère que le transfert interlinguistique à partir de langues apparentées (spécifiquement l'ourdou et le tibétain, qui partagent le script et des caractéristiques phonologiques) est efficace, même pour des langues absentes de la distribution de pré-entraînement.
Attentes Modestes : Les auteurs déclarent explicitement qu'un WER de 30 % est "trop élevé pour la dictée" ou les outils d'accessibilité générale, car il nécessite de corriger environ un mot sur trois. Cependant, ils soutiennent que le résultat peut être utilisable pour des tâches plus étroites comme la détection de mots-clés ou la détection de sujets où la transcription exacte est moins critique.
Directions Futures : Le document identifie des voies claires d'amélioration, incluant la normalisation textuelle pour la morphologie du Balti, l'expansion du corpus avec de la parole spontanée (conversationnelle), et l'expérimentation avec des variantes de modèles plus larges (ex: Whisper-medium) sous des budgets de calcul plus importants.

Le document conclut en soulignant la publication de tous les artefacts afin d'abaisser la barrière pour les recherches futures, tout en reconnaissant les limites telles que l'utilisation de données de parole lue plutôt que de conversation spontanée.

BaltiVoice: A Speech Corpus and Fine-tuned Whisper ASR System for the Balti Language