Auteurs originaux : Attia Nafees ul Haq, Zeyu Zhu, Jingbin Hu, ChunJiang He, Lei Xie

Publié 2026-05-19✓ Author reviewed ⓘ

📖 5 min de lecture🧠 Analyse approfondie

Auteurs originaux : Attia Nafees ul Haq, Zeyu Zhu, Jingbin Hu, ChunJiang He, Lei Xie

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Imaginez le monde de l'intelligence artificielle (IA) comme une immense bibliothèque. Pendant des années, cette bibliothèque a été stockée avec des livres en anglais, en mandarin et en espagnol, mais la section dédiée à l'ourdou—une langue parlée par plus de 230 millions de personnes—était presque vide. C'est comme essayer d'enseigner à un robot à parler une langue en utilisant seulement quelques brochures dispersées et poussiéreuses.

Ce document présente UrduSpeech, une nouvelle « étagère » massive conçue pour corriger ce déséquilibre. Voici un résumé simple de ce que les chercheurs ont construit et de la manière dont ils l'ont fait.

1. Le Problème : Une Langue Abandonnée

L'ourdou est unique car il s'écrit de droite à gauche (comme l'arabe) et mélange souvent des mots anglais dans les phrases (un peu comme une personne qui alterne entre deux dialectes en racontant une histoire). À cause de ces particularités, les outils IA standards sont souvent confus, traitant l'ourdou comme l'hindi ou échouant à comprendre lorsque le locuteur change de langue. Les chercheurs voulaient créer une ressource qui respecte ces défis spécifiques.

2. La Solution : Une « Bibliothèque Sonore » de 156 Heures

L'équipe a créé UrduSpeech, une collection de 156 heures d'audio de haute qualité. Pour vous donner une idée, si vous l'écoutiez sans interruption, il vous faudrait plus de six jours pour la terminer.

Ils n'ont pas simplement jeté du bruit aléatoire dans un dossier. Ils ont organisé cette bibliothèque en trois « salles » spécifiques (sous-ensembles) :

US-Std : Ourdou pakistanais standard (la version formelle, « scolaire »).
US-CS : Ourdou à code-switching (où les locuteurs mélangent naturellement l'ourdou et l'anglais, comme en disant « J'ai besoin d'un chai et d'un coffee »).
US-EngPk : Anglais parlé avec un accent pakistanais.

3. Comment Ils L'Ont Construit : Le Pipeline « Filtre Intelligent »

Rassembler ces données était comme essayer de trouver des gemmes spécifiques dans un tas de roches. Ils ont collecté 200 heures d'audio sur Internet (YouTube) et dans de vieilles archives (comme des émissions de télévision des années 1980). Pour nettoyer le tout, ils ont utilisé un processus en trois étapes :

Étape 1 : Le Réducteur de Bruit : Ils ont utilisé des outils d'IA pour éliminer le bruit de fond (comme la circulation ou le vent) et séparer les différentes voix dans une conversation, garantissant que seul le locuteur principal était enregistré.
Étape 2 : Le « Rédacteur Strict » (LLM) : Ils ont utilisé une IA puissante (Gemini 2.5 Pro) pour agir comme un rédacteur strict. Cette IA a reçu des instructions spéciales : « Ne traduisez pas les mots anglais en script ourdou ; gardez-les tels qu'ils sonnent », et « Ne confondez pas l'ourdou avec l'hindi ». Elle a également vérifié l'audio pour 12 « tags » d'ambiance différents (paralinguistiques), tels que l'âge du locuteur, l'émotion, la texture de la voix (est-elle rauque ou douce ?) et l'accent.
Étape 3 : Le Filet de Sécurité Humain : Avant que les données ne soient finalisées, des locuteurs natifs de l'ourdou ont écouté des échantillons pour s'assurer que l'IA ne commettait pas d'erreurs. Ils ont agi comme les derniers inspecteurs de contrôle qualité.

4. Le Référentiel « Or »

Pour prouver que leur bibliothèque était bonne, ils ont créé un ensemble « Or » de 9 heures. Il s'agit d'une petite collection parfaitement sélectionnée que des humains ont vérifiée et corrigée manuellement. Ils l'ont utilisée pour tester différents modèles de transcription IA.

Le Résultat : Ils ont constaté que la plupart des modèles IA existants luttaient avec l'ourdou, se trompant souvent sur les mots ou confondant les scripts. Cependant, le modèle qu'ils ont choisi (Gemini 2.5 Pro) a bien mieux performé, agissant comme un locuteur natif qui comprenait les nuances de la langue.

5. Qu'y a-t-il dans la Bibliothèque ?

La collection finale contient 71 792 clips audio distincts. Elle est incroyablement diversifiée :

Contenu : Elle inclut tout, des actualités et des drames à la poésie, aux vlogs, et même à des formes rares de poésie parlée appelées Bait-Bazi.
Personnes : Elle présente un mélange équilibré d'hommes et de femmes, et de locuteurs de tous âges, des enfants aux personnes âgées.
Qualité : Lorsque des humains ont écouté l'audio, ils lui ont attribué un score élevé (4,6 sur 5), confirmant que les voix sont claires et les transcriptions exactes.

6. Pourquoi Cela Compte

Pensez aux anciens jeux de données ourdou comme à une petite pièce fermée à clé avec quelques chaises. UrduSpeech est une vaste salle ouverte avec des milliers de places, remplie de personnes de tous horizons parlant de toutes les manières dont ils parlent réellement.

Les chercheurs ont rendu cette bibliothèque gratuite et ouverte à tous. En fournissant ces données de haute qualité et bien organisées, ils espèrent aider les développeurs d'IA à créer de meilleurs outils pour les locuteurs d'ourdou, garantissant que cette langue majeure ne soit plus exclue du futur numérique.

En résumé : Ils ont construit une immense bibliothèque sonore méticuleusement organisée pour l'ourdou, corrigé les erreurs commises par les autres outils d'IA, et prouvé qu'avec le bon travail d'équipe entre humains et machines, même la parole complexe et multilingue peut être parfaitement comprise.

Résumé Technique : UrduSpeech

1. Énoncé du Problème

Malgré un nombre d'environ 230 millions de locuteurs, l'ourdou reste critique en termes de ressources dans le domaine des technologies de la parole. Les ressources existantes échouent à répondre aux défis linguistiques et acoustiques spécifiques inhérents à cette langue, notamment :

Contraintes du Script : Le script Perso-Arabe de droite à gauche (RTL).
Changement de Code : L'omniprésence du changement de code ourdou-anglais (CS).
Similarité Acoustique : La proximité acoustique de l'ourdou avec l'hindi, entraînant des erreurs de classification fréquentes.
Absence de Données Spécialisées : Une pénurie de données haute fidélité pour des tâches nuancées telles que la compréhension de lecture par machine, la détection de deepfakes et la reconnaissance des émotions de la parole.
Lacunes en Ressources : Les jeux de données existants (par exemple, ARL Urdu, Common Voice) souffrent souvent de licences restrictives, de coûts élevés, d'une diversité limitée des locuteurs ou d'un manque de métadonnées paralinguistiques.

2. Méthodologie

Les auteurs ont développé UrduSpeech, un corpus de 156 heures, grâce à un pipeline de curation multi-étapes piloté par un LLM, conçu pour gérer des audio « in-the-wild » (en conditions réelles).

Collecte et Prétraitement des Données

Sources : 200 heures d'audio brut ont été agrégées à partir de YouTube et des journaux d'archives de la télévision pakistanaise (PTV) couvrant quatre décennies (années 1980 à aujourd'hui).
Prétraitement :
- Séparation de Sources : Passage de Spleeter au modèle Demucs pour une isolation vocale efficace.
- Diarisation des Locuteurs : Utilisation de Pyannote 3.1 pour séparer les locuteurs, suivie d'un alignement global manuel pour assurer la cohérence des identifiants.
- Filtrage : Les segments inférieurs à 2 secondes, les clips mono-locuteur et ceux dépassant 35 secondes ont été écartés. Ce processus a éliminé 44 heures de bruit résiduel, aboutissant à un corpus final de 156 heures.

Sélection et Étalonnage des Modèles

Une étude pilote de 13 heures a été menée pour sélectionner le modèle de transcription optimal. Trois modèles ont été évalués par rapport à une vérité terrain de locuteurs natifs :

Whisper-large-v3 : A échoué sur les audio à changement de code, transcrivant souvent l'anglais en script ourdou plutôt que de maintenir le contenu littéral.
OmniASR-LLM-1B : A produit des hallucinations en arabe/persan et présenté des boucles de mots sur des segments accentués.
Gemini-2.5-Pro : Sélectionné comme modèle supérieur grâce à sa conscience sémantique et ses capacités d'ingénierie de prompt. Il a obtenu le taux d'erreur de mots (WER) le plus bas et a réussi à maintenir la fidélité du script (ourdou vs hindi) et la transcription littérale lors des changements de code.

Pipeline d'Annotation

Une stratégie de prompt en deux étapes utilisant Gemini 2.5-Pro a été employée :

Transcription : Les prompts ont imposé des contraintes strictes pour empêcher le mélange des scripts hindi/dévanaâri et ont mandaté une transcription littérale pour les changements de code.
Métadonnées Paralinguistiques : Un second prompt a généré 12 étiquettes de métadonnées dimensionnelles (par exemple, hauteur, texture, rythme, âge, accent) pour chaque segment.

Contrôle Qualité : Les segments avec des scores de confiance du modèle inférieurs à 0,6 ont été écartés. Le jeu de données final comprend 71 792 clips diarisés.

Validation Centrée sur l'Humain

Jeu de Référence (Benchmark) : Un sous-ensemble de 9 heures (US-Benchmark) comprenant US-Std, US-CS et US-EngPk a été corrigé manuellement par des annotateurs natifs pour servir de vérité terrain.
Évaluation : 180 clips ont été échantillonnés sur trois niveaux de complexité et évalués par six locuteurs natifs de l'ourdou utilisant une échelle de Likert à 5 points (protocole ITU-T P.800).
Métriques : Qualité audio, précision de transcription, démographie, prosodie, affect, articulation et précision contextuelle ont été évalués.

3. Contributions Clés

Pipeline UrduSpeech : Un cadre robuste capable de filtrer l'audio brut, d'effectuer la diarisation des locuteurs, de gérer les contraintes RTL et de différencier l'hindi de l'ourdou dans des environnements à changement de code.
Jeu de Référence US-Benchmark : Un ensemble de référence de 9 heures, vérifié manuellement, avec des métadonnées paralinguistiques à 12 dimensions, établissant une nouvelle vérité terrain pour l'analyse des erreurs.
Corpus UrduSpeech : Un corpus open-source de 156 heures contenant :
- 59,2 heures de US-Std (Ourdou Pakistanais Standard).
- 89,4 heures de US-CS (Ourdou-Anglais à changement de code).
- 7,3 heures de US-EngPk (Anglais avec accent pakistanais).
- 71 792 énoncés avec des étiquettes paralinguistiques complètes (émotion, texture, accent).
Évaluation SOTA : Une évaluation approfondie de Gemini 2.5-Pro, Whisper-large-v3 et OmniASR-LLM-1, établissant des références pour la transcription haute fidélité en ourdou.

4. Résultats

Performance de Transcription : Gemini-2.5-Pro a considérablement surpassé les autres modèles, atteignant un WER de 0,023 (sans changement de code) et 0,028 (avec changement de code), contre environ 0,28–0,53 pour Whisper et OmniASR.
Évaluation de la Qualité Humaine :
- Score d'Opinion Moyenne (MOS) : Le corpus a obtenu un MOS global de 4,64 ( $\sigma = 0,74$ ).
- Fiabilité : 92,78 % des notes étaient de 4 ou 5. La fiabilité inter-évaluateurs a montré un $\kappa$ de Cohen de 0,678 pour l'ensemble B et de 0,545 pour l'ensemble C.
- Confiance : Le pipeline de curation a démontré un score de confiance de 97,6 % basé sur les sorties du modèle et la validation humaine.
Démographie : Le corpus maintient un équilibre 60/40 entre les genres (42 990 énoncés masculins contre 28 802 féminins) et inclut divers groupes d'âge (Jeune Adulte, Âge Mûr, Enfant, Personne Âgée).
Distribution : Les données couvrent 12 catégories incluant les actualités, le drame, la poésie, les vlogs et des formes littéraires rares comme le Bait-Bazi.

5. Signification et Revendications

L'article positionne UrduSpeech comme un bond significatif vers l'inclusivité linguistique dans l'IA mondiale. Sa signification principale réside dans :

Combler le Fossé Numérique : Fournir une représentation linguistique précise pour une langue comptant 230 millions de locuteurs, qui a été sous-desservie par les modèles de base multimodaux.
Métadonnées Granulaires : Être la première ressource à intégrer un cadre de métadonnées paralinguistiques à 12 dimensions, permettant une analyse des erreurs haute résolution et des recherches en informatique affective et en profilage des locuteurs.
Aborder le Changement de Code : S'attaquer spécifiquement au fossé « in-the-wild » en fournissant un jeu de données à grande échelle pour le changement de code ourdou-anglais et l'anglais à accent pakistanais.
Science Ouverte : Contrairement à de nombreux jeux de données fondamentaux qui sont sous licence ou payants, le corpus et le pipeline sont open-sourcés, visant à faciliter la recherche future en ourdou et dans d'autres langues à script Perso-Arabe sous-dotées.

Les auteurs notent des limitations, notamment une estimation conservatrice des locuteurs uniques (plus de 1 000 contre 3 000 clusters détectés) due à une sur-segmentation potentielle dans les enregistrements sauvages, et la présence de bruit de fond résiduel dans certains segments. Les travaux futurs sont orientés vers l'établissement de références de base pour la RSP/TTS et la mise en œuvre d'un alignement forcé pour une précision au niveau du mot.

UrduSpeech: A 156-Hour Urdu Speech Corpus with 12-Dimension Paralinguistic Annotations