Doctor or Patient? Synergizing Diarization and ASR for Code-Switched Hinglish Medical Conditions Extraction

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée de ce papier de recherche, comme si on en discutait autour d'un café.

🏥 Le Défi : Entendre le médecin et le patient dans une tempête

Imaginez une consultation médicale dans un village rural en Inde. Le médecin et le patient parlent un mélange de hindi et d'anglais (ce qu'on appelle du "Hinglish"). C'est comme si vous essayiez de comprendre une conversation où les deux interlocuteurs parlent en même temps, se coupent la parole, et où le bruit de fond est assourdissant.

De plus, le patient utilise parfois des mots anglais écrits avec l'alphabet hindi (Devanagari). C'est un cauchemar pour les ordinateurs classiques : ils se perdent, confondent qui parle à qui, et ratent les informations vitales sur la santé du patient.

L'objectif de l'équipe ? Créer un système capable de trier ce chaos, identifier qui dit quoi, transcrire la conversation avec précision, et extraire automatiquement le diagnostic médical.

🛠️ La Solution : Une chaîne de montage intelligente

L'équipe a construit un système en trois étapes, comme une chaîne de montage très précise.

1. Le Chef d'Orchestre (La Diarisation)

Le problème : Dans une conversation rapide, les voix se mélangent. C'est comme essayer de suivre deux violonistes qui jouent en même temps dans une pièce bruyante.
La solution : Ils ont utilisé une technologie appelée EEND-VC. Imaginez un chef d'orchestre très doué qui, au lieu d'écouter la musique, regarde les mouvements des musiciens. Il sait instantanément : "Ah, c'est le médecin qui parle maintenant" ou "Non, c'est le patient qui reprend la parole".
L'astuce : Ils ont entraîné ce chef d'orchestre sur des milliers d'heures de conversations variées pour qu'il soit expert dans le mélange des voix, même quand elles se chevauchent.

2. Le Traducteur Expert (La Reconnaissance Vocale - ASR)

Le problème : Une fois qu'on sait qui parle, il faut écrire ce qu'il dit. Mais le texte est un mélange de langues et d'erreurs de prononciation.
La solution : Ils ont pris un modèle d'intelligence artificielle très puissant (Qwen3) et l'ont "spécialisé".
- L'analogie : Imaginez un traducteur universel qui ne connaît que l'anglais. Vous lui donnez un cours intensif de 1 800 heures de conversations médicales en hindi. Soudain, il devient un expert du jargon médical et des accents locaux.
- Le nettoyage : Ils ont aussi ajouté un "correcteur automatique" (un grand modèle de langage) qui relit le texte pour corriger les petites erreurs, comme un professeur qui corrige la copie d'un élève avant de la rendre.

3. Le Médecin Virtuel (L'Extraction des Conditions)

Le problème : Maintenant qu'on a le texte, il faut en extraire le diagnostic (ex: "le patient a de la fièvre").
La solution : Ils ont testé deux approches :
- Approche "Cascade" (Texte) : On donne le texte au médecin virtuel. C'est comme si vous lisiez le compte-rendu à un collègue.
- Approche "Directe" (Audio) : On donne l'enregistrement audio brut à un modèle très avancé (Gemini 3 Pro). C'est comme si le collègue écoutait la conversation directement, avec les intonations et les hésitations.

🏆 Les Résultats : Qui a gagné ?

L'équipe a participé à un grand concours (DISPLACE-M) avec 25 autres équipes.

Le Gagnant de la catégorie "Open Source" : Leur système en cascade (Chef d'orchestre + Traducteur + Médecin virtuel) a pris la 1ère place parmi les solutions gratuites et ouvertes. C'est une victoire énorme car ils ont rivalisé avec des géants payants.
Le Roi incontesté (Le "Plafond de verre") : Le modèle "Direct Audio" (Gemini 3 Pro) a été le meilleur absolu.
- Pourquoi ? Parce que parfois, le texte ne suffit pas. En écoutant directement la voix, le modèle capte des nuances (l'urgence dans la voix, les pauses) que la transcription écrite perd. C'est comme si un détective écoutait un suspect en direct plutôt que de lire un rapport écrit par un tiers.

💡 La Grande Leçon

Ce papier nous apprend deux choses essentielles :

La modularité est la clé : En séparant les tâches (séparer les voix, puis écrire, puis analyser), on peut améliorer chaque pièce du puzzle indépendamment. Si demain on trouve un meilleur "chef d'orchestre", on le remplace sans tout casser.
La qualité de la transcription est cruciale : Si le traducteur fait des erreurs, le médecin virtuel ne peut pas faire de miracle. Une bonne transcription est le fondement de tout le système.

En résumé : Cette équipe a réussi à construire une machine capable de comprendre des conversations médicales chaotiques en Inde, en utilisant des outils intelligents pour trier les voix et corriger les erreurs, prouvant que l'intelligence artificielle ouverte peut rivaliser avec les solutions les plus chères du marché.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'extraction automatique des conditions médicales à partir de dialogues cliniques oraux réels pose des défis majeurs, particulièrement dans le contexte des conversations Hinglish (mélange de Hindi et d'anglais) enregistrées dans des environnements bruyants et à distance. Les difficultés spécifiques identifiées sont :

Code-switching et fluidité linguistique : Les locuteurs alternent fréquemment entre l'hindi (écrit en script Devanagari) et l'anglais, compliquant les pipelines d'extraction standards.
Parole superposée (Overlapping speech) : Les interactions médecin-patient (DoPaCo) sont caractérisées par des prises de parole rapides et des chevauchements fréquents, rendant la diarisation (attribution de la parole à un locuteur) difficile.
Ressources limitées : Il existe un manque de données conversationnelles médicales multilingues de haute qualité, contrairement aux modèles propriétaires entraînés sur des corpus anglophones massifs.
Bruit et dynamique acoustique : Les enregistrements proviennent de travailleurs de santé communautaires (ASHA) en milieu rural, impliquant du bruit de fond et une parole spontanée.

2. Méthodologie

Les auteurs proposent une architecture en cascade modulaire (Diarisation → ASR attribué aux locuteurs → Extraction) ainsi qu'une approche multimodale End-to-End (E2E) pour comparaison.

A. Diarisation des locuteurs (Speaker Diarization)

Approche : Utilisation de l'approche EEND-VC (End-to-End Neural Diarization with Vector Clustering). Contrairement aux méthodes hybrides traditionnelles qui supposent une parole séquentielle, EEND modélise nativement les activations simultanées.
Architecture :
- Encodeur : Remplacement de WavLM-Base (pré-entraîné sur l'anglais) par w2v-bert2.0, un encodeur multilingue robuste (143 langues) mieux adapté au hindi conversationnel.
- Réseau de contexte : Comparaison entre des couches LSTM et des couches Mamba (modèle d'espace d'état sélectif). Les résultats montrent que les LSTM surpassent légèrement les Mamba dans ce contexte spécifique.
- Clustering : Utilisation d'un clustering k-means simple ( $k=2$ pour médecin et patient) sur les embeddings extraits, évitant les seuils complexes des méthodes hiérarchiques.
Entraînement : Pré-entraînement sur des corpus multi-domaines (DIHARD3, VoxConverse, etc.) suivi d'un fine-tuning sur le jeu de données DISPLACE-M (conversations de santé primaire en Inde).

B. Reconnaissance Automatique de la Parole Attribuée (SA-ASR)

Modèle : Adaptation du modèle Qwen3-ASR-1.7B (architecture encodeur-décodeur basée sur un LLM).
Stratégie : Le système de diarisation guide l'ASR pour ne transcrire que les segments actifs d'un locuteur spécifique, filtrant ainsi le bruit environnemental.
Prétraitement : Normalisation canonique du script Devanagari et de la ponctuation pour corriger les variations d'encodage Unicode.
Correction d'erreurs : Utilisation d'un LLM (GPT-4.1) pour une correction générative contextuelle (few-shot ICL) des erreurs de transcription (confusions phonétiques, mots brisés) tout en préservant le style parlé et le code-switching.
Données : Fine-tuning sur environ 1 800 heures de données hindi (FLEURS, IndicVoices, etc.) combinées aux données DISPLACE-M.

C. Extraction des Conditions Médicales

Deux approches sont comparées :

Cascade Textuelle : Traduction Hindi→Anglais (Llama 3.2) suivie de l'extraction (Qwen 2.5 ou Gemma 3). Cette méthode cumule les erreurs en amont.
Approche End-to-End (E2E) Multimodale : Utilisation directe de l'audio par un modèle multimodal (Gemini 3 Pro) pour extraire les conditions sans passer par la transcription textuelle intermédiaire, préservant ainsi les indices acoustiques et conversationnels.

3. Résultats Clés

Diarisation

L'architecture EEND-VC avec w2v-bert2.0 et un fine-tuning sur le domaine médical a permis d'atteindre un Taux d'Erreur de Diarisation (DER) de 7,76 % sur le jeu de test, surpassant la base DiariZen (9,31 %).
L'adaptation au domaine spécifique (fine-tuning) a apporté le gain de performance le plus significatif (réduction absolue de ~1,2 % du DER).

ASR (SA-ASR)

Le système final a atteint un tcpWER (Word Error Rate temporellement et locuteur-aligné) de 18,59 %.
Cela représente une réduction relative de 31 % par rapport à la base de référence (IndicConformer à 26,78 %).
Les étapes clés de cette amélioration sont : l'adaptation au domaine (19,61 %), la normalisation Unicode (19,27 %) et la correction générative par LLM (18,59 %).

Extraction des Conditions Médicales

Approche E2E (Audio pur) : Le modèle propriétaire Gemini 3 Pro en configuration zero-shot a obtenu le meilleur score global (ROUGE-1 = 45,60), démontrant que contourner la chaîne de transcription/translation préserve des informations cruciales.
Approche Cascade (Open Source) : Le système en cascade optimisé (avec Gemma 3 12B et 6-shot) a atteint un ROUGE-1 de 28,97. Bien que inférieur à l'E2E propriétaire, ce résultat est compétitif et a permis à l'équipe (ILIP1) de prendre la première place parmi 25 participants au défi DISPLACE-M.
Analyse de synergie : Une étude d'ablation montre que l'amélioration de la diarisation seule ne suffit pas ; elle doit être couplée à un ASR robuste pour se traduire par une meilleure extraction finale.

4. Contributions Principales

Système de Diarisation Robuste : Développement d'un système EEND-VC adapté aux conversations médecins-patients avec parole superposée dense et code-switching.
Adaptation ASR Spécifique : Adaptation réussie d'un modèle LLM (Qwen3) au domaine médical et linguistique (Hindi/Devanagari), incluant la normalisation du script et la correction d'erreurs par LLM.
Pipeline Open Source Performant : Création d'une architecture en cascade entièrement open-source qui rivalise avec les modèles propriétaires fermés, validée par la victoire au défi DISPLACE-M.
Analyse de Synergie : Démonstration que la qualité de la transcription (SA-ASR) est le goulot d'étranglement principal ; les améliorations en amont (diarisation) ne profitent à l'extraction que si l'ASR est également optimisé.

5. Signification et Impact

Ce travail est significatif car il adresse le problème critique de l'automatisation des dossiers médicaux dans les pays en développement, où les ressources linguistiques sont rares et les conditions d'enregistrement difficiles.

Reproductibilité : Toutes les implémentations sont publiées publiquement, favorisant la recherche reproductible.
Confidentialité : L'approche modulaire permet de remplacer les composants sans réentraîner tout le système, et l'utilisation de modèles open-source offre une alternative aux solutions propriétaires fermées, cruciale pour la confidentialité des données médicales.
Preuve de concept : Il démontre qu'une architecture en cascade soigneusement optimisée peut approcher les performances des modèles E2E multimodaux propriétaires, offrant une voie viable pour le déploiement dans des environnements à ressources limitées.