Doctor or Patient? Synergizing Diarization and ASR for Code-Switched Hinglish Medical Conditions Extraction

Dit paper introduceert een robuust, open-source cascade-systeem dat EEND-VC voor spreker-diarisatie en een aangepaste Qwen3 ASR-modellen combineert om medische aandoeningen uit overlappende Hinglish-gesprekken te extraheren, waarmee het de eerste plaats behaalde in de DISPLACE-M-uitdaging.

Séverin Baroudi, Yanis Labrak, Shashi Kumar, Joonas Kalda, Sergio Burdisso, Pawel Cyrta, Juan Ignacio Alvarez-Trejos, Petr Motlicek, Hervé Bredin, Ricard Marxer

Gepubliceerd Mon, 09 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je in een drukke, kleine kamer bent waar een dokter en een patiënt praten. Ze spreken een mix van Hindi en Engels (wat we "Hinglish" noemen), en ze onderbreken elkaar voortdurend. Soms praten ze tegelijk, soms is er veel lawaai op de achtergrond. Het is alsof twee mensen tegelijkertijd een gesprek voeren terwijl er een radio op de achtergrond staat die hard aan staat.

De uitdaging voor computers is: Wie zegt wat, en wat is er precies gezegd? En nog belangrijker: Wat is de medische klacht van de patiënt?

Dit paper beschrijft hoe een team van onderzoekers een slimme "vertaal- en luistermachine" hebben gebouwd om dit probleem op te lossen. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De Luisteroefen (Speaker Diarization)

Stel je voor dat je een gesprek opneemt, maar je weet niet wie wie is. De computer moet eerst leren onderscheid maken tussen de "Dokter" en de "Patiënt", zelfs als ze tegelijkertijd praten.

  • Het probleem: De oude methoden waren als een luie luisteraar die dacht: "Als ze tegelijk praten, praat ik maar niets op." Of ze dachten dat er maar één persoon tegelijk kon praten.
  • De oplossing: De onderzoekers gebruikten een nieuwe techniek genaamd EEND-VC. Denk hierbij aan een super-scherpe geluidsdetectie die twee hoofdjes heeft. Het is alsof je twee gespecialiseerde luisteraars hebt die elk een ander hoofdtelefoon opzetten. De ene luistert alleen naar de dokter, de andere alleen naar de patiënt. Zelfs als ze schreeuwen, kan de computer zeggen: "Ah, dat was de dokter die 'koorts' zei, en de patiënt zei 'ik voel me niet goed'."

2. De Vertaler (ASR - Automatic Speech Recognition)

Zodra de computer weet wie wat zegt, moet het gesprek in tekst omgezet worden. Maar dit is lastig omdat ze in een mix van talen praten en soms in het Devanagari-schrift (het schrift voor Hindi) Engels woorden spellen.

  • Het probleem: Standaard vertalers raken in de war. Ze denken dat "koorts" een Engels woord is, of ze verwarren geluiden.
  • De oplossing: De onderzoekers namen een zeer slimme AI (Qwen3) en gaven hem een "medische training". Ze lieten hem urenlang luisteren naar echte doktersgesprekken in India.
    • Ze leerden de AI om de "spelling" van Hindi-woorden die Engels klinken, correct te begrijpen.
    • Ze gaven de AI een "nabewerker" (een tweede AI) die de tekst leest en foutjes corrigeert, alsof een redacteur een verslag naleest.
  • Het resultaat: De machine maakt nu veel minder fouten dan voorheen. Het is alsof je van een beginnende vertaler bent gegaan naar een ervaren tolk die ook nog eens een medische achtergrond heeft.

3. De Diagnose (Medical Conditions Extraction)

Nu hebben we een tekst, maar wat is de echte medische klacht?

  • De oude manier (De Cascade): Eerst de audio omzetten in tekst, dan de tekst vertalen naar Engels, en dan de AI vragen: "Wat is de ziekte?"
    • Gevolg: Elke stap introduceert fouten. Het is alsof je een boodschap doorgeeft aan vijf mensen; aan het einde is de boodschap vaak verdraaid.
  • De nieuwe manier (End-to-End): De AI krijgt direct de audio te horen en mag direct de ziekte noemen, zonder eerst tekst te schrijven.
    • Gevolg: Dit werkt het beste (zoals een ervaren dokter die direct luistert en diagnose stelt zonder te typen). De "slimme" commerciële AI's (zoals Gemini) waren hierin het allerbeste.

De Grote Overwinning

Het team won de DISPLACE-M uitdaging (een wedstrijd voor dit soort problemen) met hun eigen, openbare systeem.

  • Waarom wonnen ze? Omdat hun systeem heel goed was in het scheiden van de stemmen (stap 1) en het correct vertalen (stap 2).
  • De les: Zelfs als je geen dure, gesloten AI gebruikt, kun je winnen als je de onderdelen slim combineert. Het is als een goed georganiseerd team: als de luisteraars (stap 1) en de vertalers (stap 2) perfect samenwerken, is het eindresultaat geweldig.

Kortom: Ze hebben een slimme machine gebouwd die in een luid, chaotisch gesprek tussen een Indiase dokter en een patiënt precies kan horen wie wat zegt, en vervolgens de medische klacht eruit haalt. Dit helpt om gezondheidszorg in dorpen te verbeteren, waar mensen vaak in een mix van talen praten en waar computers het tot nu toe moeilijk hadden.