WhisperAlign: Word-Boundary-Aware ASR and WhisperX-Anchored Pyannote Diarization for Long-Form Bengali Speech

Dit artikel beschrijft een oplossing voor de DL Sprint 4.0 die door middel van woordgrens-bewuste ASR met WhisperX en op het Bengaalse corpus gefinetuned Pyannote-diariaisatie, de nauwkeurigheid van transcriptie en sprekeridentificatie in lange, meerspreker-Bengaalse opnames aanzienlijk verbetert.

Aurchi Chowdhury, Rubaiyat -E-Zaman, Sk. Ashrafuzzaman Nafees

Gepubliceerd 2026-03-06
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

🎙️ De Grote Bengalese Vertaal- en Splitserswedstrijd

Stel je voor dat je een uur lang een drukke vergadering in het Bengaals opneemt. Er zijn meerdere mensen die praten, soms tegelijkertijd, en er is veel achtergrondruis. Nu moet je twee dingen doen:

  1. Wat zeggen ze? (De tekst uitschrijven).
  2. Wie zegt het? (Iedere spreker een eigen naam geven).

Dit is precies wat de auteurs van dit paper (Aurchi, Rubaiyat en Nafees) hebben gedaan voor een wedstrijd. Ze hebben een slimme "robot" gebouwd die dit veel beter doet dan de standaardsoftware. Hier is hoe ze het aanpakken, vertaald naar alledaagse beelden.


Deel 1: Het Schrijven van de Tekst (ASR)

Het Probleem:
Stel je voor dat je een heel lang verhaal probeert te typen, maar je mag alleen maar 30 seconden per keer typen. Als je de audio gewoon in stukjes van 30 seconden knipt (zoals een schaar die willekeurig knipt), kun je midden in een woord gaan zitten.

  • Vergelijking: Het is alsof je een zin als "Ik ga naar de..." afsnijdt en de volgende zin begint met "...winkel". De computer raakt in de war, denkt dat je "winkel" zegt terwijl je "ga" bedoelde, en begint dingen te verzinnen die niet bestaan (hallucinaties).

De Oplossing: De "Woord-Rail" Methode
De auteurs hebben een slimme truc bedacht om de audio in stukjes te knippen die nooit midden in een woord vallen.

  1. De Schaar met een Magneet: Ze gebruiken eerst een "Silero VAD" (een slimme luisteraar) die alleen de momenten opvangt waar mensen echt praten en het stilte en ruis weggooit.
  2. De Precieze Knip: Vervolgens gebruiken ze een speciaal hulpmiddel (Whisper-timestamped) dat elk woord een tijdstempel geeft. Ze knippen de audio dus precies op de grens tussen woorden.
  3. De Puzzel: Ze nemen de echte tekst (die ze al hadden) en koppelen die aan de tijdstempels van de audio. Als de computer een woord mist, vullen ze het gat op met een rechte lijn (interpolatie).
  4. Het Resultaat: De computer krijgt nu stukjes audio van ongeveer 26 seconden, die altijd beginnen en eindigen met een heel woord. Het is alsof je een lange trein in wagons verdeelt, waarbij je nooit een wagon doormidden snijdt.

Het Effect:
Door deze "schone" stukjes te gebruiken om de computer te trainen, viel de foutenrate (WER) enorm. De computer maakt veel minder fouten omdat hij niet meer hoeft te raden waar een zin begint of eindigt.


Deel 2: Het Herkennen van Sprekers (Diarization)

Het Probleem:
Stel je voor dat je in een drukke café zit en probeert te zeggen wie wat zegt. Standaardsoftware denkt vaak dat twee mensen tegelijk praten (overlapping), of dat iemand praat terwijl er niemand is (ruis).

  • Vergelijking: Het is alsof je twee verschillende horloges hebt die niet synchroon lopen. Het ene horloge (de tekst) zegt "12:00", het andere (de spreker) zegt "12:05". Daardoor kloppen de namen niet bij de juiste zinnen.

De Oplossing: De "Scherpe Splitsers"

  1. Leren van de Lokale Cultuur: De standaardsoftware is getraind op Engels of andere talen. De auteurs hebben de "hersenen" van de software (het segmentatiemodel) specifiek getraind op Bengaalse gesprekken. Ze hebben de software geleerd hoe Bengalese mensen praten, pauzeren en elkaar onderbreken.
  2. De "Eén Spreker per Moment" Regel: In de wedstrijd mocht er maar één spreker tegelijk zijn. De software heeft een ingebouwde knop ("exclusive_speaker_diarization") die zorgt dat als twee mensen lijken te praten, de software beslist wie de "hoofdrolspeler" is op dat moment. Het is alsof een scheidsrechter die beslist wie de bal mag raken, zodat er geen dubbele scores zijn.
  3. De Dubbelcheck (De "AND" Operatie): Dit is de grootste winst. De tekst-generator en de spreker-detectie gebruiken twee verschillende methoden om te horen of er gesproken wordt. De auteurs hebben deze twee methoden laten "handdrukken" (een logische AND).
    • Vergelijking: Stel je voor dat je een deur hebt. De tekst-generator zegt: "Er is iemand binnen." De spreker-detectie zegt: "Er is iemand binnen." Maar als de tekst-generator zegt "Ja" en de spreker-detectie zegt "Nee" (bijvoorbeeld bij ruis), dan sluit de deur. Alleen als beide systemen het eens zijn, wordt er een spreker geregistreerd. Hierdoor verdwijnen alle "geestelijke" sprekers die alleen door ruis werden veroorzaakt.

De Grote Overwinning

Door deze twee slimme strategieën te combineren, hebben de auteurs een systeem gebouwd dat:

  • Minder fouten maakt: De tekst is veel nauwkeuriger (van 67% fouten naar 25%).
  • Beter luistert: De sprekers worden veel beter herkend, zelfs als ze elkaar onderbreken.
  • Efficiënt is: Ze hebben niet de hele computer opnieuw moeten bouwen, maar alleen de specifieke onderdelen aangepast die het probleem veroorzaakten (zoals het vervangen van de verkeerde schaar en het synchroniseren van de horloges).

Kortom: Ze hebben de computer niet dwars laten zitten met een lange, rommelige audio-opname, maar hebben eerst de audio opgeschoond, in perfecte stukjes geknipt, en vervolgens twee systemen laten samenwerken om te zorgen dat alleen de echte gesprekken worden opgetekend. Een perfecte oplossing voor een taal die vaak over het hoofd wordt gezien in de tech-wereld.