WhisperAlign: Word-Boundary-Aware ASR and WhisperX-Anchored Pyannote Diarization for Long-Form Bengali Speech

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben eine extrem lange, laute Partyaufnahme auf Kassette, die eine Stunde lang dauert. Auf dieser Aufnahme reden zehn verschiedene Leute gleichzeitig, reden sich ins Wort, unterbrechen sich und machen Pausen. Ihre Aufgabe ist es, zwei Dinge zu tun:

Transkribieren: Schreiben Sie genau auf, was jeder gesagt hat (Text).
Diarisierung: Markieren Sie, wer zu welchem Zeitpunkt gesprochen hat (Wer spricht wann?).

Das Problem: Die Sprache ist Bengalisch, und die meisten Computer-Programme sind wie Touristen, die nur Englisch oder Spanisch verstehen. Sie stolpern über die Sprache, hören in den Pausen nur Rauschen und denken sich Dinge aus, die gar nicht gesagt wurden (sogenannte "Halluzinationen").

Dieses Papier beschreibt, wie ein Team von Studenten (Aurchi, Rubaiyat und Sk. Ashrafuzzaman) einen cleveren "Schweizer Taschenmesser"-Ansatz entwickelt hat, um dieses Chaos zu ordnen. Hier ist die Erklärung ihrer Lösung, einfach und mit Analogien:

1. Das Transkribieren: Der "Wort-genaue Scherenschneider"

Das Problem:
Stellen Sie sich vor, Sie schneiden ein langes Brot in Scheiben, um es zu essen. Wenn Sie die Scheiben zufällig schneiden, landen Sie mitten auf einem Stück Brot oder einem Stück Käse. Das schmeckt nicht gut und ist schwer zu essen. Genau das passiert bei Computern: Wenn sie lange Audiodateien in feste 30-Sekunden-Stücke schneiden, schneiden sie oft mitten in ein Wort hinein. Der Computer ist verwirrt und fängt an zu halluzinieren ("Ich habe 'Apfel' gehört", obwohl da gar kein Apfel war).

Die Lösung:
Das Team hat einen "intelligenten Scherenschneider" gebaut.

Schritt 1 (Stille entfernen): Zuerst wird das Rauschen und die Stille herausgeschnitten. Nur die Rede bleibt übrig.
Schritt 2 (Wort-Timestamps): Statt willkürlich zu schneiden, nutzen sie ein Werkzeug (Whisper), das genau weiß, wann ein Wort beginnt und endet. Es ist, als hätte jeder Satz unsichtbare Markierungen zwischen den Wörtern.
Schritt 3 (Saubere Schnitte): Der Computer schneidet das Audio nur an diesen unsichtbaren Markierungen. Kein Wort wird halb abgeschnitten.
Schritt 4 (Feinschliff): Diese sauberen Stücke werden genutzt, um den Computer für die bengalische Sprache zu "trainieren". Man sagt ihm quasi: "Schau, so klingt ein ganzer Satz in Bengalisch."

Das Ergebnis: Der Computer macht viel weniger Fehler, weil er nie mitten in einem Wort unterbrochen wird. Die Fehlerquote (WER) sank drastisch von 67% auf nur noch 25%.

2. Die Sprecher-Erkennung: Der "Tanzlehrer für Bengalisch"

Das Problem:
Stellen Sie sich vor, Sie versuchen, einen Tanz zu beschreiben, bei dem mehrere Leute gleichzeitig tanzen. Ein Standard-Tanzlehrer (ein normales KI-Modell) kennt nur den Tango aus Europa. Wenn er bengalische Tänzer sieht, die sich anders bewegen und überlappend tanzen, wird er verwirrt und sagt: "Das ist Person A, dann Person B, dann wieder A", obwohl sie sich vielleicht die ganze Zeit über die Rede geteilt haben.

Die Lösung:
Das Team hat den Tanzlehrer speziell für diese Party geschult.

Spezialisierung: Sie haben nicht den ganzen riesigen Tanzlehrer neu erfunden, sondern nur den "Schulungsabschnitt" (das Segmentierungs-Modell) angepasst. Das ist wie ein Tanzlehrer, der nur die spezifischen Schritte dieser einen bengalischen Party lernt, statt alles neu zu lernen.
Der "Ein-Wort-zu-einem-Zeit"-Trick: Die Regeln des Wettbewerbs sagten: "Niemand darf gleichzeitig sprechen." Das ist in der Realität oft falsch, aber der Computer muss es so tun. Das Team nutzte eine Funktion, die Überlappungen automatisch auflöst, indem sie sagt: "Wenn zwei Leute gleichzeitig reden, zählt nur der, der zuerst angefangen hat." Das verhindert, dass der Computer verwirrt wird.
Der "Doppel-Check" (VAD-Intersection): Hier kommt der Clou. Der Transkriptions-Computer (Whisper) und der Sprecher-Computer (Pyannote) nutzen beide unterschiedliche "Ohren", um zu hören, wann jemand spricht. Manchmal hören sie unterschiedlich. Das Team hat die Ergebnisse beider "Ohren" verglichen. Nur wenn beide sagen "Hier wird gesprochen", wird es als Rede markiert. Alles andere wird als Stille gelöscht. Das entfernt alle "Geisterstimmen".

3. Warum war das so erfolgreich?

Stellen Sie sich vor, Sie bauen ein Haus.

Die anderen Teams haben versucht, das Haus mit einem Hammer zu bauen, indem sie Ziegelsteine (Audio-Schnipsel) wild aufeinander schlugen.
Dieses Team hat erst eine Präzisions-Säge gebaut (die Wort-genaue Schnitte), dann den Boden für die bengalische Sprache geebnet (Feinabstimmung des Modells) und schließlich ein Sicherheitsnetz gespannt (der Doppel-Check), damit nichts durchfällt.

Die Ergebnisse:

Text: Die Fehlerquote beim Schreiben sank massiv.
Sprecher: Die Fehler beim Zuordnen der Sprecher sanken von über 40% auf unter 25%.

Fazit:
Das Team hat gezeigt, dass man nicht unbedingt einen riesigen, teuren Supercomputer braucht, um lange bengalische Gespräche zu verstehen. Man braucht stattdessen Intelligenz beim Schneiden (niemals mitten im Wort schneiden) und Disziplin beim Abgleich (nur das akzeptieren, was beide Systeme bestätigen). Sie haben aus einem chaotischen Durcheinander eine saubere, lesbare Geschichte gemacht.

WhisperAlign: Word-Boundary-Aware ASR and WhisperX-Anchored Pyannote Diarization for Long-Form Bengali Speech

1. Das Transkribieren: Der "Wort-genaue Scherenschneider"

2. Die Sprecher-Erkennung: Der "Tanzlehrer für Bengalisch"

3. Warum war das so erfolgreich?

Titel: WhisperAlign: Wortgrenzenbewusste ASR und WhisperX-verankerte Pyannote-Diarisierung für lange bengalische Sprachaufnahmen

1. Problemstellung

2. Methodik und Architektur

3. Schlüsselbeiträge (Novelty)

4. Ergebnisse

5. Bedeutung und Fazit

WhisperAlign: Word-Boundary-Aware ASR and WhisperX-Anchored Pyannote Diarization for Long-Form Bengali Speech

1. Das Transkribieren: Der "Wort-genaue Scherenschneider"

2. Die Sprecher-Erkennung: Der "Tanzlehrer für Bengalisch"

3. Warum war das so erfolgreich?

Titel: WhisperAlign: Wortgrenzenbewusste ASR und WhisperX-verankerte Pyannote-Diarisierung für lange bengalische Sprachaufnahmen

1. Problemstellung

2. Methodik und Architektur

3. Schlüsselbeiträge (Novelty)

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Keep Ballots Secret: On the Futility of Social Learning in Decision Making by Voting

Social Teaching: Being Informative vs. Being Right in Sequential Decision Making

Beyond Binomial and Negative Binomial: Adaptation in Bernoulli Parameter Estimation

Homotopy type theory as a language for diagrams of ∞\infty∞-logoses

One is all you need: Second-order Unification without First-order Variables

Homotopy type theory as a language for diagrams of $\infty$ -logoses