Context Biasing for Pronunciation-Orthography Mismatch in Automatic Speech Recognition

Die vorgestellte Methode verbessert die Erkennungsgenauigkeit von Wörtern mit Aussprache-Rechtschreib-Unterschieden in automatischen Spracherkennungssystemen durch die Nutzung von Korrekturdaten während der Inferenz, was zu einer signifikanten Reduzierung des Fehleranteils bei verzerrten Wörtern führt, ohne die Gesamtleistung zu beeinträchtigen.

Christian Huber, Alexander Waibel

Veröffentlicht 2026-03-05
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr klugen, aber manchmal etwas sturen Übersetzer an der Seite. Er ist ein Spracherkennungs-System (wie Siri oder Alexa), das darauf trainiert wurde, deine Sprache in Text umzuwandeln.

Normalerweise ist dieser Übersetzer ein Genie. Aber er hat ein Problem: Wenn du ein Wort sagst, das er noch nie gehört hat – wie einen seltsamen Firmennamen, einen neuen Fachbegriff oder einen Eigennamen – und dieses Wort wird anders geschrieben als es klingt (z. B. „Rekin" statt „Röding"), dann gerät er in Panik. Er versucht, das Wort zu erraten, und sagt oft etwas völlig Falsches, wie „Lodea" statt „Lottia".

Das ist das Problem, das diese Forscher lösen wollten.

Das alte Problem: Der sture Übersetzer

Früher hat man dem System einfach eine Liste mit den Wörtern gegeben, die es hören könnte. Wenn das Wort nicht auf der Liste stand, war es raus.
Später kamen „intelligente" neuronale Netze, die Wörter aus kleinen Buchstabenstücken (wie LEGO-Steinen) zusammenbauen können. Das klingt toll, aber wenn das Wort im Training nie vorkam, weiß das Netz nicht, wie es den Klang mit dem richtigen Schriftbild verknüpfen soll. Es ist wie ein Koch, der ein Rezept für „Schokoladentorte" kennt, aber wenn du ihm sagst „Schoko-Törtchen", denkt er, du meintest „Schoko-Bonbon", weil er den Unterschied nie gelernt hat.

Die Lösung: Der „Korrektur-Notizblock"

Die Forscher haben eine clevere Methode namens „Context Biasing + Replacement" (Kontext-Biasing + Ersetzung) entwickelt.

Stell dir vor, du sprichst mit diesem Übersetzer und er sagt: „Ich habe gehört: Lodea."
Du weißt aber, dass er eigentlich „Lottia" hören sollte.
Das Alte (Text-Ersetzung): Du sagst ihm einfach: „Ersetze Lodea durch Lottia." Das funktioniert gut, wenn er immer „Lodea" sagt. Aber wenn er beim nächsten Mal „Latia" sagt, hilft deine Regel „Lodea → Lottia" nicht mehr. Er ist immer noch verwirrt.

Das Neue (Die Methode der Forscher):

  1. Der Fehler wird zum Hinweis: Du sagst dem System: „Hey, du hast gerade Lodea gesagt, aber es sollte Lottia sein. Merk dir: Wenn du Lodea hörst, denke an Lottia."
  2. Der Klang bleibt wichtig: Das System lernt nicht nur, das Wort zu ersetzen. Es lernt, dass der Klang von „Lodea" (was du gesprochen hast) eigentlich zu „Lottia" gehört.
  3. Die Magie: Wenn das System beim nächsten Mal wieder „Lodea" (oder ein ähnliches falsches Wort) hört, weiß es jetzt: „Aha! Das ist der Klang, den ich vorhin korrigiert habe! Ich setze jetzt automatisch auf Lottia!"

Es ist, als würdest du einem Freund sagen: „Wenn du jemanden siehst, der wie ein Opa aussieht, aber Lodea heißt, dann ruf ihn Lottia." Der Freund merkt sich den Anblick (den Klang) und den Namen (die Korrektur) zusammen.

Was haben die Forscher herausgefunden?

Sie haben das an echten Testdaten ausprobiert (YouTube-Videos mit vielen seltsamen Namen).

  • Das Ergebnis: Ihre neue Methode hat die Fehler bei diesen schwierigen Wörtern um 22 % bis 34 % reduziert, verglichen mit der alten Methode, die nur den Text austauscht.
  • Der Clou: Sie brauchen weniger Hilfe. Mit nur einer Korrektur von dir kommt das System viel besser zurecht als das alte System. Es ist effizienter.
  • Die Gesamtperformance: Das System macht nicht mehr Fehler bei den normalen Wörtern. Es wird nur bei den schwierigen, unbekannten Wörtern besser.

Zusammenfassung in einem Bild

Stell dir vor, du fährst Auto und dein Navi sagt: „Biegen Sie rechts ab bei Lodea." Du weißt, es heißt Lottia.

  • Alte Methode: Du sagst dem Navi: „Ersetze alle Lodea durch Lottia." Wenn das Navi beim nächsten Mal aber Latia sagt, ignoriert es dich.
  • Neue Methode: Du sagst: „Pass auf: Der Klang Lodea bedeutet Lottia. Der Klang Latia bedeutet auch Lottia." Das Navi lernt den Zusammenhang zwischen dem falschen Klang und dem richtigen Namen.

Fazit: Die Forscher haben einen Weg gefunden, wie KI aus ihren eigenen Fehlern lernt, während du sie benutzt. Wenn du einen Fehler korrigierst, wird das System nicht nur für diesen einen Moment klüger, sondern lernt, wie es den Klang des Fehlers mit dem richtigen Wort verknüpft. Das macht die Spracherkennung viel robuster für Namen und Fachbegriffe, die oft falsch geschrieben oder ausgesprochen werden.