Whisper-CD: Accurate Long-Form Speech Recognition using Multi-Negative Contrastive Decoding

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr klugen, aber manchmal etwas übermütigen Übersetzer namens Whisper. Er ist fantastisch darin, kurze Sätze zu verstehen. Aber wenn du ihm eine ganze Stunde langes Interview vorliest, wird er langsam müde und beginnt zu halluzinieren.

Er fängt an, Dinge zu erfinden, die nie gesagt wurden (wie „Danke fürs Zuschauen", obwohl es ein Radio-Interview ist), oder er wiederholt denselben Satz 20-mal hintereinander, wie ein kaputtes Tonband. Das Schlimmste ist: Wenn er einen Fehler macht, nutzt er diesen Fehler als Grundlage für den nächsten Satz. Ein kleiner Fehler wird so zu einer riesigen Lüge, die sich durch das ganze Gespräch zieht.

Die Forscher aus diesem Papier haben eine clevere Lösung namens Whisper-CD gefunden. Sie müssen das Gehirn des Übersetzers nicht umbauen (kein „Neulernen"), sondern sie ändern nur, wie er entscheidet, welches Wort er als nächstes sagt.

Hier ist die Erklärung mit ein paar einfachen Bildern:

1. Das Problem: Der „Blinde Fleck"

Stell dir vor, du hörst ein Gespräch in einem lauten Café. Wenn du nur auf die Stimme hörst, verstehst du alles. Aber wenn du den Übersetzer fragst, was er hört, und er nur auf die Stille zwischen den Sätzen hört, fängt er an, Dinge zu erfinden, weil er sich unsicher fühlt. Er sagt: „Ich höre nichts, also sage ich einfach etwas Nettes." Das ist die Halluzination.

2. Die Lösung: Der „Doppelgänger-Test"

Normalerweise fragt man den Übersetzer nur: „Was hörst du?" und er antwortet sofort.
Whisper-CD macht etwas anderes. Es fragt den Übersetzer drei Mal gleichzeitig mit demselben Text, aber in drei verschiedenen, „verdorbenen" Versionen:

Das Rauschen: Wir fügen dem Audio künstliches statisches Rauschen hinzu (wie bei einem alten Radio). Der Übersetzer muss jetzt raten, was er trotzdem hört.
Die Stille: Wir schalten den Ton komplett aus und geben ihm nur Stille. Was sagt er dann? (Oft erfindet er Standardfloskeln).
Der Zeitversatz: Wir schieben das Audio ein bisschen nach vorne oder hinten. Der Übersetzer ist verwirrt, weil die Lippenbewegungen (im Audio) nicht mehr zum Timing passen.

3. Der Vergleich: Der „Gute gegen die Schlechten"

Jetzt kommt der geniale Trick. Der Übersetzer gibt für alle vier Szenarien (das Original + die drei verdorbenen Versionen) eine Liste von Wahrscheinlichkeiten für das nächste Wort ab.

Die Original-Version sagt: „Ich bin mir zu 90 % sicher, dass das Wort 'Apfel' ist."
Die verdorbenen Versionen (Rauschen, Stille, Versatz) sagen aber: „Eigentlich könnte es auch 'Banane' oder 'Danke' sein, weil ich nichts klar höre."

Whisper-CD nimmt nun die Antwort des Originals und zieht die Antworten der verdorbenen Versionen ab.

Wenn das Wort „Apfel" auch in den verdorbenen Versionen oft vorkommt, bedeutet das: „Das Wort ist wahrscheinlich nur ein Zufall oder eine Erfindung des Modells." -> Das Wort wird gestrichen.
Wenn das Wort „Apfel" nur im Original vorkommt, aber in den verdorbenen Versionen verschwindet, bedeutet das: „Das Wort wird wirklich gesprochen!" -> Das Wort wird behalten.

Es ist, als würdest du einen Zeugen befragen:

„Was hast du gesehen?" (Original)
„Was hättest du gesehen, wenn es neblig wäre?" (Rauschen)
„Was hättest du gesehen, wenn du blind gewesen wärst?" (Stille)

Wenn der Zeuge in allen drei Fällen sagt „Ich habe einen blauen Wagen gesehen", dann war es wahrscheinlich nur eine Einbildung. Sagt er aber nur im klaren Wetter „Blauer Wagen", aber in den anderen Szenarien „Ich weiß es nicht", dann war es ein echter blauer Wagen.

4. Das Ergebnis: Schneller und genauer

Durch diesen Trick passiert Magie:

Keine Wiederholungen: Der Übersetzer fängt nicht mehr an, Sätze wie ein kaputtes Band zu wiederholen, weil er merkt, dass diese Wiederholungen auch in den „verdorbenen" Szenarien auftreten würden.
Kein Erfinden: Er erfindet keine Floskeln mehr, wenn die Stille eintritt.
Super schnell: Da sie das Modell nicht neu trainieren müssen, ist es viel schneller als andere Methoden, die versuchen, alle Möglichkeiten durchzuspielen (wie ein Beam-Search, der wie ein Sucher ist, der jeden einzelnen Pfad im Wald abläuft). Whisper-CD läuft wie ein geübter Läufer, der den direkten Weg kennt.

Zusammenfassung

Whisper-CD ist wie ein Korrekturleser, der dem Übersetzer zur Seite steht. Er sagt: „Hey, halt! Das Wort, das du gerade wählen willst, kommt auch vor, wenn ich dir das Audio verzerre. Das ist also wahrscheinlich Unsinn. Nimm lieber das andere Wort, das nur bei klarem Ton vorkommt."

So wird aus einem müden, halluzinierenden Übersetzer wieder ein zuverlässiger Zuhörer, der auch bei langen Interviews keine Fehler macht – und das alles, ohne dass man ihn neu ausbilden muss.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Whisper-CD: Accurate Long-Form Speech Recognition using Multi-Negative Contrastive Decoding" auf Deutsch:

1. Problemstellung

Große Encoder-Decoder-Modelle für automatische Spracherkennung (ASR), wie z. B. Whisper, zeigen bei der Transkription langer Audioaufnahmen (Long-Form ASR) signifikante Schwächen. Die Hauptprobleme sind:

Halluzinationen: Das Modell generiert fließenden, aber nicht durch das Audio gestützten Text, insbesondere in Pausen oder bei akustischen Störungen.
Wiederholungsschleifen (Repetition Loops): Das Modell gerät in Schleifen, in denen es Sätze oder Phrasen endlos wiederholt.
Inhaltsauslassungen: Wichtige Teile der gesprochenen Inhalte werden übersprungen.

Ein kritisches Phänomen ist die Fehlerakkumulation: Bei der Verarbeitung langer Aufnahmen in Segmenten (z. B. 30-Sekunden-Blöcken) wird die Transkription des vorherigen Segments oft als Kontext für das aktuelle Segment verwendet. Enthält der vorherige Text Fehler oder Halluzinationen, verstärken diese sich im weiteren Verlauf der Dekodierung. Herkömmliche Ansätze wie Beam Search können diese Fehler oft nicht korrigieren, da sie die Wahrscheinlichkeitsverteilung des Modells nicht grundlegend ändern, sondern nur innerhalb des bestehenden Raums suchen.

2. Methodik: Whisper-CD

Die Autoren schlagen Whisper-CD vor, ein trainingsfreies Framework für kontrastives Decodieren (Contrastive Decoding), das ausschließlich zur Inferenzzeit angewendet wird. Es erfordert keine Neukalibrierung oder Feinabstimmung (Fine-Tuning) des Modells.

Kernprinzip

Das Verfahren vergleicht die Logits (Vorhersage-Wahrscheinlichkeiten) des Modells für das saubere Audiosignal mit Logits, die aus akustisch gestörten Varianten („negative" Signale) abgeleitet werden. Das Ziel ist es, Token zu unterdrücken, die auch unter stark verschlechterten akustischen Bedingungen hohe Wahrscheinlichkeiten erhalten (was auf Halluzinationen hindeutet).

Drei negative Perturbations-Strategien

Um die negativen Logits zu generieren, werden drei spezifische, akustisch motivierte Störungen auf das Eingabesignal angewendet:

Gaußsches Rauschen (Gaussian Noise Injection): Das Audiosignal wird mit Rauschen überlagert (SNR = 10 dB). Dies schwächt feine phonetische Hinweise, erhält aber die grobe Struktur. Es hilft, Token zu identifizieren, die das Modell auch bei Unsicherheit bevorzugt.
Stillsignal (Silence Signal): Das Audiospektrum wird auf Null gesetzt. Das Modell erhält keine akustischen Hinweise und verlässt sich rein auf sein textuelles Vorwissen (Prior). Dies deckt „Halluzinations-Phrasen" auf, die das Modell generiert, wenn es keine Sprache hört (z. B. „Thank you for watching").
Zeitliche Verschiebung (Audio Temporal Shift): Das Audiosignal wird um 7 Sekunden nach links verschoben (die ersten Samples werden verworfen, das Ende mit Nullen aufgefüllt). Dies erzeugt eine Fehlausrichtung zwischen dem akustischen Inhalt und dem erwarteten zeitlichen Kontext des Segments, was Fehler an Segmentgrenzen aufdeckt.

Multi-Negative Aggregation

Anstatt nur eine negative Quelle zu nutzen, werden die Logits aller drei gestörten Pfade kombiniert. Die Autoren verwenden einen Log-Sum-Exp-Operator (mit einer Temperatur $\tau=1.0$ ), um eine einheitliche negative Repräsentation zu erstellen.

Die finale kontrastive Logits-Berechnung lautet:
$\ell^{CD}_t = (1 + \alpha\tau) \ell^{pos}_t - \alpha\tau \log \left( \frac{1}{K} \sum_{k=1}^{K} \exp(\ell^{neg}_{k,t} / \tau) \right)$
Dabei ist:

$\ell^{pos}_t$ : Logits des originalen (sauberen) Signals.
$\ell^{neg}_{k,t}$ : Logits der $k$ -ten gestörten Variante.
$\alpha$ : Ein Kontrast-Stärke-Parameter (typischerweise zwischen 0.5 und 2.0).
$K$ : Anzahl der negativen Pfade (hier 3).

Die Token-Auswahl erfolgt basierend auf diesen angepassten Logits. Da die Encoder-Ausgaben für alle Pfade in einem einzigen Batch berechnet werden können, ist der Overhead gering.

3. Wichtige Beiträge

Erste Anwendung von Contrastive Decoding auf ASR: Während CD bereits in Vision-Language-Modellen genutzt wurde, ist dies die erste Arbeit, die es speziell für die Reduktion von ASR-Halluzinationen adaptiert.
Trainingsfreie Lösung: Whisper-CD kann als „Drop-in"-Ersetzung für bereits eingesetzte Whisper-Systeme verwendet werden, ohne dass das Modell neu trainiert werden muss.
Multi-Negative Ansatz: Die Kombination aus Rauschen, Stille und Zeitverschiebung deckt unterschiedliche Fehlermodi (Halluzinationen in Pausen, Wiederholungen, Segmentgrenzenfehler) gleichzeitig ab.
Effizienz: Im Vergleich zu Beam Search ist die Methode deutlich schneller, da sie keine multiple Hypothesen-Suche durchführt, sondern die Wahrscheinlichkeitsverteilung direkt korrigiert.

4. Ergebnisse

Die Evaluation erfolgte auf fünf englischen Long-Form-Benchmarks (CORAAL, Earnings22, VoxPopuli, TED-LIUM, REV-16) mit den Modellen Whisper Large-v3 und Large-v3-Turbo.

Fehlerreduktion (WER):
- Auf dem CORAAL-Datensatz konnte die Wortfehlerrate (WER) um bis zu 24,3 Prozentpunkte gesenkt werden (von 38,75 % auf 14,43 % bei Large-v3-Turbo).
- Bei Whisper Large-v3 (ohne Turbo) wurden massive Verbesserungen erzielt, wobei die Baseline-WER auf einigen Datensätzen über 100 % lag (durch endlose Wiederholungen), während CD diese Schleifen effektiv unterbrach.
Durchsatz und Geschwindigkeit:
- Whisper-CD ist 48 % schneller als Beam Search (bei Beam-Size 5).
- Der Overhead gegenüber dem reinen Greedy-Decoding ist gering, da die zusätzlichen Pfade parallelisiert werden können.
Qualitative Verbesserungen:
- Das System eliminiert erfolgreich „Repetition Loops" und generiert keine Füllwörter in Pausen mehr.
- Die Methode funktioniert robust über verschiedene Datensätze hinweg, wobei ein optimaler $\alpha$ -Wert je nach Datengüte variiert (stärkeres $\alpha$ für verrauschte Daten).

5. Bedeutung und Ausblick

Whisper-CD adressiert ein fundamentales Problem der Long-Form-Spracherkennung: die Akkumulation von Fehlern durch Kontextnutzung. Indem es die Decodierungslogik zur Laufzeit anpasst, ohne die Modellparameter zu ändern, bietet es eine praktische und sofort einsetzbare Lösung für bestehende Systeme.

Die Arbeit zeigt, dass akustische Störungen gezielt genutzt werden können, um die „Vertrauenswürdigkeit" von Vorhersagen zu testen. Zukünftige Arbeiten könnten dynamische Anpassungen des Kontrast-Parameters $\alpha$ pro Segment oder die Erweiterung auf Decoder-only-ASR-Modelle untersuchen. Zusammenfassend stellt Whisper-CD einen wichtigen Schritt hin zu robusteren, fehlertoleranten ASR-Systemen für lange Aufnahmen dar.