Whisper-CD: Accurate Long-Form Speech Recognition using Multi-Negative Contrastive Decoding

Das Paper stellt Whisper-CD vor, ein reines Inferenz-Verfahren, das durch kontrastives Decodieren mit akustisch motivierten Störungen Halluzinationen und Wiederholungen bei der langen Spracherkennung mit Whisper reduziert und gleichzeitig die Generierungsgeschwindigkeit im Vergleich zur Beam Search deutlich steigert.

Hoseong Ahn, Jeongyun Chae, Yoonji Park, Kyuhong Shim

Veröffentlicht Mon, 09 Ma
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr klugen, aber manchmal etwas übermütigen Übersetzer namens Whisper. Er ist fantastisch darin, kurze Sätze zu verstehen. Aber wenn du ihm eine ganze Stunde langes Interview vorliest, wird er langsam müde und beginnt zu halluzinieren.

Er fängt an, Dinge zu erfinden, die nie gesagt wurden (wie „Danke fürs Zuschauen", obwohl es ein Radio-Interview ist), oder er wiederholt denselben Satz 20-mal hintereinander, wie ein kaputtes Tonband. Das Schlimmste ist: Wenn er einen Fehler macht, nutzt er diesen Fehler als Grundlage für den nächsten Satz. Ein kleiner Fehler wird so zu einer riesigen Lüge, die sich durch das ganze Gespräch zieht.

Die Forscher aus diesem Papier haben eine clevere Lösung namens Whisper-CD gefunden. Sie müssen das Gehirn des Übersetzers nicht umbauen (kein „Neulernen"), sondern sie ändern nur, wie er entscheidet, welches Wort er als nächstes sagt.

Hier ist die Erklärung mit ein paar einfachen Bildern:

1. Das Problem: Der „Blinde Fleck"

Stell dir vor, du hörst ein Gespräch in einem lauten Café. Wenn du nur auf die Stimme hörst, verstehst du alles. Aber wenn du den Übersetzer fragst, was er hört, und er nur auf die Stille zwischen den Sätzen hört, fängt er an, Dinge zu erfinden, weil er sich unsicher fühlt. Er sagt: „Ich höre nichts, also sage ich einfach etwas Nettes." Das ist die Halluzination.

2. Die Lösung: Der „Doppelgänger-Test"

Normalerweise fragt man den Übersetzer nur: „Was hörst du?" und er antwortet sofort.
Whisper-CD macht etwas anderes. Es fragt den Übersetzer drei Mal gleichzeitig mit demselben Text, aber in drei verschiedenen, „verdorbenen" Versionen:

  1. Das Rauschen: Wir fügen dem Audio künstliches statisches Rauschen hinzu (wie bei einem alten Radio). Der Übersetzer muss jetzt raten, was er trotzdem hört.
  2. Die Stille: Wir schalten den Ton komplett aus und geben ihm nur Stille. Was sagt er dann? (Oft erfindet er Standardfloskeln).
  3. Der Zeitversatz: Wir schieben das Audio ein bisschen nach vorne oder hinten. Der Übersetzer ist verwirrt, weil die Lippenbewegungen (im Audio) nicht mehr zum Timing passen.

3. Der Vergleich: Der „Gute gegen die Schlechten"

Jetzt kommt der geniale Trick. Der Übersetzer gibt für alle vier Szenarien (das Original + die drei verdorbenen Versionen) eine Liste von Wahrscheinlichkeiten für das nächste Wort ab.

  • Die Original-Version sagt: „Ich bin mir zu 90 % sicher, dass das Wort 'Apfel' ist."
  • Die verdorbenen Versionen (Rauschen, Stille, Versatz) sagen aber: „Eigentlich könnte es auch 'Banane' oder 'Danke' sein, weil ich nichts klar höre."

Whisper-CD nimmt nun die Antwort des Originals und zieht die Antworten der verdorbenen Versionen ab.

  • Wenn das Wort „Apfel" auch in den verdorbenen Versionen oft vorkommt, bedeutet das: „Das Wort ist wahrscheinlich nur ein Zufall oder eine Erfindung des Modells." -> Das Wort wird gestrichen.
  • Wenn das Wort „Apfel" nur im Original vorkommt, aber in den verdorbenen Versionen verschwindet, bedeutet das: „Das Wort wird wirklich gesprochen!" -> Das Wort wird behalten.

Es ist, als würdest du einen Zeugen befragen:

  • „Was hast du gesehen?" (Original)
  • „Was hättest du gesehen, wenn es neblig wäre?" (Rauschen)
  • „Was hättest du gesehen, wenn du blind gewesen wärst?" (Stille)

Wenn der Zeuge in allen drei Fällen sagt „Ich habe einen blauen Wagen gesehen", dann war es wahrscheinlich nur eine Einbildung. Sagt er aber nur im klaren Wetter „Blauer Wagen", aber in den anderen Szenarien „Ich weiß es nicht", dann war es ein echter blauer Wagen.

4. Das Ergebnis: Schneller und genauer

Durch diesen Trick passiert Magie:

  • Keine Wiederholungen: Der Übersetzer fängt nicht mehr an, Sätze wie ein kaputtes Band zu wiederholen, weil er merkt, dass diese Wiederholungen auch in den „verdorbenen" Szenarien auftreten würden.
  • Kein Erfinden: Er erfindet keine Floskeln mehr, wenn die Stille eintritt.
  • Super schnell: Da sie das Modell nicht neu trainieren müssen, ist es viel schneller als andere Methoden, die versuchen, alle Möglichkeiten durchzuspielen (wie ein Beam-Search, der wie ein Sucher ist, der jeden einzelnen Pfad im Wald abläuft). Whisper-CD läuft wie ein geübter Läufer, der den direkten Weg kennt.

Zusammenfassung

Whisper-CD ist wie ein Korrekturleser, der dem Übersetzer zur Seite steht. Er sagt: „Hey, halt! Das Wort, das du gerade wählen willst, kommt auch vor, wenn ich dir das Audio verzerre. Das ist also wahrscheinlich Unsinn. Nimm lieber das andere Wort, das nur bei klarem Ton vorkommt."

So wird aus einem müden, halluzinierenden Übersetzer wieder ein zuverlässiger Zuhörer, der auch bei langen Interviews keine Fehler macht – und das alles, ohne dass man ihn neu ausbilden muss.