Chain of Correction for Full-text Speech Recognition with Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen sehr schnellen, aber etwas chaotischen Diktierassistenten. Wenn Sie ihm einen langen Text vorgelesen haben, liefert er Ihnen eine Rohfassung. Diese Fassung ist oft voller kleiner Fehler: Es fehlen Kommas, Zahlen sind falsch geschrieben, Sätze sind abgehackt oder Wörter wurden vertauscht.

Bisherige Methoden, um diesen Text zu reparieren, waren wie ein Stempel, der nur einzelne Wörter austauscht. Das Problem: Der Stempel sieht nicht den ganzen Satz, vergisst den Kontext und macht den Text oft holprig.

Die Forscher von Tencent und der Tsinghua-Universität haben nun eine neue Methode namens „Chain of Correction" (CoC) entwickelt. Hier ist eine einfache Erklärung, wie das funktioniert, mit ein paar anschaulichen Vergleichen:

1. Der alte Weg: Der „Alles-oder-Nichts"-Ansatz

Früher versuchte man, den gesamten Text auf einmal zu korrigieren.

Das Problem: Stellen Sie sich vor, Sie müssten einen 50-seitigen Roman auf einmal lesen und gleichzeitig jeden einzelnen Tippfehler finden. Ihr Gehirn (oder der Computer) würde überfordert sein. Es entstehen „Halluzinationen" (der Computer erfindet Dinge) oder er ändert zu viel, wo er nichts ändern sollte.
Die Metapher: Es ist wie ein Maler, der versucht, ein riesiges Wandgemälde auf einmal zu übermalen, ohne sich auf Details zu konzentrieren. Das Ergebnis ist oft unsauber.

2. Der neue Weg: Die „Kette der Korrektur" (CoC)

Die neue Methode bricht den riesigen Text in kleine, handliche Stücke auf.

Wie es funktioniert: Der Computer liest den gesamten Text einmal durch, um den „Rahmen" zu verstehen (den Kontext). Dann geht er Satz für Satz (oder Stück für Stück) durch.
Die Metapher: Stellen Sie sich einen Lektor vor, der einen Roman Korrektur liest.
- Der Lektor liest erst das ganze Buch, um die Handlung zu verstehen (das ist der „Kontext").
- Dann nimmt er sich nur eine Seite vor. Er korrigiert diese Seite sorgfältig, während er die vorherige Seite schon im Kopf hat.
- Sobald die Seite fertig ist, legt er sie zur Seite und nimmt die nächste.
- Der Clou: Weil er nur eine Seite auf einmal bearbeitet, bleibt er ruhig und konzentriert. Er vergisst nicht, was auf der vorherigen Seite stand, weil er den „ganzen Buchrücken" im Blick hat.

3. Die vier Superkräfte dieser Methode

Die Forscher nennen vier Vorteile, die man sich so vorstellen kann:

Stabilität (Der ruhige Handwerker): Weil der Computer nicht den ganzen Text auf einmal umschreiben muss, macht er weniger Fehler. Er wird nicht „verwirrt" von der Länge des Textes.
Kontrolle (Der strengen Chef): Man kann dem Computer sagen: „Ändere nur, wenn es wirklich nötig ist." Wenn der Computer einen Satz zu sehr umformuliert (wie ein zu kreativer Autor), kann man die Änderung verwerfen und den Originaltext behalten.
Vollständigkeit (Der Detektiv): Da der Computer das ganze Buch im Hintergrund hat, findet er Fehler, die man im einzelnen Satz nicht sieht. Zum Beispiel: Ein Name wird im ersten Kapitel falsch geschrieben, aber im letzten Kapitel richtig. Der Lektor merkt: „Aha, hier muss es auch im ersten Kapitel richtig heißen."
Flüssigkeit (Der Sprachfluss): Anstatt nur ein Wort zu tauschen, schreibt der Computer den ganzen kleinen Abschnitt neu. Das klingt natürlicher, als würde man ein Puzzle mit einem falschen Teil neu zusammenlegen.

4. Der „Korrektur-Schwellenwert" (Die Goldene Regel)

Es gibt eine wichtige Einstellung: Wie streng soll der Computer sein?

Zu streng: Der Computer ändert alles, auch wenn der Originaltext eigentlich okay war. Das nennt man „Überkorrektur".
Zu locker: Der Computer lässt viele Fehler stehen.
Die Lösung: Die Forscher haben einen „Schwellenwert" (wie einen Thermostat) gefunden. Wenn der Unterschied zwischen dem alten und dem neuen Text zu groß ist, wird die Änderung verworfen. So bleibt das Gleichgewicht gewahrt.

5. Was kann das System noch?

Das System ist nicht nur gut für normale Texte. Es kann auch:

Lange Texte bewältigen: Es kann Texte bearbeiten, die so lang sind wie ein ganzer Roman (über 4 Stunden Audio), ohne den Überblick zu verlieren.
Klingende Hilfe: Es kann sogar mit „Pinyin" (der Lautschrift für Chinesisch) arbeiten, um Fehler zu finden, die beim bloßen Lesen schwer zu erkennen sind.
Kleine Details: Es setzt nicht nur Kommas, sondern erkennt auch, ob ein „er" oder eine „sie" gemeint war, oder ob ein Firmenname richtig geschrieben ist.

Fazit

Die „Chain of Correction" ist wie ein intelligenter, geduldiger Lektor, der einen riesigen Text nicht auf einmal, sondern in kleinen, überschaubaren Häppchen bearbeitet. Dabei behält er immer den großen Zusammenhang im Kopf, damit am Ende ein perfekter, flüssiger und fehlerfreier Text herauskommt. Das ist ein großer Schritt, um die Qualität von Sprachassistenten und Diktiergeräten massiv zu verbessern.

Chain of Correction for Full-text Speech Recognition with Large Language Models

1. Der alte Weg: Der „Alles-oder-Nichts"-Ansatz

2. Der neue Weg: Die „Kette der Korrektur" (CoC)

3. Die vier Superkräfte dieser Methode

4. Der „Korrektur-Schwellenwert" (Die Goldene Regel)

5. Was kann das System noch?

Fazit

1. Problemstellung

2. Methodik: Chain of Correction (CoC)

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Chain of Correction for Full-text Speech Recognition with Large Language Models

1. Der alte Weg: Der „Alles-oder-Nichts"-Ansatz

2. Der neue Weg: Die „Kette der Korrektur" (CoC)

3. Die vier Superkräfte dieser Methode

4. Der „Korrektur-Schwellenwert" (Die Goldene Regel)

5. Was kann das System noch?

Fazit

1. Problemstellung

2. Methodik: Chain of Correction (CoC)

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics