Fish Audio S2 Technical Report

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen digitalen Schauspieler, der nicht nur jeden Text perfekt vorliest, sondern auch genau versteht, wie er ihn vorlesen soll. Er kann flüstern, schreien, lachen, wütend sein oder in einem bestimmten Dialekt sprechen – und das alles auf Kommando, einfach indem Sie ihm einen Satz in natürlicher Sprache geben.

Das ist Fish Audio S2. Es ist ein neues, offenes System, das Texte in Sprache verwandelt (Text-to-Speech), aber mit einem entscheidenden Upgrade gegenüber früheren Versionen.

Hier ist die Erklärung, wie das funktioniert, ohne technische Fachbegriffe:

1. Der große Unterschied: Vom Roboter zum Regisseur

Frühere KI-Stimmen waren wie ein Roboter, der eine Liste abliest. Wenn Sie wollten, dass er wütend klingt, mussten Sie oft komplizierte technische Befehle eingeben oder eine Referenz-Audiodatei hochladen.

Fish Audio S2 ist wie ein Regisseur, der mit einem Schauspieler spricht. Sie können ihm einfach sagen: "Sag diesen Satz, als würdest du gerade einen schlechten Witz hören, aber flüstere dabei." Das System versteht diese natürliche Anweisung sofort und setzt sie um. Es ist kein starrer Roboter mehr, sondern ein flexibler Künstler.

2. Die zwei Gehirne: Der Planer und der Handwerker

Das Herzstück von Fish Audio S2 ist eine clevere Architektur, die man sich wie ein Zwei-Personen-Team vorstellen kann:

Der Planer (Slow AR): Dieser Teil liest den Text und denkt sich die grobe Struktur aus. Er entscheidet: "Hier wird die Stimme laut, hier wird sie leise, hier kommt eine Pause." Er kümmert sich um den Sinn und die Emotion.
Der Handwerker (Fast AR): Dieser Teil nimmt die Anweisungen des Planers und baut die feinen Details. Er sorgt dafür, dass die Stimme nicht nur "richtig" klingt, sondern auch atmet, zittert oder lacht.

Die Analogie: Der Planer ist wie ein Architekt, der den Bauplan zeichnet. Der Handwerker ist der Maurer, der die Ziegel genau so setzt, wie es der Plan vorsieht. Durch diese Aufteilung kann das System sehr lange Texte (wie ganze Hörbücher) sprechen, ohne den Faden zu verlieren oder die Stimme zu verzerren.

3. Der Trainingsprozess: Wie lernt die KI?

Damit die KI so gut wird, haben die Entwickler einen besonderen Trainingsweg gewählt, den man sich wie ein drei-stufiges Schulsystem vorstellen kann:

Stufe 1: Die Auswahl (Filtern). Sie nehmen riesige Mengen an Audioaufnahmen. Ein spezielles "Qualitäts-Modell" (wie ein strenger Lehrer) prüft jede Aufnahme: "Ist das klar? Ist die Stimme gut?" Schlechte Aufnahmen werden aussortiert.
Stufe 2: Das Verstehen (Beschreiben). Ein anderes Modell (ein "Übersetzer") hört sich die guten Aufnahmen an und schreibt dazu, was passiert. Nicht nur "Hallo", sondern "Hallo, gesagt mit einem breiten Grinsen und etwas Hektik". Diese Beschreibungen werden zu den Trainingsaufgaben.
Stufe 3: Die Belohnung (RL). Hier wird es spannend. Die KI versucht, Texte zu sprechen. Wenn sie es gut macht (klingt natürlich, folgt den Anweisungen), gibt es eine Belohnung. Wenn sie halluziniert (falsche Wörter sagt) oder die Anweisung ignoriert, gibt es eine Strafe.
- Der Clou: Die gleichen "Lehrer", die in Stufe 1 und 2 gearbeitet haben, geben jetzt auch die Noten. Dadurch lernt die KI konsistent, ohne dass sich die Regeln während des Trainings ändern.

4. Die Geschwindigkeit: Blitzschnell

Ein großes Problem bei solchen KI-Systemen war bisher die Wartezeit. Fish Audio S2 ist wie ein Formel-1-Rennwagen.

Startzeit: Es dauert weniger als 0,1 Sekunden, bis die erste Silbe zu hören ist. Das ist schneller, als Sie "Hallo" sagen könnten.
Durchsatz: Es kann Audio so schnell produzieren, dass es in Echtzeit funktioniert, selbst wenn viele Leute gleichzeitig damit arbeiten.

5. Was kann es alles?

Mehrere Sprecher in einem Gespräch: Stellen Sie sich ein Hörspiel vor. Die KI kann in einem Durchgang eine ganze Szene zwischen zwei oder drei Charakteren spielen, ohne dass Sie die Stimme jedes Mal neu einstellen müssen.
Lange Texte: Sie können ein ganzes Buch hochladen, und die KI liest es durchgehend vor, ohne dass die Stimme nach 10 Minuten "müde" wird oder sich verändert.
Fremdsprachen: Es spricht fließend Dutzende von Sprachen und kann sogar zwischen ihnen wechseln, wobei die Stimme (der "Klang") gleich bleibt.

Zusammenfassung

Fish Audio S2 ist wie der perfekte digitale Sprecher, der nicht nur liest, sondern fühlt. Es ist offen verfügbar (jeder kann es nutzen und weiterentwickeln), extrem schnell und versteht menschliche Anweisungen so gut, dass es sich fast wie ein echter Schauspieler anhört. Die Entwickler haben es so gebaut, dass es nicht nur "korrekt" klingt, sondern auch lebendig und ausdrucksstark ist.

Sie können es sich wie den Übergang von einem Text-to-Speech-Programm (das nur Buchstaben in Töne umwandelt) zu einem Text-to-Performance-System vorstellen, das eine ganze Show liefert.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des technischen Berichts zu Fish Audio S2 auf Deutsch.

1. Problemstellung

Hochwertige, kontrollierbare Text-zu-Sprache (TTS)-Systeme sind für moderne KI-Anwendungen (z. B. Hörbücher, Video-Dubbing, Chatbots) von zentraler Bedeutung. Trotz Fortschritten bei großen Modellen bestehen weiterhin erhebliche Herausforderungen:

Mangelnde Feinabstimmung: Die Generierung feinabgestimmter natürlichsprachlicher Anweisungen für Stimmmerkmale (Emotion, Prosodie) im großen Maßstab ist schwierig.
Daten- und Trainingslücken: Bestehende Pipelines trennen oft die Datenvorbereitung (Pre-Training) von der Ausrichtung durch Verstärkungslernen (RL). Dies führt zu Verteilungsverschiebungen (Distribution Shift), da die Reward-Modelle nicht mit den Pre-Training-Daten übereinstimmen.
Skalierbarkeit und Latenz: Die Generierung langer, mehrsprachiger Dialoge mit mehreren Sprechern in Echtzeit erfordert effiziente Architekturen, die oft durch hohe Latenz oder Speicherbedarf limitiert sind.
Begrenzte RL-Nutzung: Während RL-Methoden wie DPO oder PPO im LLM-Bereich Standard sind, wird ihre Anwendung in der TTS noch nicht umfassend genutzt, insbesondere für die Balance zwischen Ausdruckskraft und Robustheit.

2. Methodik und Architektur

Fish Audio S2 baut auf dem Decoder-only Transformer-Backbone und dem RVQ-basierten Audio-Codec von Fish Audio S1 auf, führt jedoch signifikante Erweiterungen ein:

A. Audio-Tokenizer und Dual-Autoregressive (Dual-AR) Architektur

Audio-Tokenizer: Basierend auf dem Descript Audio Codec (DAC), optimiert für 44,1 kHz Streaming. Er nutzt eine hierarchische Residual Vector Quantization (RVQ) mit 10 Codebooks. Das erste Codebook dient als semantischer Codebook, die restlichen neun erfassen akustische Details.
- Streaming-Optimierungen: Kausale Faltungen, Transformer-Bottlenecks mit gleitendem Fenster (begrenzte Speichernutzung) und ein EVA-GAN-Decoder für bessere Rekonstruktion.
- Semantische Destillation: Ein Hilfskopf regrediert auf die Aktivierungen eines vortrainierten w2v-BERT 2.0, um linguistische Informationen im ersten Codebook zu konservieren.
Dual-AR-Generierung: Um die Sequenzlänge bei 10 Codebooks zu bewältigen, wird die zeitliche semantische Modellierung von der akustischen Tiefenmodellierung entkoppelt:
- Slow AR (Langsam): Ein vortrainiertes Qwen3-4B-Modell generiert sequentiell die semantischen Tokens (Codebook 0) und plant linguistischen Inhalt sowie grobe Prosodie.
- Fast AR (Schnell): Ein leichtes Netzwerk (4 Transformer-Schichten) rekonstruiert basierend auf dem Zustand des Slow AR die restlichen 9 akustischen Tokens pro Zeitschritt.
- Multi-Codebook Fusion (MCF): Die generierten Tokens werden aggregiert und als Eingabe für den nächsten Schritt des Slow AR verwendet.

B. Multi-Purpose Data Pipeline

Ein zentrales Innovation ist die Wiederverwendung von Modellen in verschiedenen Phasen, um Verteilungsverschiebungen zu eliminieren:

Sprachqualitätsmodell: Filtert Daten während des Pre-Trainings und dient später als Reward-Modell für akustische Qualität (Rauschen, Artefakte).
Rich-Transcription ASR: Ein feinabgestimmtes Qwen3-Omni-Modell transkribiert nicht nur Text, sondern annotiert auch Sprechertausche und Stimmmerkmale (z. B. [lachen], [wütend]) als natürliche Sprachanweisungen. Dient später als Reward für Intelligibilität und Instruktionsbefolgung.

C. RL-basiertes Post-Training (Multi-Reward Alignment)

Statt teurer PPO-Methoden wird eine Variante von GRPO (Group Relative Policy Optimization) verwendet, die auf einen separaten Value-Netzwerk verzichtet.

Multi-Reward-System: Ein kombinierter Reward ( $R_{total}$ $R_{t o t a l}$ ) optimiert drei Dimensionen gleichzeitig:
1. Semantische Genauigkeit ( $R_{STT}$ ): Überprüft durch das ASR-Modell (Vermeidung von Halluzinationen).
2. Akustische Präferenz ( $R_{Pref}$ ): Bewertet durch das Sprachqualitätsmodell.
3. Sprecher-Ähnlichkeit ( $R_{SIM}$ ): Berechnet durch externe Stimmabdrücke.
Dies ermöglicht eine Balance zwischen Ausdruckskraft und Robustheit.

3. Schlüsselbeiträge (Key Contributions)

Verbesserte Instruktionsbefolgung: S2 folgt natürlichen Sprachanweisungen (z. B. "flüstere", "schnell sprechen") extrem präzise, ohne dedizierte Control-Tokens zu benötigen.
Native Multi-Speaker & Multi-Turn Generierung: Das Modell kann komplexe Dialoge mit mehreren Sprechern in einem einzigen Durchlauf generieren, wobei die Dynamik natürlicher Gespräche erhalten bleibt.
Stabile Langform-Synthese: Unterstützung kohärenter Audio-Generierung über lange Zeiträume ohne Stabilitätsverlust.
Produktionsreife Inferenz-Engine: Eine auf SGLang basierende Engine, die Streaming mit extrem niedriger Latenz ermöglicht (RTF 0,195, Time-to-First-Audio < 100 ms).
Open-Source-Release: Vollständige Veröffentlichung von Gewichten, Fine-Tuning-Code und Inferenz-Engine auf GitHub und Hugging Face.

4. Ergebnisse und Evaluation

Die Evaluation erfolgte durch objektive Metriken und "LLM-as-a-Judge"-Benchmarks.

Objektive Metriken:
- Seed-TTS-Eval: S2 erreicht führende Ergebnisse bei der Wortfehlerrate (WER) für Englisch (0,99%) und Chinesisch (0,54%).
- Multilingualität: Auf dem Minimax Multilingual Testset (24 Sprachen) erzielt S2 in 11 Sprachen die niedrigste WER und in 17 Sprachen die höchste Sprecherähnlichkeit (SIM).
- Langform: Auf dem Long-TTS-Eval-Benchmark zeigt S2 die niedrigste WER/CER und die stabilste Sprecherähnlichkeit über lange Äußerungen im Vergleich zu S1 und anderen State-of-the-Art-Modellen.
Subjektive / LLM-as-a-Judge Evaluation:
- Audio Turing Test: S2 erreicht eine Posterior-Mean von 0,483 (Verbesserung auf 0,515 mit Instruktions-Rewriting), was eine hohe menschliche Ununterscheidbarkeit belegt.
- Emergent TTS Eval: S2 erreicht eine Gewinnrate von 81,88% gegen einen Baseline (gpt-4o-mini-tts) in komplexen Szenarien (Emotionen, Paralinguistik, syntaktische Komplexität).
- Fish Audio Instruction Benchmark: Ein neuer Benchmark für feinabgestimmte Kontrolle. S2 erreicht eine Tag-Aktivierungsrate von 93,3% und eine Qualitätsbewertung von 4,51/5,0, was deutlich über den Vorgängermodellen liegt.
Inferenz-Performance:
- RTF (Real-Time Factor): 0,195 (deutlich schneller als Echtzeit).
- TTFA (Time-to-First-Audio): < 100 ms.
- Durchsatz: > 3000 akustische Tokens pro Sekunde unter hoher Last.

5. Bedeutung und Ausblick

Fish Audio S2 setzt einen neuen Maßstab für Open-Source-TTS-Systeme. Durch die Kombination einer effizienten Dual-AR-Architektur, einer cleveren Datenpipeline, die Verteilungsverschiebungen eliminiert, und eines multi-dimensionalen RL-Alignments, gelingt es, Kontrolle, Natürlichkeit und Robustheit gleichzeitig zu maximieren.

Die Veröffentlichung der Modelle und der SGLang-basierten Inferenz-Engine senkt die Einstiegshürde für die Entwicklung hochwertiger TTS-Anwendungen erheblich. S2 beweist, dass Open-Source-Modelle in Bezug auf Instruktionsbefolgung und Sprachqualität mit proprietären Lösungen konkurrieren oder diese übertreffen können. Dies ebnet den Weg für die nächste Generation ausdrucksstarker und kontrollierbarer Sprachsynthese in kommerziellen und wissenschaftlichen Anwendungen.