Fish Audio S2 Technical Report

Each language version is independently generated for its own context, not a direct translation.

🎙️ Fish Audio S2: Il "Regista" che impara a parlare da solo

Immagina di voler creare un film. In passato, per far parlare i personaggi, dovevi assumere un attore per ogni ruolo, registrare ore e ore, e poi montare tutto. Se volevi che l'attore piangesse o ridesse, dovevi dirglielo a voce e sperare che ci fosse riuscito.

Fish Audio S2 è come un super-regista AI che non ha bisogno di provini. Puoi dirgli: "Fai parlare questo personaggio come se fosse un nonno arrabbiato che sta correndo per prendere l'autobus, poi passa a una bambina che ride mentre mangia un gelato". E lui lo fa, tutto in un colpo solo, senza mai stancarsi.

Ecco come funziona, diviso in tre parti magiche:

1. Il "Cervello" e la "Voce" (L'Architettura)

Immagina che per creare una voce umana servano due persone che lavorano insieme:

Il Pianista (Slow AR): È il cervello lento e riflessivo. Decide cosa dire e come strutturare la frase. È come un direttore d'orchestra che guarda lo spartito e dice: "Ora suoniamo una nota triste, poi una veloce".
Il Violinista (Fast AR): È il musicista veloce e tecnico. Prende le istruzioni del Pianista e le trasforma in note musicali precise (il suono vero e proprio).

In Fish Audio S2, questi due lavorano in perfetta sincronia. Il Pianista pensa alla storia, il Violinista suona i dettagli (il respiro, il tono, il timbro). Questo permette al sistema di essere velocissimo (come un fulmine!) e di parlare per ore senza perdere il filo del discorso.

2. La "Scuola di Recitazione" (I Dati e l'Addestramento)

Come si impara a recitare così bene? Non leggendo solo libri, ma guardando milioni di film e ascoltando milioni di conversazioni.

Il Filtro Intelligente: Prima di studiare, il sistema ha un "controllore di qualità" che scarta tutte le registrazioni brutte (rumore di fondo, voci che si sovrappongono). È come un insegnante che ti dice: "Questa registrazione è spazzatura, non studiarla".
Il Traduttore di Emozioni: C'è un altro AI che ascolta le registrazioni pulite e scrive una "didascalia" per ogni frase. Invece di scrivere solo "Ciao", scrive: "Ciao (sussurrato, con un sorriso, mentre si guarda intorno)".
La Lezione di Recitazione (RL): Una volta imparato a leggere queste didascalie, il sistema si allena con un metodo speciale. Se dice una parola sbagliata o non sorride quando dovrebbe, prende un "buco" (una penalità). Se fa tutto perfetto, prende un "premio". Questo lo spinge a diventare sempre più umano e naturale.

3. Il "Trucco del Magico" (L'Inferenza e la Velocità)

Spesso i robot parlano lentamente, come se avessero la testa sotto l'acqua. Fish Audio S2 è diverso.
Immagina di dover ordinare un caffè.

I vecchi sistemi: Ti chiedono di aspettare 5 secondi, poi ti danno il caffè, poi ti chiedono di aspettare altri 5 secondi per il prossimo sorso.
Fish Audio S2: È come un barista che ti versa il caffè mentre ancora stai finendo di ordinare. Appena inizi a parlare, lui inizia a produrre la voce. È così veloce che senti la prima parola in meno di un battito di ciglia (meno di 100 millisecondi!).

🌟 Cosa rende Fish Audio S2 speciale?

Parla con te, non solo per te: Non devi scrivere comandi complicati. Puoi usare il linguaggio naturale. Se scrivi "Parla come se avessi appena corso una maratona", lui lo fa.
Il Coro Multi-voce: Puoi chiedere di creare una scena con 5 persone diverse che parlano tutte insieme, e lui sa esattamente chi è chi, senza confondersi. È come se avesse un'orchestra completa dentro il computer.
Nessuna dimenticanza: Se gli chiedi di leggere un intero libro, non si perde a metà strada. Mantiene la stessa voce e lo stesso stile per ore e ore.

In sintesi

Fish Audio S2 è come aver dato a un robot un libro di recitazione infinito, un orecchio musicale perfetto e la capacità di pensare velocemente. È stato reso pubblico (open-source) perché chiunque, dagli sviluppatori alle piccole aziende, possa usarlo per creare voci per i propri video, giochi o assistenti virtuali, rendendo il mondo digitale molto più umano e naturale.

È come se avessimo insegnato al computer non solo a leggere, ma a sentire ed esprimere le emozioni. 🎭🤖✨

Each language version is independently generated for its own context, not a direct translation.

Ecco un riassunto tecnico dettagliato del rapporto tecnico su Fish Audio S2, presentato in italiano.

Panoramica

Il documento introduce Fish Audio S2, un sistema avanzato di Text-to-Speech (TTS) open-source progettato per superare i limiti attuali nella generazione vocale controllabile, naturale e multi-parlante. A differenza dei modelli precedenti che spesso richiedono prompt globali o controlli rigidi, S2 si distingue per la sua capacità di seguire istruzioni in linguaggio naturale per un controllo granulare su prosodia, emozione e stile, supportando inoltre la generazione di dialoghi multi-parlante e lunghi in un'unica passata.

1. Il Problema

Nonostante i progressi nei modelli TTS su larga scala, persistono diverse sfide critiche:

Controllo Limitato: Generare caratteristiche vocali fini (es. "ridere", "sussurrare", "arrabbiato") tramite descrizioni testuali libere rimane un collo di bottiglia.
Disallineamento dei Dati: Le pipeline di addestramento tradizionali spesso separano la curazione dei dati pre-addestramento dai modelli di ricompensa usati nel Reinforcement Learning (RL), creando uno shift di distribuzione che degrada le prestazioni.
Complessità della Generazione: La generazione di audio ad alta fedeltà con RVQ (Residual Vector Quantization) aumenta esponenzialmente la lunghezza della sequenza, limitando la capacità dei modelli di gestire contesti lunghi e dialoghi multi-parlante.
Mancanza di Benchmark: C'è una carenza di valutazioni standardizzate per il controllo fine-granulare e il rispetto delle istruzioni in TTS.

2. Metodologia e Architettura

A. Architettura Dual-Autoregressive (Dual-AR)

Fish Audio S2 mantiene il backbone Transformer "decoder-only" e l'audio codec basato su RVQ di S1, ma introduce un'architettura ibrida per gestire l'efficienza:

Slow AR (Backbone Semantico): Utilizza un modello Qwen3-4B pre-addestrato. Opera autoregressivamente sulla sequenza completa (testo + token audio semantici) per pianificare il contenuto linguistico e la struttura prosodica grossolana.
Fast AR (Decodificatore Acustico): Una rete leggera (4 layer Transformer) che ricostruisce i dettagli acustici fini. Riceve lo stato nascosto dello Slow AR come condizione e genera i restanti 9 livelli di RVQ in modo parallelo/autoregressivo.
Fusione Multi-Codebook (MCF): I token dei 10 codebook vengono aggregati in un vettore continuo per alimentare il passo successivo dello Slow AR, garantendo coerenza temporale.

B. Pipeline Dati Multi-Scopo

Per risolvere il problema del disallineamento, il team ha sviluppato una pipeline dati che riutilizza gli stessi modelli in due fasi:

Fase di Pre-addestramento: I modelli agiscono come filtri e annotatori.
- Modello di Qualità Vocale: Filtra audio a bassa fedeltà (rumore, voci sovrapposte).
- ASR Ricco (Rich-Transcription): Trascrive il testo e genera didascalie naturali per caratteristiche vocali (es. [risata prolungata], [ansimare], [arrabbiato]) e turni di parola.
Fase di Post-addestramento (RL): Gli stessi modelli vengono riutilizzati come segnali di ricompensa, eliminando lo shift di distribuzione.

C. Allineamento tramite RL (Multi-Reward)

Il team ha implementato una variante di GRPO (Group Relative Policy Optimization) che non richiede una rete di valore separata (più efficiente per sequenze lunghe).

Ricompensa Composita: Il segnale di ricompensa totale ( $R_{total}$ $R_{t o t a l}$ ) è una fusione ponderata di tre dimensioni:
1. Accuratezza Semantica ( $R_{STT}$ ): Verifica che il testo generato corrisponda al prompt (usando l'ASR).
2. Qualità Acustica ( $R_{Pref}$ ): Valuta la qualità del suono e l'assenza di artefatti (usando il modello di qualità vocale).
3. Somiglianza del Timbro ( $R_{SIM}$ ): Misura la similarità del parlante rispetto al riferimento.
Questo approccio bilancia espressività e robustezza, riducendo allucinazioni e deriva del timbro.

D. Motore di Inferenza

Per la produzione, è stato sviluppato un motore basato su SGLang:

Supporta il caching delle chiavi (KV cache) per audio e testo tramite una struttura RadixTree ottimizzata.
Permette il co-scheduling della decodifica del vocoder e del modello LLM sulla stessa GPU.
Risultati: RTF (Real-Time Factor) di 0.195 e TTFA (Time-to-First-Audio) inferiore a 100 ms.

3. Contributi Chiave

Pipeline Dati Duale: L'uso degli stessi modelli di valutazione per la filtrazione dei dati e per la ricompensa RL, garantendo coerenza distributiva.
Architettura Dual-AR: Separazione efficace tra modellazione semantica temporale e generazione acustica profonda, permettendo contesti lunghi e multi-parlante.
Allineamento RL Multi-Obiettivo: Ottimizzazione congiunta di accuratezza, qualità e similarità del parlante senza costose reti di valore.
Nuovi Benchmark: Introduzione del Fish Audio Instruction Benchmark per valutare il rispetto dei tag vocali in-linea (es. [sussurra] inseriti nel testo).
Open Source Completo: Rilascio di pesi, codice di fine-tuning e motore di inferenza produttivo.

4. Risultati Sperimentali

Valutazione Oggettiva

Seed-TTS-Eval: S2 ottiene i migliori risultati WER (Word Error Rate) sia in cinese (0.54%) che in inglese (0.99%), superando modelli come CosyVoice 3 e Qwen3-TTS.
Multilingua: Su 24 lingue (Minimax Testset), S2 ottiene il WER più basso in 11 lingue e la migliore somiglianza del parlante (SIM) in 17 lingue.
Generazione Lunga: Su Long-TTS-Eval, S2 dimostra una stabilità superiore nel mantenere il timbro costante (bassa deviazione standard della SIM) su audio lunghi, con WER/CER inferiori rispetto a S1 e altri competitor.

Valutazione Soggettiva (LLM-as-a-Judge)

Audio Turing Test: S2 ottiene un punteggio medio di 0.483 (che sale a 0.515 con riscrittura delle istruzioni), superando modelli precedenti come Seed-TTS e MiniMax-Speech, avvicinandosi all'indistinguibilità umana.
Emergent TTS Eval: Contro un baseline GPT-4o-mini-tts, S2 ottiene un tasso di vittoria complessivo dell'81.88%, eccellendo in scenari complessi come paralinguistica (91.61%) e domande (84.41%).
Fish Audio Instruction Benchmark: S2 mostra un tasso di attivazione dei tag (TAR) del 98.4% in cinese e 88.1% in inglese, significativamente superiore a S1, confermando la capacità di seguire istruzioni granulari in zero-shot.

5. Significato e Impatto

Fish Audio S2 rappresenta un salto qualitativo significativo nel campo del TTS open-source:

Democratizzazione dell'Alta Qualità: Fornisce un sistema di livello industriale (bassa latenza, alta fedeltà) accessibile alla comunità di ricerca.
Controllo Naturale: Sposta il paradigma dal controllo tramite parametri tecnici o prompt rigidi al controllo tramite linguaggio naturale, rendendo la creazione di contenuti audio più intuitiva.
Scalabilità: La pipeline dati e l'architettura RL dimostrano come scalare l'addestramento TTS mantenendo la coerenza tra le fasi di pre-addestramento e ottimizzazione.
Applicazioni Pratiche: Le prestazioni in termini di latenza e streaming lo rendono ideale per chatbot conversazionali, doppiaggio video e narrazione di audiolibri in tempo reale.

In sintesi, Fish Audio S2 stabilisce un nuovo standard per i sistemi TTS open-source, combinando un'architettura innovativa, una strategia di addestramento robusta e un'implementazione produttiva efficiente.