Fish Audio S2 Technical Report

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée du rapport technique sur Fish Audio S2, conçue pour être comprise par tout le monde, sans jargon technique complexe.

Imaginez que vous voulez créer un film, un livre audio ou un jeu vidéo, mais que vous n'avez pas d'acteurs, de narrateurs ou de voix off. Fish Audio S2 est comme un super-cast d'acteurs virtuels que vous pouvez diriger avec votre simple voix (ou vos mots).

Voici comment cela fonctionne, étape par étape, avec des analogies du quotidien :

1. Le Concept de Base : Un Chef d'Orchestre Magique

Avant, les robots qui parlaient (TTS) étaient un peu comme des robots de cuisine : ils suivaient une recette stricte. Si vous vouliez qu'ils parlent en chuchotant ou en colère, c'était difficile.

Fish Audio S2, c'est différent. C'est un chef d'orchestre qui comprend le langage naturel. Vous pouvez lui dire : "Parle comme un pirate en colère, mais en chuchotant, puis change de voix pour imiter ta grand-mère." Et il le fait instantanément, sans avoir besoin de lui apprendre chaque émotion séparément.

2. La Recette Secrète : Comment ils l'ont appris ?

Pour entraîner ce robot, les chercheurs n'ont pas juste donné des milliers d'heures de voix au hasard. Ils ont créé une usine de tri ultra-intelligente (le "Data Pipeline").

Le Filtre de Qualité (Le Contrôleur de Qualité) : Imaginez un inspecteur très strict qui écoute chaque enregistrement. S'il y a du bruit de fond, une voix qui tremble ou un accent bizarre, il jette l'enregistrement à la poubelle. Ce robot ne garde que les voix les plus claires et les plus belles.
Le Traducteur de Sentiments (Le Sous-titreur Magique) : Une fois la voix nettoyée, un autre robot la "lisit" pour comprendre non seulement ce qui est dit, mais comment c'est dit. Il ajoute des étiquettes invisibles dans le texte : [rires], [soupir], [parle vite], [voix tremblante].
L'Entraînement par Récompense (Le Jeu Vidéo) : Ensuite, le robot apprend en jouant. Il essaie de parler, et si sa voix sonne bien et respecte les instructions (comme "sois triste"), il gagne des points. S'il fait une erreur, il perd des points. C'est comme apprendre à un enfant à bien parler en le félicitant quand il fait de son mieux.

3. L'Architecture : Deux Cerveaux qui Travaillent Ensemble

Le secret de la rapidité et de la qualité de Fish Audio S2 réside dans sa structure, qu'ils appellent "Dual-Autoregressive" (Double Génération). Imaginez que c'est un duo de musiciens :

Le Compositeur (Le "Slow AR") : C'est le grand cerveau. Il décide de l'histoire, du rythme, de la structure de la phrase et de l'émotion générale. Il travaille un peu plus lentement, comme un chef qui planifie le menu.
L'Instrumentiste (Le "Fast AR") : C'est le virtuose rapide. Une fois que le compositeur a donné le ton, l'instrumentiste ajoute tous les détails fins : la respiration, le grain de la voix, les petits bruits de bouche. Il travaille à une vitesse fulgurante.

En séparant ces deux tâches, le système est capable de générer des heures d'audio sans se fatiguer et sans perdre le fil, tout en gardant une qualité de studio.

4. Les Super-Pouvoirs Concrets

Grâce à cette technologie, Fish Audio S2 fait trois choses incroyables :

Parler comme un humain (Instruction Following) : Vous pouvez lui donner des instructions précises au milieu d'une phrase. "Dis 'Bonjour' [en riant], puis 'Comment vas-tu ?' [très sérieusement]." Il comprend et change de ton instantanément.
Une conversation à plusieurs voix (Multi-Speaker) : Imaginez un podcast avec trois personnes qui parlent en même temps. Ce modèle peut générer tout le dialogue d'un coup, en changeant de voix pour chaque personnage, comme si vous aviez trois acteurs dans la pièce.
La vitesse de l'éclair (Ultra-low Latency) : C'est peut-être le plus impressionnant. Le système est si rapide qu'il commence à parler en moins de 100 millisecondes (plus vite que le clignement d'un œil). C'est comme si vous lui posiez une question et qu'il répondait avant même que vous ayez fini de penser à la question. C'est parfait pour les chats en direct ou les jeux vidéo.

5. Pourquoi c'est important pour nous ?

Jusqu'à présent, pour avoir une voix de qualité, il fallait payer des studios ou utiliser des systèmes fermés et chers. Fish Audio S2 est gratuit et ouvert.

Pour les créateurs : Vous pouvez créer des livres audio, des doublages de vidéos ou des personnages de jeux vidéo sans budget.
Pour les développeurs : Ils ont mis en ligne le "moteur" (SGLang) qui permet d'utiliser ce robot très rapidement, même sur des serveurs normaux.

En Résumé

Fish Audio S2 est comme un acteur polymorphe qui peut devenir n'importe qui, dire n'importe quoi, avec n'importe quelle émotion, et ce, à la vitesse de la lumière. Il a été entraîné par une équipe qui a créé un système de tri et de récompense très intelligent pour s'assurer que chaque mot est prononcé avec naturel et précision.

C'est une étape majeure pour rendre la technologie de la voix aussi accessible et naturelle que de parler à un ami.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé du rapport sur Fish Audio S2, présenté en français.

1. Problématique et Contexte

Les systèmes de synthèse vocale (TTS) modernes, bien qu'ayant fait des progrès significatifs grâce aux grands modèles, souffrent encore de plusieurs limitations majeures :

Contrôle limité par instructions : La génération de caractéristiques vocales fines (émotion, prosodie, style) via des descriptions en langage naturel à grande échelle reste un goulot d'étranglement.
Décalage de distribution (Distribution Shift) : Les pipelines d'entraînement traditionnels séparent souvent la curation des données (pré-entraînement) et l'alignement par renforcement (RL), utilisant des modèles de récompense différents, ce qui crée un décalage entre les données d'entraînement et les objectifs de post-entraînement.
Génération complexe : La génération de dialogues multi-parleurs, multi-tours et de longs textes cohérents avec une latence ultra-faible est difficile à réaliser sans sacrifier la qualité ou la stabilité.
Manque de benchmarks granulaires : Il existe peu d'évaluations standardisées pour mesurer la capacité des modèles à suivre des instructions vocales fines (balises inline) au-delà des métriques classiques comme le taux d'erreur (WER).

2. Méthodologie et Architecture

Fish Audio S2 introduit une approche novatrice combinant une architecture de modèle hybride, un pipeline de données à double usage et un alignement par renforcement multi-récompenses.

A. Architecture : Dual-Autoregressive (Dual-AR)

Le modèle conserve le backbone Transformer "decoder-only" et le codec audio RVQ (Residual Vector Quantization) de la version S1, mais introduit une architecture Dual-AR pour découpler la modélisation sémantique temporelle de la génération acoustique en profondeur :

Slow AR (Backbone Sémantique) : Basé sur un modèle Qwen3-4B pré-entraîné, il génère séquentiellement les tokens sémantiques (premier codebook RVQ) et planifie le contenu linguistique et la structure prosodique globale.
Fast AR (Décodeur Acoustique) : Un réseau léger (4 couches Transformer) qui reconstruit les détails acoustiques fins (les 9 codebooks restants) conditionné par l'état caché du Slow AR. Il génère les tokens acoustiques de manière autoregressive en profondeur.
Fusion Multi-Codebook (MCF) : Les tokens des 10 codebooks sont agrégés pour former l'entrée du pas de temps suivant pour le Slow AR, assurant une cohérence entre les couches.

B. Pipeline de Données à Double Usage

Pour résoudre le problème du décalage de distribution, Fish Audio S2 utilise un pipeline de données en trois étapes où les mêmes modèles servent à la fois au filtrage/pré-entraînement et à l'alignement par RL :

Séparation et Segmentation : Isolement de la voix et découpage en segments.
Filtrage Qualité (Speech Quality Model) : Un modèle évalue la qualité (SNR, cohérence, intelligibilité) pour filtrer les données brutes. Ce même modèle sert de récompense acoustique lors du RL.
Transcription Riche (Rich-Transcription ASR) : Un modèle ASR basé sur Qwen3-Omni transcrit le texte et génère automatiquement des instructions en langage naturel pour les caractéristiques vocales (ex: [rire prolongé], [colère], [inspiration]). Ce modèle sert de récompense d'intelligibilité et de suivi d'instructions lors du RL.

C. Entraînement et Alignement par Renforcement (RL)

Pré-entraînement et SFT : Alignement du modèle sur des millions d'heures de données multilingues (80+ langues) avec une stratégie d'interleaving (texte/audio entrelacé) pour stabiliser la prononciation.
Post-entraînement RL (Multi-Reward) : Utilisation d'une variante de GRPO (Group Relative Policy Optimization) sans réseau de valeur (value network), ce qui réduit la consommation mémoire.
- La récompense totale ( $R_{total}$ $R_{t o t a l}$ ) est une fusion pondérée de trois dimensions :
  1. Précision Sémantique ( $R_{STT}$ ) : Basée sur la transcription ASR (pénalise les hallucinations et les instructions ignorées).
  2. Préférence Acoustique ( $R_{Pref}$ ) : Basée sur le modèle de qualité vocale.
  3. Similarité de Timbre ( $R_{SIM}$ ) : Basée sur la similarité cosinus avec la voix de référence.

3. Contributions Clés

Architecture Dual-AR Efficace : Permet une génération de haute fidélité avec une latence ultra-faible en séparant la complexité temporelle (gérée par un LLM de 4B) de la complexité acoustique (gérée par un petit réseau).
Pipeline de Données Unifié : Élimination du décalage de distribution entre le pré-entraînement et le RL en réutilisant les mêmes modèles d'évaluation comme récompenses.
Suivi d'Instructions Naturelles : Capacité native à suivre des descriptions textuelles libres pour contrôler l'émotion, le style et les événements paralinguistiques, sans nécessiter de tokens de contrôle dédiés.
Moteur d'Inférence SGLang : Intégration du modèle dans SGLang pour un déploiement de production avec un RTF (Real-Time Factor) de 0,195 et un TTFA (Time-to-First-Audio) inférieur à 100 ms.
Nouveau Benchmark : Introduction du Fish Audio Instruction Benchmark pour évaluer spécifiquement le suivi de balises vocales fines (TAR - Tag Activation Rate).

4. Résultats et Évaluation

Les performances ont été évaluées sur des benchmarks objectifs et subjectifs (LLM-as-a-Judge) :

Performance Objective (WER/SIM) :
- Seed-TTS-Eval : S2 obtient les meilleurs taux d'erreur (WER) en chinois (0,54%) et en anglais (0,99%), surpassant S1 et d'autres modèles open/closed-source.
- Multilingue : Sur le testset Minimax (24 langues), S2 obtient le WER le plus bas pour 11 langues et la meilleure similarité de speaker (SIM) pour 17 langues.
- Long-Form : Génération stable sur de longs textes avec une faible dérive de timbre (SIM-Std bas).
Évaluation Subjective (LLM-as-a-Judge) :
- Audio Turing Test : S2 atteint un score moyen de 0,483 (indistinguable d'un humain), passant à 0,515 avec réécriture des instructions, surpassant les modèles SOTA précédents.
- Emergent TTS Eval : Taux de victoire global de 81,88% contre une baseline, avec des performances exceptionnelles sur les paralinguistiques (91,61%) et la complexité syntaxique.
- Fish Audio Instruction Benchmark : Taux d'activation de balises (TAR) de 98,4% en chinois et 88,1% en anglais, avec des scores de naturalité et d'expressivité supérieurs à S1.

5. Signification et Impact

Fish Audio S2 représente une avancée majeure pour le TTS open-source en combinant :

Contrôle Granulaire : La capacité à générer des dialogues complexes et expressifs via des instructions en langage naturel naturel change la donne pour les applications comme le doublage vidéo, les livres audio et les chatbots conversationnels.
Efficacité Industrielle : Avec un RTF de 0,195 et une latence initiale de <100ms, le modèle est prêt pour une production à grande échelle, comblant le fossé entre la recherche académique et les déploiements réels.
Reproductibilité et Accessibilité : La publication des poids, du code de fine-tuning et du moteur d'inférence basé sur SGLang sur GitHub et Hugging Face démocratise l'accès à un état de l'art de qualité industrielle.

En résumé, Fish Audio S2 établit un nouveau standard pour la synthèse vocale contrôlable, multilingue et à faible latence, démontrant que l'alignement par renforcement multi-récompenses couplé à une architecture hybride peut surpasser les approches purement autoregressives traditionnelles.