Fish Audio S2 Technical Report

Ce rapport technique présente Fish Audio S2, un système de synthèse vocale open-source capable de suivre des instructions en langage naturel pour générer de la parole multi-parleurs et multi-tours, accompagné d'un moteur d'inférence optimisé pour la production.

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei Han

Publié Wed, 11 Ma
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée du rapport technique sur Fish Audio S2, conçue pour être comprise par tout le monde, sans jargon technique complexe.

Imaginez que vous voulez créer un film, un livre audio ou un jeu vidéo, mais que vous n'avez pas d'acteurs, de narrateurs ou de voix off. Fish Audio S2 est comme un super-cast d'acteurs virtuels que vous pouvez diriger avec votre simple voix (ou vos mots).

Voici comment cela fonctionne, étape par étape, avec des analogies du quotidien :

1. Le Concept de Base : Un Chef d'Orchestre Magique

Avant, les robots qui parlaient (TTS) étaient un peu comme des robots de cuisine : ils suivaient une recette stricte. Si vous vouliez qu'ils parlent en chuchotant ou en colère, c'était difficile.

Fish Audio S2, c'est différent. C'est un chef d'orchestre qui comprend le langage naturel. Vous pouvez lui dire : "Parle comme un pirate en colère, mais en chuchotant, puis change de voix pour imiter ta grand-mère." Et il le fait instantanément, sans avoir besoin de lui apprendre chaque émotion séparément.

2. La Recette Secrète : Comment ils l'ont appris ?

Pour entraîner ce robot, les chercheurs n'ont pas juste donné des milliers d'heures de voix au hasard. Ils ont créé une usine de tri ultra-intelligente (le "Data Pipeline").

  • Le Filtre de Qualité (Le Contrôleur de Qualité) : Imaginez un inspecteur très strict qui écoute chaque enregistrement. S'il y a du bruit de fond, une voix qui tremble ou un accent bizarre, il jette l'enregistrement à la poubelle. Ce robot ne garde que les voix les plus claires et les plus belles.
  • Le Traducteur de Sentiments (Le Sous-titreur Magique) : Une fois la voix nettoyée, un autre robot la "lisit" pour comprendre non seulement ce qui est dit, mais comment c'est dit. Il ajoute des étiquettes invisibles dans le texte : [rires], [soupir], [parle vite], [voix tremblante].
  • L'Entraînement par Récompense (Le Jeu Vidéo) : Ensuite, le robot apprend en jouant. Il essaie de parler, et si sa voix sonne bien et respecte les instructions (comme "sois triste"), il gagne des points. S'il fait une erreur, il perd des points. C'est comme apprendre à un enfant à bien parler en le félicitant quand il fait de son mieux.

3. L'Architecture : Deux Cerveaux qui Travaillent Ensemble

Le secret de la rapidité et de la qualité de Fish Audio S2 réside dans sa structure, qu'ils appellent "Dual-Autoregressive" (Double Génération). Imaginez que c'est un duo de musiciens :

  • Le Compositeur (Le "Slow AR") : C'est le grand cerveau. Il décide de l'histoire, du rythme, de la structure de la phrase et de l'émotion générale. Il travaille un peu plus lentement, comme un chef qui planifie le menu.
  • L'Instrumentiste (Le "Fast AR") : C'est le virtuose rapide. Une fois que le compositeur a donné le ton, l'instrumentiste ajoute tous les détails fins : la respiration, le grain de la voix, les petits bruits de bouche. Il travaille à une vitesse fulgurante.

En séparant ces deux tâches, le système est capable de générer des heures d'audio sans se fatiguer et sans perdre le fil, tout en gardant une qualité de studio.

4. Les Super-Pouvoirs Concrets

Grâce à cette technologie, Fish Audio S2 fait trois choses incroyables :

  • Parler comme un humain (Instruction Following) : Vous pouvez lui donner des instructions précises au milieu d'une phrase. "Dis 'Bonjour' [en riant], puis 'Comment vas-tu ?' [très sérieusement]." Il comprend et change de ton instantanément.
  • Une conversation à plusieurs voix (Multi-Speaker) : Imaginez un podcast avec trois personnes qui parlent en même temps. Ce modèle peut générer tout le dialogue d'un coup, en changeant de voix pour chaque personnage, comme si vous aviez trois acteurs dans la pièce.
  • La vitesse de l'éclair (Ultra-low Latency) : C'est peut-être le plus impressionnant. Le système est si rapide qu'il commence à parler en moins de 100 millisecondes (plus vite que le clignement d'un œil). C'est comme si vous lui posiez une question et qu'il répondait avant même que vous ayez fini de penser à la question. C'est parfait pour les chats en direct ou les jeux vidéo.

5. Pourquoi c'est important pour nous ?

Jusqu'à présent, pour avoir une voix de qualité, il fallait payer des studios ou utiliser des systèmes fermés et chers. Fish Audio S2 est gratuit et ouvert.

  • Pour les créateurs : Vous pouvez créer des livres audio, des doublages de vidéos ou des personnages de jeux vidéo sans budget.
  • Pour les développeurs : Ils ont mis en ligne le "moteur" (SGLang) qui permet d'utiliser ce robot très rapidement, même sur des serveurs normaux.

En Résumé

Fish Audio S2 est comme un acteur polymorphe qui peut devenir n'importe qui, dire n'importe quoi, avec n'importe quelle émotion, et ce, à la vitesse de la lumière. Il a été entraîné par une équipe qui a créé un système de tri et de récompense très intelligent pour s'assurer que chaque mot est prononcé avec naturel et précision.

C'est une étape majeure pour rendre la technologie de la voix aussi accessible et naturelle que de parler à un ami.