Fish Audio S2 Technical Report

O artigo apresenta o Fish Audio S2, um sistema de texto-para-fala de código aberto que oferece geração multi-falante e multi-turno com controle por instruções em linguagem natural, destacando-se por uma receita de treinamento escalável e um motor de inferência otimizado para streaming com baixa latência.

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei Han

Publicado Wed, 11 Ma
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você quer ensinar um robô a contar histórias, mas não apenas lendo um texto de forma robótica. Você quer que ele saiba como contar: se deve sussurrar um segredo, gritar de raiva, rir de uma piada, ou alternar a voz entre dois personagens em uma conversa.

O Fish Audio S2 é exatamente isso: um novo "cérebro" de inteligência artificial que transforma texto em fala, mas com um superpoder especial: ele entende instruções em linguagem natural.

Aqui está uma explicação simples de como eles fizeram isso, usando analogias do dia a dia:

1. O Grande Problema: O "Tradutor" e o "Ator"

Antes, os sistemas de voz funcionavam como uma linha de montagem de duas etapas separadas:

  1. Um robô transformava o texto em "esqueleto" de som (palavras e ritmo).
  2. Outro robô tentava vestir esse esqueleto com "carne" (emoção, tom de voz, detalhes).

O problema? Eles não conversavam bem entre si. Se o primeiro robô pensasse "falar triste", o segundo podia não entender e fazer uma voz feliz.

A Solução do Fish S2 (O Arquiteto Duplo):
Os criadores do Fish S2 inventaram um sistema de dois andares que trabalham juntos perfeitamente:

  • O Andar Lento (O Diretor de Cinema): Ele lê o roteiro e decide o que vai acontecer. Ele planeja a história, a emoção geral e a estrutura. É como um diretor que diz: "Agora o personagem vai chorar".
  • O Andar Rápido (O Ator de Voz): Assim que o Diretor dá o sinal, o Ator entra em ação instantaneamente para criar os detalhes finos da voz (o choro, a respiração, o sopro).
  • A Mágica: Eles estão tão conectados que o Ator sabe exatamente o que fazer antes mesmo de terminar a frase. Isso permite que o sistema crie vozes complexas e longas sem travar ou ficar confuso.

2. A Escola de Treinamento: O "Chef" e o "Crítico"

Para treinar esse robô, eles precisavam de milhões de horas de áudio. Mas como ensinar um robô a entender que "falar com raiva" é diferente de "falar com medo"?

Eles criaram um sistema de dupla função, como um professor que também é o juiz:

  • O Filtro (O Chef de Cozinha): Antes de usar qualquer áudio para treinar, eles usam um modelo para checar a qualidade. Se o áudio tiver ruído de fundo ou a voz estiver tremendo, ele joga fora.
  • O Crítico (O Juiz de Sabor): O mesmo modelo que serviu de filtro agora vira o juiz. Quando o robô tenta falar, o Crítico escuta e diz: "Isso soou muito artificial" ou "Você esqueceu de rir aqui".
  • O Resultado: Como o "professor" e o "juiz" são a mesma pessoa, o robô nunca fica confuso sobre o que é "bom". Ele aprende rápido e sem erros de interpretação.

3. O Superpoder: "Faça como se..."

A maior inovação do Fish S2 é que você não precisa aprender códigos complicados. Você pode falar com ele como se estivesse falando com um ator humano.

  • Antes: Você tinha que usar comandos técnicos como [speed=fast] ou [emotion=angry].
  • Agora: Você pode escrever no meio do texto: "Ele disse isso sussurrando com medo" ou "Agora, riso alto".
    O sistema entende essas instruções no meio da frase e muda a voz exatamente naquele ponto, como um ator profissional seguindo um roteiro.

4. A Velocidade: O Trem de Alta Velocidade

Geralmente, quando uma IA gera uma voz muito realista, ela demora para começar a falar (você espera uns segundos e nada sai).

O Fish S2 é como um trem de alta velocidade:

  • Ele começa a falar em menos de 100 milissegundos (mais rápido que um piscar de olhos).
  • Ele gera áudio 5 vezes mais rápido do que o tempo real.
  • Isso significa que você pode ter uma conversa em tempo real com ele, sem aquele silêncio chato de "carregando".

5. O Que Eles Conseguem Fazer Agora?

Graças a essa tecnologia, o Fish S2 consegue:

  • Conversas de Grupo: Criar uma cena onde três pessoas diferentes conversam entre si, cada uma com sua própria voz e personalidade, sem precisar configurar cada uma separadamente.
  • Histórias Longas: Ler um livro inteiro mantendo a mesma voz e a mesma emoção do início ao fim, sem a voz "desmoronar" ou ficar estranha depois de 10 minutos.
  • Aprendizado de Voz: Se você der uma amostra de 10 segundos da sua voz, ele consegue imitá-la perfeitamente e falar qualquer coisa com o seu sotaque e tom.

Resumo Final

O Fish Audio S2 é como dar um "livro de direção" completo para uma IA. Em vez de apenas ler o texto, ela entende o contexto, a emoção, quem está falando e como deve soar. E o melhor de tudo: eles liberaram o código e o modelo para que qualquer pessoa possa usar, testar e criar suas próprias vozes mágicas na internet.

É como se a barreira entre "ler um texto" e "contar uma história com alma" tivesse sido derrubada.