Each language version is independently generated for its own context, not a direct translation.

Imagine que você quer ensinar um robô a contar histórias, mas não apenas lendo um texto de forma robótica. Você quer que ele saiba como contar: se deve sussurrar um segredo, gritar de raiva, rir de uma piada, ou alternar a voz entre dois personagens em uma conversa.

O Fish Audio S2 é exatamente isso: um novo "cérebro" de inteligência artificial que transforma texto em fala, mas com um superpoder especial: ele entende instruções em linguagem natural.

Aqui está uma explicação simples de como eles fizeram isso, usando analogias do dia a dia:

1. O Grande Problema: O "Tradutor" e o "Ator"

Antes, os sistemas de voz funcionavam como uma linha de montagem de duas etapas separadas:

Um robô transformava o texto em "esqueleto" de som (palavras e ritmo).
Outro robô tentava vestir esse esqueleto com "carne" (emoção, tom de voz, detalhes).

O problema? Eles não conversavam bem entre si. Se o primeiro robô pensasse "falar triste", o segundo podia não entender e fazer uma voz feliz.

A Solução do Fish S2 (O Arquiteto Duplo):
Os criadores do Fish S2 inventaram um sistema de dois andares que trabalham juntos perfeitamente:

O Andar Lento (O Diretor de Cinema): Ele lê o roteiro e decide o que vai acontecer. Ele planeja a história, a emoção geral e a estrutura. É como um diretor que diz: "Agora o personagem vai chorar".
O Andar Rápido (O Ator de Voz): Assim que o Diretor dá o sinal, o Ator entra em ação instantaneamente para criar os detalhes finos da voz (o choro, a respiração, o sopro).
A Mágica: Eles estão tão conectados que o Ator sabe exatamente o que fazer antes mesmo de terminar a frase. Isso permite que o sistema crie vozes complexas e longas sem travar ou ficar confuso.

2. A Escola de Treinamento: O "Chef" e o "Crítico"

Para treinar esse robô, eles precisavam de milhões de horas de áudio. Mas como ensinar um robô a entender que "falar com raiva" é diferente de "falar com medo"?

Eles criaram um sistema de dupla função, como um professor que também é o juiz:

O Filtro (O Chef de Cozinha): Antes de usar qualquer áudio para treinar, eles usam um modelo para checar a qualidade. Se o áudio tiver ruído de fundo ou a voz estiver tremendo, ele joga fora.
O Crítico (O Juiz de Sabor): O mesmo modelo que serviu de filtro agora vira o juiz. Quando o robô tenta falar, o Crítico escuta e diz: "Isso soou muito artificial" ou "Você esqueceu de rir aqui".
O Resultado: Como o "professor" e o "juiz" são a mesma pessoa, o robô nunca fica confuso sobre o que é "bom". Ele aprende rápido e sem erros de interpretação.

3. O Superpoder: "Faça como se..."

A maior inovação do Fish S2 é que você não precisa aprender códigos complicados. Você pode falar com ele como se estivesse falando com um ator humano.

Antes: Você tinha que usar comandos técnicos como [speed=fast] ou [emotion=angry].
Agora: Você pode escrever no meio do texto: "Ele disse isso sussurrando com medo" ou "Agora, riso alto".
O sistema entende essas instruções no meio da frase e muda a voz exatamente naquele ponto, como um ator profissional seguindo um roteiro.

4. A Velocidade: O Trem de Alta Velocidade

Geralmente, quando uma IA gera uma voz muito realista, ela demora para começar a falar (você espera uns segundos e nada sai).

O Fish S2 é como um trem de alta velocidade:

Ele começa a falar em menos de 100 milissegundos (mais rápido que um piscar de olhos).
Ele gera áudio 5 vezes mais rápido do que o tempo real.
Isso significa que você pode ter uma conversa em tempo real com ele, sem aquele silêncio chato de "carregando".

5. O Que Eles Conseguem Fazer Agora?

Graças a essa tecnologia, o Fish S2 consegue:

Conversas de Grupo: Criar uma cena onde três pessoas diferentes conversam entre si, cada uma com sua própria voz e personalidade, sem precisar configurar cada uma separadamente.
Histórias Longas: Ler um livro inteiro mantendo a mesma voz e a mesma emoção do início ao fim, sem a voz "desmoronar" ou ficar estranha depois de 10 minutos.
Aprendizado de Voz: Se você der uma amostra de 10 segundos da sua voz, ele consegue imitá-la perfeitamente e falar qualquer coisa com o seu sotaque e tom.

Resumo Final

O Fish Audio S2 é como dar um "livro de direção" completo para uma IA. Em vez de apenas ler o texto, ela entende o contexto, a emoção, quem está falando e como deve soar. E o melhor de tudo: eles liberaram o código e o modelo para que qualquer pessoa possa usar, testar e criar suas próprias vozes mágicas na internet.

É como se a barreira entre "ler um texto" e "contar uma história com alma" tivesse sido derrubada.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Fish Audio S2

1. Problema e Contexto

O campo de Síntese de Fala (TTS) tem avançado rapidamente com modelos de grande escala, mas ainda enfrenta desafios significativos:

Controle Granular: A geração de instruções naturais de linguagem para controlar características vocais finas (emoção, prosódia, pausas) em escala é um gargalo, pois a anotação manual não é escalável.
Alinhamento e Distribuição: Métodos de aprendizado por reforço (RL) tradicionais frequentemente usam modelos de recompensa treinados independentemente do pipeline de pré-treinamento, criando uma discrepância de distribuição que prejudica o alinhamento.
Geração de Longo Prazo e Multi-falante: Manter a estabilidade, consistência de timbre e coerência em diálogos longos e multi-falantes em uma única passagem (single-pass) é difícil para arquiteturas existentes.
Latência: A maioria dos sistemas de alta qualidade não atende aos requisitos de latência ultra-baixa necessários para aplicações em tempo real (streaming).

O Fish Audio S2 foi desenvolvido para superar essas limitações, oferecendo um sistema TTS de código aberto, multilíngue, com controle via instruções de linguagem natural, suporte nativo a múltiplos falantes e turnos de conversa, e latência extremamente baixa.

2. Metodologia

A arquitetura e o treinamento do Fish Audio S2 baseiam-se em três pilares principais:

A. Arquitetura: Dual-Autoregressive (Dual-AR)

O modelo mantém o backbone Transformer apenas-decodificador e o codec de áudio RVQ (Residual Vector Quantization) do Fish Audio S1, mas introduz uma arquitetura Dual-Autoregressive para separar a modelagem semântica da acústica:

Slow AR (Lento): Utiliza um modelo base Qwen3-4B pré-treinado. Ele opera autoregressivamente sobre a sequência completa (texto + tokens de áudio semânticos), prevendo o token semântico principal ( $q^{(0)}_t$ ) a cada passo. Este componente planeja o conteúdo linguístico e a estrutura prosódica grossa.
Fast AR (Rápido): Uma rede leve (4 camadas Transformer) que, dada a saída do Slow AR, gera os tokens acústicos restantes ( $q^{(1)}_t \dots q^{(N-1)}_t$ ) de forma autoregressiva em profundidade.
Fusão de Múltiplos Codebooks (MCF): Os tokens de todos os codebooks são agregados para formar o embedding de entrada para o próximo passo do Slow AR, garantindo que a informação acústica detalhada influencie a geração semântica futura.
Tokenizador de Áudio: Baseado no Descript Audio Codec (DAC), otimizado para streaming causal, com uma taxa de downsampling de 2048x (~21 Hz) e uso de convoluções causais e blocos Transformer com janela deslizante.

B. Pipeline de Dados de Propósito Duplo

Para resolver o problema da discrepância de distribuição e a falta de anotações em escala, os autores desenvolveram um pipeline de dados de três estágios que reutiliza os mesmos modelos como filtros e recompensas:

Separação e Segmentação: Isolamento de voz e detecção de atividade vocal (VAD).
Filtragem de Qualidade: Um modelo de avaliação de qualidade de fala (baseado em w2v-BERT 2.0) filtra amostras de baixa fidelidade.
Transcrição Rica (Rich-Transcription): Um modelo ASR (baseado em Qwen3-Omni) transcreve o texto e gera automaticamente legendas de linguagem natural para características vocais (ex: [risada prolongada], [inspiração], [raiva]) e turnos de falantes.

Inovação: Os mesmos modelos de qualidade e ASR são reutilizados como modelos de recompensa durante o treinamento por RL, eliminando o distribution shift entre o pré-treinamento e o ajuste fino.

C. Alinhamento por Aprendizado por Reforço (RL)

Após o pré-treinamento e SFT (Fine-Tuning Supervisionado), o modelo passa por um estágio de pós-treinamento baseado em RL:

Algoritmo: Uma variante do GRPO (Group Relative Policy Optimization), que elimina a necessidade de uma rede de valor (value network) pesada, estimando vantagens a partir de estatísticas de grupo de amostras.
Recompensa Multi-dimensional: O sinal de recompensa total ( $R_{total}$ $R_{t o t a l}$ ) é uma fusão ponderada de três dimensões:
1. Precisão Semântica ( $R_{STT}$ ): Baseada na transcrição ASR, penalizando alucinações e ignorância de instruções.
2. Preferência Acústica ( $R_{Pref}$ ): Baseada no modelo de qualidade de fala, penalizando ruído e artefatos.
3. Similaridade de Timbre ( $R_{SIM}$ ): Baseada em modelos de impressão vocal para garantir consistência do falante.
Otimização de Memória: Uso de um mecanismo de troca de pesos LoRA para calcular a divergência KL sem manter um modelo de referência completo na VRAM.

3. Principais Contribuições

Seguimento de Instruções em Linguagem Natural: O modelo aceita descrições textuais livres para controlar emoções, prosódia e estilo de fala de forma granular, sem necessidade de prompts globais longos.
Geração Nativa Multi-falante e Multi-turno: Capacidade de gerar diálogos complexos e intercalados com múltiplos falantes distintos em uma única passagem, capturando a dinâmica da conversa natural.
Pipeline de Dados Unificado: A reutilização de modelos de filtragem e transcrição como sinais de recompensa no RL, garantindo consistência estatística entre os estágios de treinamento.
Motor de Inferência de Produção (SGLang): Implementação de um motor de inferência baseado em SGLang otimizado para TTS, alcançando latência ultra-baixa e alto throughput.
Benchmarks de Avaliação: Introdução do Fish Audio Instruction Benchmark para avaliar especificamente o seguimento de tags de voz em linha (inline tags).

4. Resultados

O Fish Audio S2 foi avaliado em benchmarks objetivos e subjetivos (LLM-as-a-Judge), demonstrando desempenho superior ou competitivo:

Desempenho Objetivo (WER/CER):
- No Seed-TTS-Eval, alcançou o menor WER em chinês (0.54%) e inglês (0.99%), superando modelos como CosyVoice 3 e Qwen3-TTS.
- No Minimax Multilingual Testset (24 idiomas), obteve o menor WER em 11 idiomas e a maior similaridade de falante (SIM) em 17 idiomas.
- No Long-Audio Benchmark, demonstrou robustez em gerações longas, com menor erro de transcrição e menor desvio padrão de similaridade de falante (indicando estabilidade de timbre).
Desempenho Subjetivo (LLM-as-a-Judge):
- Audio Turing Test: Alcançou uma média de 0.483 (melhorando para 0.515 com reescrita de instruções), superando modelos anteriores e aproximando-se da indistinguibilidade humana.
- Emergent TTS Eval: Alcançou uma taxa de vitória global de 81.88% contra a base de comparação, destacando-se em paralinguagem (91.61%) e complexidade sintática.
- Fish Audio Instruction Benchmark: Alcançou uma taxa de ativação de tags (TAR) de 93.3% e uma pontuação de qualidade de 4.51/5.0, superando significativamente a versão anterior (S1).
Métricas de Inferência (Produção):
- Fator de Tempo Real (RTF): 0.195 (gera áudio muito mais rápido que o tempo real).
- Tempo até o Primeiro Áudio (TTFA): < 100 ms.
- Throughput: > 3000 tokens de áudio/segundo sob alta concorrência.

5. Significado e Impacto

O Fish Audio S2 representa um avanço significativo no estado da arte de TTS de código aberto. Ao integrar arquiteturas eficientes (Dual-AR), pipelines de dados inteligentes que unificam filtragem e recompensa, e técnicas avançadas de RL, o modelo resolve problemas críticos de controle, estabilidade e latência.

A liberação pública dos pesos do modelo, do código de ajuste fino e do motor de inferência baseado em SGLang democratiza o acesso a tecnologias de síntese de fala de nível industrial. Isso permite que pesquisadores e desenvolvedores criem aplicações escaláveis, como dublagem de vídeo, narração de audiobooks e chatbots conversacionais com vozes personalizadas e altamente expressivas, estabelecendo um novo padrão para sistemas TTS controláveis e de baixa latência.

Fish Audio S2 Technical Report