Each language version is independently generated for its own context, not a direct translation.

¡Imagina que has descubierto una nueva especie de robot que no solo habla, sino que actúa como un actor de teatro, un narrador de cuentos y un director de cine, todo al mismo tiempo!

Este documento es el "manual de ingeniería" de Fish Audio S2, un nuevo sistema de Inteligencia Artificial creado por el equipo de Fish Audio. Su misión es simple pero revolucionaria: hacer que las máquinas hablen de forma tan natural, expresiva y controlable que sea casi imposible distinguirlos de un humano real.

Aquí te lo explico como si fuera una historia, usando analogías cotidianas:

1. El Problema: Los Robots Hablaban "Robótico"

Antes, los sistemas de voz (TTS) eran como un músico que solo sabe tocar una nota perfecta pero aburrida. Podían leer un texto, pero si le pedías que hablara "enojado", "susurrando" o "riendo", el robot se confundía o sonaba falso. Además, si tenías que hacer un podcast largo con varios personajes, el robot se perdía y cambiaba de voz a mitad de la frase.

2. La Solución: Fish Audio S2, el "Actor Polímata"

Fish Audio S2 es como un actor de teatro con una memoria fotográfica y un director de orquesta en su cabeza. Tiene tres superpoderes principales:

Escucha tus instrucciones como un humano: No necesitas aprender códigos raros. Si le dices: "Habla como un abuelo cansado que acaba de correr una maratón", el robot lo entiende y lo hace. Es como darle una dirección de actuación a un actor en lugar de darle un guion técnico.
Es un maestro del diálogo: Puede tener una conversación larga donde cambia de personaje en medio de la frase sin que se note. Es como si un solo actor pudiera interpretar a un padre, un hijo y una abuela en una sola escena, cambiando de voz y tono instantáneamente.
No se cansa nunca: Puede leer un libro entero o un artículo de noticias sin perder la voz, sin tartamudear y manteniendo el mismo tono de voz desde la primera hasta la última palabra.

3. ¿Cómo lo hicieron? (La "Cocina" Secreta)

Para lograr esto, el equipo no solo "alimentó" al robot con libros de texto. Crearon una fábrica de entrenamiento en tres etapas muy inteligente:

El Filtro de Calidad (El Inspector de Comida): Imagina que tienes miles de grabaciones de voz. Antes de enseñarles al robot, pasaron cada audio por un "inspector" (un modelo de IA) que tiraba a la basura las voces con ruido, eco o mala calidad. Solo las voces perfectas entraron a la cocina.
El Traductor de Emociones (El Guionista Creativo): Usaron otro robot para escuchar esas voces perfectas y escribirle al sistema qué estaba pasando. En lugar de solo transcribir "Hola", el robot escribió: "Hola (dicho con alegría y un poco de risa)". Esto le enseñó al sistema a conectar palabras con emociones.
El Entrenamiento con Premios (El Coach Deportivo): Aquí viene lo más genial. En lugar de solo corregir errores, usaron un sistema de premios y castigos (como en un videojuego).
- Si el robot hablaba bien y seguía las instrucciones: ¡Punto! (Premio).
- Si hablaba con ruido o ignoraba la instrucción de "susurrar": ¡Pérdida de puntos! (Castigo).
- Esto se hizo miles de millones de veces hasta que el robot aprendió a ser perfecto.

4. La Arquitectura: El "Dúo Dinámico"

El sistema tiene dos cerebros trabajando en equipo, como un director de orquesta y un solista:

El Director (Lento pero sabio): Decide qué decir y cómo se siente la historia (la semántica).
El Solista (Rápido y técnico): Se encarga de los detalles finos: el tono exacto, la respiración, la vibración de la voz.
Esta división permite que el sistema sea increíblemente rápido y no se trabe, incluso cuando habla durante horas.

5. Resultados: ¿Tan bueno es?

Los tests dicen que es el mejor del mundo abierto (open-source) hasta ahora:

Velocidad: Genera audio tan rápido que es como si tuviera superpoderes. Puedes escuchar la primera palabra en menos de 100 milisegundos (más rápido que un parpadeo).
Calidad: En pruebas donde humanos y otras IAs juzgan si la voz es real, Fish Audio S2 gana casi siempre. Incluso supera a gigantes cerrados como los de Google o Microsoft en ciertas pruebas de seguir instrucciones.
Multilingüe: Habla y entiende más de 20 idiomas, desde el chino hasta el árabe, manteniendo la misma calidad.

En Resumen

Fish Audio S2 es como darle un alma a la voz sintética. Ya no es solo una máquina que lee texto; es una herramienta que puede contar historias, hacer doblajes de películas, crear audiolibros con actores virtuales y chatear contigo como si fuera un amigo real.

Lo mejor de todo es que es de código abierto. Esto significa que cualquier desarrollador, estudiante o creador de contenido puede descargarlo, usarlo y crear sus propias voces mágicas sin tener que pagar millones de dólares. ¡Es como regalarle a todo el mundo el micrófono de un actor de Hollywood!

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del informe de Fish Audio S2, basado en el documento proporcionado:

Resumen Técnico: Fish Audio S2

1. El Problema

A pesar de los avances recientes en sistemas de Texto a Voz (TTS) de gran escala, existen desafíos significativos que limitan su adopción en aplicaciones de producción y su capacidad de control fino:

Falta de Control por Instrucciones: Generar instrucciones de lenguaje natural finas para características vocales (emoción, prosodia, paralingüísticos) a gran escala sigue siendo un cuello de botella.
Desalineación de Datos: Los pipelines de entrenamiento suelen separar la curación de datos (pre-entrenamiento) de los modelos de recompensa (alineación por RL), lo que introduce un desplazamiento de distribución (distribution shift) que degrada el rendimiento.
Limitaciones en Generación Larga y Multi-voz: Muchos modelos existentes luchan para mantener la coherencia en síntesis de audio largo, generar diálogos multi-voz intercalados en un solo pase o seguir instrucciones complejas sin alucinar.
Latencia y Eficiencia: Lograr una latencia ultra-baja (TTFA < 100ms) y un factor de tiempo real (RTF) bajo en entornos de producción sigue siendo difícil sin sacrificar calidad.

2. Metodología

Fish Audio S2 aborda estos problemas mediante una arquitectura unificada y un pipeline de datos innovador:

A. Arquitectura del Modelo

El sistema mantiene el backbone Transformer solo-decodificador y el códec de audio basado en RVQ (Residual Vector Quantization) de su predecesor (S1), pero introduce dos mejoras clave:

Tokenizador de Audio (RVQ): Utiliza una estrategia jerárquica con 10 libros de códigos (codebooks). El primero es semántico (entrenado con destilación semántica de w2v-BERT 2.0) y los restantes capturan detalles acústicos finos. Se han implementado convoluciones causales estrictas y bloques Transformer de ventana deslizante para permitir streaming de baja latencia.
Generación Dual-Autoregresiva (Dual-AR):
- Slow AR (Lento): Un modelo base (Qwen3-4B) que modela la semántica temporal y la estructura prosódica a nivel de token semántico ( $q^{(0)}_t$ ).
- Fast AR (Rápido): Una red ligera (4 capas) que reconstruye los detalles acústicos finos ( $q^{(1)}_t \dots q^{(N-1)}_t$ ) condicionada por el estado oculto del Slow AR.
- Fusión de Múltiples Libros de Códigos (MCF): Los tokens de todos los libros de códigos se agregan para formar la entrada del siguiente paso temporal, permitiendo una alta eficiencia de inferencia.

B. Pipeline de Datos de Propósito Dual

Para eliminar el desplazamiento de distribución entre el pre-entrenamiento y la alineación por RL, Fish Audio S2 utiliza un pipeline de datos de tres etapas donde los mismos modelos actúan como filtros y como modelos de recompensa:

Separación y Segmentación: Aislamiento de voz y detección de actividad vocal (VAD).
Filtrado de Calidad: Un modelo de calidad de voz (basado en w2v-BERT) filtra muestras de baja fidelidad. Este mismo modelo se usa luego como recompensa de calidad acústica en RL.
Transcripción Rica (Rich Transcription): Un modelo ASR (basado en Qwen3-Omni) transcribe el contenido y genera anotaciones de lenguaje natural para características vocales (ej. [risa prolongada], [enojado], [cambio de hablante]). Este modelo se reutiliza como recompensa de inteligibilidad y seguimiento de instrucciones en RL.

C. Entrenamiento y Alineación por RL

Pre-entrenamiento y SFT: Se alinea el modelo con tokens de audio discretos sobre 10 millones de horas de audio en ~80 idiomas. Se utiliza una estrategia de interleaving (intercalado) de texto y audio para asegurar una alineación monótona estricta.
Alineación Post-Entrenamiento (RL): Se implementa una variante de GRPO (Group Relative Policy Optimization) que elimina la necesidad de una red de valor costosa.
- Recompensa Multi-dimensional: Se optimiza conjuntamente la precisión semántica (ASR), la calidad acústica (Modelo de Calidad) y la similitud de voz (Modelo de huella vocal).
- Mecanismo LoRA: Se utiliza un mecanismo de intercambio de pesos LoRA para calcular la divergencia KL sin mantener un modelo de referencia completo en VRAM.

D. Motor de Inferencia

Se construye sobre SGLang, un framework de servicio optimizado para LLMs.

Optimizaciones: Uso de RadixAttention para cachear contextos de audio de referencia (mejorando la tasa de aciertos en caché KV), ejecución concurrente del decodificador de vocoder y del LLM en la misma GPU (MPS), y bypass de I/O para tokens acústicos discretos.
Rendimiento: Logra un RTF de 0.195 y un TTFA (tiempo hasta el primer audio) inferior a 100 ms.

3. Contribuciones Clave

Seguimiento de Instrucciones Mejorado: Capacidad superior para seguir descripciones de lenguaje natural libre para controlar la generación de voz (emoción, estilo, paralingüísticos) en un solo pase.
Generación Nativa Multi-voz y Multi-turno: El modelo puede generar diálogos complejos con múltiples hablantes distintos de forma nativa, capturando la dinámica de conversaciones naturales.
Síntesis Estable de Larga Duración: Soporte para generación de audio coherente y continuo en duraciones extendidas sin degradación de la calidad o inestabilidad del timbre.
Pipeline de Datos Unificado: La reutilización de modelos de evaluación (calidad y ASR) tanto para filtrado de datos como para señales de recompensa en RL, eliminando el distribution shift.
Inferencia de Producción: Liberación de un motor de inferencia basado en SGLang listo para producción con latencia ultra-baja y alto rendimiento.
Nuevo Benchmark: Introducción del Fish Audio Instruction Benchmark para evaluar el seguimiento de etiquetas vocales finas, superando las métricas tradicionales de WER/MOS.

4. Resultados

Evaluación Objetiva

Seed-TTS-Eval: Logra resultados líderes en WER (0.54% en chino, 0.99% en inglés), superando a modelos como CosyVoice 3 y Qwen3-TTS.
Multilingüe (Minimax & CV3-Eval): Muestra una inteligibilidad robusta y alta similitud de hablante en 24 idiomas. En el conjunto de datos Minimax, logra el WER más bajo en 11 de 24 idiomas y la mayor similitud de hablante en 17 de 24.
Audio Largo (Long-TTS-Eval): Demuestra la menor tasa de error (WER/CER) y la menor desviación estándar en similitud de hablante (SIM-Std), indicando una consistencia de timbre superior en textos largos.

Evaluación Subjetiva (LLM-as-a-Judge)

Audio Turing Test: Alcanza una media posterior de 0.483 (mejorando a 0.515 con reescritura de instrucciones), superando a modelos anteriores como Seed-TTS y MiniMax-Speech, acercándose a la indistinguibilidad humana.
Emergent TTS Eval: Logra una tasa de victoria global del 81.88% frente a la línea base (gpt-4o-mini-tts), destacando especialmente en paralingüísticos (91.61%) y complejidad sintáctica.
Fish Audio Instruction Benchmark:
- Tasa de Activación de Etiquetas (TAR): 98.4% en chino y 88.1% en inglés.
- Puntuación de Calidad: 4.40/5.0 en naturalidad y 4.94/5.0 en expresividad (escala de 5) en chino, superando significativamente a Fish Audio S1.

5. Significancia

Fish Audio S2 representa un avance significativo en el estado del arte de TTS de código abierto al cerrar la brecha entre la investigación académica y las necesidades de producción industrial.

Accesibilidad: Al liberar los pesos del modelo, el código de ajuste fino y el motor de inferencia optimizado, democratiza el acceso a sistemas de voz de alta calidad.
Control Fino: Establece un nuevo estándar para el control de voz mediante lenguaje natural, permitiendo aplicaciones como doblaje de video, narración de audiolibros y chatbots personalizados con una expresividad sin precedentes.
Eficiencia: Demuestra que es posible lograr una latencia ultra-baja y un alto rendimiento en hardware estándar sin sacrificar la calidad, lo cual es crucial para la adopción masiva en tiempo real.
Metodología de Entrenamiento: Su enfoque de "pipeline dual" para la alineación por RL ofrece una hoja de ruta valiosa para futuros sistemas multimodales, resolviendo problemas de consistencia entre fases de entrenamiento.

El equipo invita a la comunidad a explorar el modelo en GitHub, Hugging Face y en su sitio web demostrativo, posicionando a Fish Audio S2 como una base fundamental para la próxima generación de síntesis de voz expresiva y controlable.

Fish Audio S2 Technical Report