Fish Audio S2 Technical Report
Der technische Bericht stellt Fish Audio S2 vor, ein Open-Source-Text-to-Speech-System, das durch mehrstufiges Training und eine spezielle Datenpipeline eine natürliche Sprachsteuerung, Multi-Speaker-Fähigkeiten und Multi-Turn-Generation ermöglicht und dabei mit einer effizienten SGLang-Inferenz-Engine eine Echtzeitfaktor von 0,195 sowie eine Latenz unter 100 ms erreicht.