Fish Audio S2 Technical Report

Fish Audio S2 是一款开源的多说话人、多轮次且支持自然语言指令控制的高级文本转语音系统,其通过多阶段训练与数据流水线实现了生产级流式推理(RTF 0.195,首字延迟<100ms),并公开了模型权重、微调代码及基于 SGLang 的推理引擎。

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei Han

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Fish Audio S2 的“超级语音生成器”。你可以把它想象成一位拥有读心术、能瞬间变声、且完全听指挥的“全能配音演员”

为了让你更容易理解,我们用几个生活中的比喻来拆解它的核心亮点:

1. 它是怎么工作的?(双引擎架构)

以前的配音 AI 就像是一个笨拙的打字员,一边看稿子一边打字,还要一边想怎么发音,经常顾此失彼。

Fish Audio S2 则采用了**“双引擎”策略**:

  • 慢速引擎(大脑):负责理解你给的稿子,规划“这句话要讲什么情感”、“哪里该停顿”。它像是一个经验丰富的导演,先在大脑里把剧本排好。
  • 快速引擎(嘴巴):负责把导演规划好的内容,瞬间变成具体的声音波形。它像是一个反应极快的口技演员,专门负责把“生气”、“大笑”这些细节完美地演出来。
  • 比喻:这就好比导演(慢速引擎)指挥演员(快速引擎)。导演负责把控剧情和情绪,演员负责精准地演绎。两者配合,既保证了故事讲得对,又保证了演得像真人。

2. 它是怎么学会“听指挥”的?(数据流水线)

以前的 AI 训练,就像是用“脏水”洗菜,然后再用“净水”冲一遍,味道总有点怪(数据分布不一致)。

Fish Audio S2 发明了一套**“自产自销”的流水线**:

  • 筛选与标注:它用两个超级 AI 助手(一个负责挑出好听的录音,一个负责把录音里的语气、笑声、停顿都写成文字说明)来处理海量数据。
  • 自我奖励:最妙的是,这两个助手在训练时是“考官”,在后期强化学习时直接变成了“裁判”。
  • 比喻:这就像是一个米其林餐厅,它的食材筛选员(数据清洗)和美食评论家(奖励模型)是同一拨人。他们知道什么样的菜最好吃,所以训练出来的厨师(AI 模型)能完美理解“要更咸一点”或“要更脆一点”这种模糊的指令,而不会搞错。

3. 它有什么超能力?(三大突破)

  • 像人一样聊天(多角色、多轮次)
    以前的 AI 一次只能扮演一个人。Fish Audio S2 可以同时扮演一场戏里的所有角色。你给它一段剧本,它能自动区分“张三”和“李四”,让两人对话自然流畅,甚至能模拟出“张三打断李四说话”这种复杂的场景。

    • 比喻:它不再是单人脱口秀,而是一台全自动的广播剧制作机
  • 听懂“人话”指令(自然语言控制)
    你不需要输入复杂的代码或标签。你只需要说:“请用焦急的语气,边跑边喘气地读这段话。”它就能完美执行。

    • 比喻:以前是遥控器(按哪个键出什么声),现在是点菜(“我要一份微辣、多葱、不要香菜”)。
  • 超长续航(长文本生成)
    它能连续讲几个小时的故事,声音不会变调,也不会突然“失忆”忘了自己是谁。

    • 比喻:很多 AI 讲久了就像电池耗尽的玩具,声音会走样;Fish Audio S2 像是一个不知疲倦的真人主播,从开头到结尾,音色和情绪始终稳定。

4. 它有多快?(工业级速度)

  • 实时因子 (RTF) 0.195:这意味着生成 1 秒钟的声音,只需要不到 0.2 秒的电脑时间。
  • 首字延迟 (TTFA) < 100 毫秒:你刚说完话,不到 0.1 秒(眨眼都来不及)就能听到回音。
  • 比喻:这就像光速传输。你刚发出指令,声音几乎瞬间就出现在你耳边,完全没有“加载中”的等待感。

5. 它是怎么被证明很厉害的?(考试结果)

作者不仅做了传统的“听写考试”(看它读得准不准),还搞了一个**“图灵测试”**:

  • 让 AI 和真人录音混在一起,让人来猜哪个是机器。Fish Audio S2 的得分非常高,甚至骗过了很多人
  • 在“听指令”的考试中,它比之前的冠军(S1 版本)和很多商业巨头(如 ElevenLabs、Google 等)都要强,特别是在处理复杂情绪和特殊指令时,胜率极高。

总结

Fish Audio S2 不仅仅是一个“读稿机器”,它是一个懂情感、能演戏、反应极快且完全开源的“数字声音艺术家”

  • 以前:你想让 AI 说话,得给它喂固定的模板,它像个机器人。
  • 现在:你可以像给真人配音导演一样,用自然语言指挥它,它就能像真人一样,带着感情、语气和个性为你说话。

作者把它的大脑(模型权重)、**训练方法(代码)表演舞台(推理引擎)**全部免费公开了,这意味着未来的有声书、游戏配音、虚拟人聊天,可能都会因为这项技术而变得既便宜又逼真。