Fish Audio S2 Technical Report

この論文では、自然言語による指示制御、マルチスピーカー・マルチターン生成に対応し、高品質なストリーミング推論を実現するオープンソースの音声合成システム「Fish Audio S2」およびそのトレーニング手法とリソースの公開について紹介しています。

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei Han

公開日 Wed, 11 Ma
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🎧 フィッシュ・オーディオ S2 の技術報告書:まるで「魔法の語り部」のような AI

こんにちは!この論文は、**「フィッシュ・オーディオ S2(Fish Audio S2)」**という新しい AI 音声合成システムの技術報告書です。

これを一言で言うと、**「ただ文字を読むだけでなく、あなたの『指示』を聞いて、まるで人間のように感情豊かで、複数の役者を同時に演じられる、超高性能な AI 語り部」**が完成したというお話しです。

専門用語を並べると難しくなりますが、ここでは**「料理」「映画撮影」**に例えて、誰でもわかるように解説しますね。


🌟 この AI がすごい 3 つのポイント

1. 「自然な言葉」で指示できる(魔法のレシピ)

これまでの音声 AI は、「もっと悲しく」「速く」といった短いコマンドしか理解できませんでした。
でも、S2 は違います。

例え話:
以前の AI は「塩を少し」という指示しか聞けませんでした。
最新の S2 は、「『夕暮れ時の海辺で、少し疲れた老人が、懐かしそうに昔話をしているような雰囲気』」という長い文章の指示を聞いて、その通りの声を作れます。

料理で言えば、シェフ(AI)に「少し塩を」ではなく、「『祖母が作ってくれた、温かいお粥のような優しい味』」と注文すると、その味を完璧に再現してくれるようなものです。

2. 一人芝居から大掛かりなドラマまで(マルチキャスト)

この AI は、一度に複数のキャラクターを演じることができます。

例え話:
従来の AI は「一人の俳優」でした。
S2 は**「一人の脚本家兼、複数の俳優を束ねる演出家」**です。
一つの文章(台本)を渡すだけで、「男の子の声で怒って」「次に女の子の声で驚いて」「最後に老人の声でため息をつく」といった、複数の役者が絡み合う会話を、途切れることなく一発で作り出します。

3. 超高速で、待ち時間ゼロ(瞬発力)

「音声を作るのに時間がかかる」という悩みを解消しました。

例え話:
以前は注文してから料理が出てくるまで 1 分かかりました。
S2 は、**注文した瞬間(100 ミリ秒以下!)**に、最初の一口が口元に届きます。
しかも、リアルタイムで話す速度の約 5 倍のスピードで料理(音声)を作れるため、待ち時間はほぼゼロです。


🛠️ どのようにしてこんなにすごいのか?(裏側の仕組み)

この AI がこれほど賢くなったのには、3 つの「秘密兵器」が使われています。

① 二重の調理システム(デュアル・オートレグレッシブ)

音声を作るのを「2 人のシェフ」に分けています。

  • シェフ A(遅いけど賢い): 「何を話すか(意味)」と「大体の雰囲気」を決めます。
  • シェフ B(速くて器用): 「声の細かい質感(息遣いや震え)」を瞬時に仕上げます。
    この二人が連携することで、**「意味は正確で、かつ声の質感がリアル」**という、両立が難しい目標を達成しました。

② 自分自身でチェックする「品質管理チーム」

AI を教える際、人間が一つ一つチェックするのは大変です。そこで、S2 は**「自分自身で評価するシステム」**を使っています。

  • フィルタリング: 訓練データから「雑音が多い」「声がこもっている」悪いデータを自動で捨てます。
  • 報酬システム: 生成された音声に対して、「いい声だ!」と褒めたり、「ここが間違っている」と叱ったりする自動ジャッジ役を内蔵しています。

    例え話:
    料理人が自分で味見をして、「もっと塩が足りない」と自分で反省し、次の料理をより美味しくするサイクルを、人間の手を介さず自動で回しているようなものです。

③ 強化学習(試行錯誤の達人)

AI は、ただ本を読むだけでなく、**「試行錯誤」**を繰り返して上達しました。

  • 「この言い方でいいかな?」「あの感情表現は自然かな?」と何通りも試して、最も人間らしい答えを選び出すように訓練されました。
  • これにより、指示された「感情」や「話のテンポ」を、まるで人間が考えているかのように正確に表現できるようになりました。

🚀 実際の性能は?(テスト結果)

この AI は、世界中の他の AI と比べてもトップクラスの成績を残しました。

  • 聞き取りやすさ: 英語も中国語も、他の AI よりも間違い(聞き間違い)が圧倒的に少ないです。
  • 人間らしさ: 「これは人間か、機械か?」というテスト(チューリングテスト)では、人間と見分けがつかないレベルに達しました。特に、指示に従って感情を表現する能力は、他の AI を大きく引き離しています。
  • 長い話も安定: 小説やニュースのように長い文章でも、声のトーンが崩れたり、途中で変になったりせず、一貫して安定して話してくれます。

🎉 まとめ:これからどうなる?

フィッシュ・オーディオ S2 は、**「音声合成の未来」**を切り開く存在です。

  • オープンソース化: 研究者や開発者が誰でも使えるように、この AI の「レシピ(モデル)」と「調理器具(コード)」を無料で公開しています。
  • 実用性: すでに映画の吹き替え、オーディオブック、チャットボットなど、実際のビジネス現場で使えるレベルの速さと品質を備えています。

「AI が人間の声を真似る」時代から、「AI が人間の『意図』を理解して、感情豊かに表現する」時代へ。
フィッシュ・オーディオ S2 は、その扉を開ける鍵となったのです。

ぜひ、彼らの公式サイト(fish.audio)で、この「魔法の語り部」の声を聞いてみてください!