Textless and Non-Parallel Speech-to-Speech Emotion Style Transfer
この論文は、テキスト情報や並列データが不要な環境下で、音声の内容と話者特性を保持しつつ参照音声の感情スタイルを転写するゼロショット音声対音声感情スタイル転送フレームワーク「S2S-ZEST」を提案し、既存手法を上回る性能と感情認識タスクへのデータ拡張応用を実証したものです。
131 件の論文
この論文は、テキスト情報や並列データが不要な環境下で、音声の内容と話者特性を保持しつつ参照音声の感情スタイルを転写するゼロショット音声対音声感情スタイル転送フレームワーク「S2S-ZEST」を提案し、既存手法を上回る性能と感情認識タスクへのデータ拡張応用を実証したものです。
本論文は、トポロジー制約のないワイヤレス音響センサーネットワークにおいて、従来の TI-DANSE アルゴリズムの収束速度の遅さを解消し、完全接続ネットワークにおける DANSE と同等の高速収束を実現しつつ通信帯域幅を節約する改良アルゴリズム「TI-DANSE+」を提案するものである。
既存の CLAP スコアと人間の主観的評価との相関が低いことを示し、主観的評価スコアを用いて学習した新しいモデル「Human-CLAP」を提案することで、両者の相関を大幅に改善したことを報告する論文です。
本論文は、複雑な音声環境における多言語話者の聴覚注意力と選択的位相同期を調査し、人間は母語で選択的注意が優位である一方、音声ベースの大型言語モデル(LLM)は単一話者では人間並みの性能を示すが、複数話者の混声環境では選択的注意に課題を抱え、人間と機械の処理メカニズムに明確な乖離があることを明らかにしています。
この論文は、17 の事前学習済み音声埋め込みシステムを 6 つのデータセットで評価し、データセット間の性能差や汎化の難しさを明らかにすることで、同一データセットで訓練・評価された臨床システムの妥当性に対する疑問を提起しています。
本論文は、ビデオ条件付き音声生成(Video-to-Sound)と視覚テキスト音声合成(VisualTTS)という従来別個のタスクを、ディテトランス(DiT)アーキテクチャ内の条件統合メカニズムを工夫した単一のフローマッチングフレームワーク「VSSFlow」によって統合し、個別の最先端モデルを上回る性能で同時学習を可能にしたことを提案しています。
この論文は、多様な歪みから 48kHz の高品質な音声を一ステップで復元する汎用音声復元モデル「VoiceBridge」を提案し、エネルギー保存型 VAE、結合型ニューラル事前分布、および生成器への転換を可能にする橋渡し学習手法によって、蒸留なしで高性能な音声復元を実現することを示しています。
音声トークンの長さがテキストに比べて著しく長いことによる計算効率の低さを解決するため、音声トークンを高レベルの潜在パッチに集約して両モダリティの粒度を揃え、計算効率と性能を同時に向上させる「Latent Speech-Text Transformer (LST)」を提案する論文です。
この論文は、入力ノイズ情報に基づいて専門家のネットワークへ自動的にルーティングするノイズ条件付き混合専門家フレームワークを提案し、多様な雑音条件下での話者検証の頑健性と汎化性能を向上させる手法を提示しています。
本論文は、ニューラルオーディオコーデックの潜在空間における連続ベクトルと離散トークンの比較、および自己回帰・非自己回帰モデルやエンコーダー微調整の検討を通じて、連続潜在表現の予測とエンコーダー微調整が音声強化の性能向上に最も効果的であることを示しています。
本論文は、 Whisper 音声から通常音声への変換を低リソース環境で実現するため、ドメイン横断的なアライメントと音声生成を分離した 3 段階のフレームワーク「WhisperVC」を提案し、AISHELL6-Whisper における高品質な変換性能と、プライバシー保護やリハビリテーションへの応用可能性を実証したものである。
この論文は、単一の透かし方式の限界を克服するため、複数の透かし技術を組み合わせる多重化パラダイム(PA-TFM や MaskNet)を提案し、多様な攻撃に対して既存の手法よりも優れた堅牢性を示したことを報告しています。
この論文は、雑音環境における対話において、話者が手や頭、体幹の動きを複雑化・増加させ、聴取者がバックチャネルを強化することでコミュニケーションを維持し、手話と音声の同期が中程度の雑音でわずかに低下することを明らかにしたものである。
本論文は、音声生成の基盤である離散音声表現トークン(DSRT)におけるアクセント情報の符号化を初めて体系的に調査し、アクセントの可視化と復元を評価する新たな枠組みを用いて、層の選択が最も重要であり、ASR による監督がアクセント情報を大幅に減少させること、そして単純なコードブック縮小ではアクセントを他の情報から分離できないことを明らかにしました。
本研究は、クリーンな参照音声が必要ない非侵入型音声評価モデルとして、畳み込みブロックとマルチヘッド自己注意層を組み合わせたボトルネック・トランスフォーマーを提案し、既存の自己教師あり学習ベースのモデルを上回る精度で短時間客観的明瞭度(STOI)スコアを予測可能にしたことを示しています。
この論文は、ゼロショット推論におけるプロンプトの感度や感情の曖昧さといった課題を克服し、35 のコーパスと 15 言語にわたる包括的な評価基準「VoxEmo」を提案することで、音声 LLM による感情認識の標準化と人間の主観的分布への整合性を可能にする研究です。
この論文は、音声と視覚信号の動的な変化に対応し、カタストロフィック・フォージングを回避するために、低ランクアンカリング(LRA)を用いた強固なベースライン「ATLAS」と、音声視覚セグメンテーションにおける最初のサンプルフリー継続学習ベンチマークを提案するものです。
この論文は、少数の目標音声から話者固有の情報を抑制しつつ音声内容を保持する汎用的な線形手法「Universal Speech Content Factorization(USCF)」を提案し、ゼロショット音声変換や音声合成における効率的な特徴量としての有効性を示しています。
この論文は、残差ベクトル量子化(RVQ)の深さを調整することで、敵対的ノイズの抑制と音声内容の保持のバランスを最適化し、従来の圧縮防御手法を上回る強健な音声認識を実現できることを示しています。
この論文は、音声変換モデルに「感情認識プレフィックス」を導入することで、話者や言語性を保ちつつ感情変換の精度を基線から42.40%から85.50%へと大幅に向上させる手法を提案しています。