Textless and Non-Parallel Speech-to-Speech Emotion Style Transfer

この論文は、テキスト情報や並列データが不要な環境下で、音声の内容と話者特性を保持しつつ参照音声の感情スタイルを転写するゼロショット音声対音声感情スタイル転送フレームワーク「S2S-ZEST」を提案し、既存手法を上回る性能と感情認識タスクへのデータ拡張応用を実証したものです。

Soumya Dutta, Avni Jain, Sriram GanapathyWed, 11 Ma⚡ eess

Fast-Converging Distributed Signal Estimation in Topology-Unconstrained Wireless Acoustic Sensor Networks

本論文は、トポロジー制約のないワイヤレス音響センサーネットワークにおいて、従来の TI-DANSE アルゴリズムの収束速度の遅さを解消し、完全接続ネットワークにおける DANSE と同等の高速収束を実現しつつ通信帯域幅を節約する改良アルゴリズム「TI-DANSE+」を提案するものである。

Paul Didier, Toon van Waterschoot, Simon Doclo, Jörg Bitzer, Marc MoonenWed, 11 Ma⚡ eess

Benchmarking Humans and Machines on Complex Multilingual Speech Understanding Tasks

本論文は、複雑な音声環境における多言語話者の聴覚注意力と選択的位相同期を調査し、人間は母語で選択的注意が優位である一方、音声ベースの大型言語モデル(LLM)は単一話者では人間並みの性能を示すが、複数話者の混声環境では選択的注意に課題を抱え、人間と機械の処理メカニズムに明確な乖離があることを明らかにしています。

Sai Samrat Kankanala, Ram Chandra, Sriram GanapathyWed, 11 Ma⚡ eess

Evaluating pretrained speech embedding systems for dysarthria detection across heterogenous datasets

この論文は、17 の事前学習済み音声埋め込みシステムを 6 つのデータセットで評価し、データセット間の性能差や汎化の難しさを明らかにすることで、同一データセットで訓練・評価された臨床システムの妥当性に対する疑問を提起しています。

Lovisa Wihlborg, Jemima Goodall, David Wheatley, Jacob J. Webber, Johnny Tam, Christine Weaver, Suvankar Pal, Siddharthan Chandran, Sohan Seth, Oliver Watts, Cassia Valentini-BotinhaoWed, 11 Ma⚡ eess

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

本論文は、ビデオ条件付き音声生成(Video-to-Sound)と視覚テキスト音声合成(VisualTTS)という従来別個のタスクを、ディテトランス(DiT)アーキテクチャ内の条件統合メカニズムを工夫した単一のフローマッチングフレームワーク「VSSFlow」によって統合し、個別の最先端モデルを上回る性能で同時学習を可能にしたことを提案しています。

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

VoiceBridge: General Speech Restoration with One-step Latent Bridge Models

この論文は、多様な歪みから 48kHz の高品質な音声を一ステップで復元する汎用音声復元モデル「VoiceBridge」を提案し、エネルギー保存型 VAE、結合型ニューラル事前分布、および生成器への転換を可能にする橋渡し学習手法によって、蒸留なしで高性能な音声復元を実現することを示しています。

Chi Zhang, Kaiwen Zheng, Zehua Chen, Jun ZhuWed, 11 Ma🤖 cs.AI

Latent Speech-Text Transformer

音声トークンの長さがテキストに比べて著しく長いことによる計算効率の低さを解決するため、音声トークンを高レベルの潜在パッチに集約して両モダリティの粒度を揃え、計算効率と性能を同時に向上させる「Latent Speech-Text Transformer (LST)」を提案する論文です。

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc LeWed, 11 Ma🤖 cs.AI

Modeling strategies for speech enhancement in the latent space of a neural audio codec

本論文は、ニューラルオーディオコーデックの潜在空間における連続ベクトルと離散トークンの比較、および自己回帰・非自己回帰モデルやエンコーダー微調整の検討を通じて、連続潜在表現の予測とエンコーダー微調整が音声強化の性能向上に最も効果的であることを示しています。

Sofiene Kammoun, Xavier Alameda-Pineda, Simon LeglaiveWed, 11 Ma⚡ eess

WhisperVC: Decoupled Cross-Domain Alignment and Speech Generation for Low-Resource Whisper-to-Normal Conversion

本論文は、 Whisper 音声から通常音声への変換を低リソース環境で実現するため、ドメイン横断的なアライメントと音声生成を分離した 3 段階のフレームワーク「WhisperVC」を提案し、AISHELL6-Whisper における高品質な変換性能と、プライバシー保護やリハビリテーションへの応用可能性を実証したものである。

Dong Liu, Juan Liu, Wei Ju, Yao Tian, Ming LiWed, 11 Ma⚡ eess

Rethinking Discrete Speech Representation Tokens for Accent Generation

本論文は、音声生成の基盤である離散音声表現トークン(DSRT)におけるアクセント情報の符号化を初めて体系的に調査し、アクセントの可視化と復元を評価する新たな枠組みを用いて、層の選択が最も重要であり、ASR による監督がアクセント情報を大幅に減少させること、そして単純なコードブック縮小ではアクセントを他の情報から分離できないことを明らかにしました。

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter BellWed, 11 Ma⚡ eess

Bottleneck Transformer-Based Approach for Improved Automatic STOI Score Prediction

本研究は、クリーンな参照音声が必要ない非侵入型音声評価モデルとして、畳み込みブロックとマルチヘッド自己注意層を組み合わせたボトルネック・トランスフォーマーを提案し、既存の自己教師あり学習ベースのモデルを上回る精度で短時間客観的明瞭度(STOI)スコアを予測可能にしたことを示しています。

Amartyaveer, Murali Kadambi, Chandra Mohan Sharma, Anupam Mondal, Prasanta Kumar GhoshWed, 11 Ma🤖 cs.LG

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

この論文は、ゼロショット推論におけるプロンプトの感度や感情の曖昧さといった課題を克服し、35 のコーパスと 15 言語にわたる包括的な評価基準「VoxEmo」を提案することで、音声 LLM による感情認識の標準化と人間の主観的分布への整合性を可能にする研究です。

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

Can You Hear, Localize, and Segment Continually? An Exemplar-Free Continual Learning Benchmark for Audio-Visual Segmentation

この論文は、音声と視覚信号の動的な変化に対応し、カタストロフィック・フォージングを回避するために、低ランクアンカリング(LRA)を用いた強固なベースライン「ATLAS」と、音声視覚セグメンテーションにおける最初のサンプルフリー継続学習ベンチマークを提案するものです。

Siddeshwar Raghavan, Gautham Vinod, Bruce Coburn, Fengqing ZhuWed, 11 Ma⚡ eess

Universal Speech Content Factorization

この論文は、少数の目標音声から話者固有の情報を抑制しつつ音声内容を保持する汎用的な線形手法「Universal Speech Content Factorization(USCF)」を提案し、ゼロショット音声変換や音声合成における効率的な特徴量としての有効性を示しています。

Henry Li Xinyuan, Zexin Cai, Lin Zhang, Leibny Paola García-Perera, Berrak Sisman, Sanjeev Khudanpur, Nicholas Andrews, Matthew WiesnerWed, 11 Ma⚡ eess