Textless and Non-Parallel Speech-to-Speech Emotion Style Transfer

この論文は、テキスト情報や並列データが不要な環境下で、音声の内容と話者特性を保持しつつ参照音声の感情スタイルを転写するゼロショット音声対音声感情スタイル転送フレームワーク「S2S-ZEST」を提案し、既存手法を上回る性能と感情認識タスクへのデータ拡張応用を実証したものです。

Soumya Dutta, Avni Jain, Sriram GanapathyWed, 11 Ma⚡ eess

Fast-Converging Distributed Signal Estimation in Topology-Unconstrained Wireless Acoustic Sensor Networks

本論文は、トポロジー制約のないワイヤレス音響センサーネットワークにおいて、従来の TI-DANSE アルゴリズムの収束速度の遅さを解消し、完全接続ネットワークにおける DANSE と同等の高速収束を実現しつつ通信帯域幅を節約する改良アルゴリズム「TI-DANSE+」を提案するものである。

Paul Didier, Toon van Waterschoot, Simon Doclo, Jörg Bitzer, Marc MoonenWed, 11 Ma⚡ eess

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

本論文は、ビデオ条件付き音声生成(Video-to-Sound)と視覚テキスト音声合成(VisualTTS)という従来別個のタスクを、ディテトランス(DiT)アーキテクチャ内の条件統合メカニズムを工夫した単一のフローマッチングフレームワーク「VSSFlow」によって統合し、個別の最先端モデルを上回る性能で同時学習を可能にしたことを提案しています。

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

VoiceBridge: General Speech Restoration with One-step Latent Bridge Models

この論文は、多様な歪みから 48kHz の高品質な音声を一ステップで復元する汎用音声復元モデル「VoiceBridge」を提案し、エネルギー保存型 VAE、結合型ニューラル事前分布、および生成器への転換を可能にする橋渡し学習手法によって、蒸留なしで高性能な音声復元を実現することを示しています。

Chi Zhang, Kaiwen Zheng, Zehua Chen, Jun ZhuWed, 11 Ma🤖 cs.AI

LARA-Gen: Enabling Continuous Emotion Control for Music Generation Models via Latent Affective Representation Alignment

この論文は、外部の音楽理解モデルとの潜在感情表現の整合化と連続的な価・覚醒空間に基づく制御モジュールを導入することで、テキストプロンプトの限界を克服し、音楽生成モデルにおける連続的かつ微細な感情制御を実現する「LARA-Gen」というフレームワークを提案し、その有効性を示したものである。

Jiahao Mei, Xuenan Xu, Zeyu Xie, Zihao Zheng, Ye Tao, Yue Ding, Mengyue WuWed, 11 Ma💻 cs

Modeling strategies for speech enhancement in the latent space of a neural audio codec

本論文は、ニューラルオーディオコーデックの潜在空間における連続ベクトルと離散トークンの比較、および自己回帰・非自己回帰モデルやエンコーダー微調整の検討を通じて、連続潜在表現の予測とエンコーダー微調整が音声強化の性能向上に最も効果的であることを示しています。

Sofiene Kammoun, Xavier Alameda-Pineda, Simon LeglaiveWed, 11 Ma⚡ eess

Rethinking Discrete Speech Representation Tokens for Accent Generation

本論文は、音声生成の基盤である離散音声表現トークン(DSRT)におけるアクセント情報の符号化を初めて体系的に調査し、アクセントの可視化と復元を評価する新たな枠組みを用いて、層の選択が最も重要であり、ASR による監督がアクセント情報を大幅に減少させること、そして単純なコードブック縮小ではアクセントを他の情報から分離できないことを明らかにしました。

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter BellWed, 11 Ma⚡ eess

EDMFormer: Genre-Specific Self-Supervised Learning for Music Structure Segmentation

この論文は、ポップス向けに設計された既存モデルでは性能が不十分だった電子ダンスミュージック(EDM)の構造セグメンテーション課題に対し、EDM 特有のエネルギーやリズムの変化に焦点を当てた自己教師あり学習と専門データセット「EDM-98」を活用したトランスフォーマーモデル「EDMFormer」を提案し、特にドロップやビルドアップの検出精度を大幅に向上させたことを報告しています。

Sahal Sajeer, Krish Patel, Oscar Chung, Joel Song BaeWed, 11 Ma🤖 cs.AI

Fish Audio S2 Technical Report

この論文では、自然言語による指示制御、マルチスピーカー・マルチターン生成に対応し、高品質なストリーミング推論を実現するオープンソースの音声合成システム「Fish Audio S2」およびそのトレーニング手法とリソースの公開について紹介しています。

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei HanWed, 11 Ma🤖 cs.AI

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

この論文は、ゼロショット推論におけるプロンプトの感度や感情の曖昧さといった課題を克服し、35 のコーパスと 15 言語にわたる包括的な評価基準「VoxEmo」を提案することで、音声 LLM による感情認識の標準化と人間の主観的分布への整合性を可能にする研究です。

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

Universal Speech Content Factorization

この論文は、少数の目標音声から話者固有の情報を抑制しつつ音声内容を保持する汎用的な線形手法「Universal Speech Content Factorization(USCF)」を提案し、ゼロショット音声変換や音声合成における効率的な特徴量としての有効性を示しています。

Henry Li Xinyuan, Zexin Cai, Lin Zhang, Leibny Paola García-Perera, Berrak Sisman, Sanjeev Khudanpur, Nicholas Andrews, Matthew WiesnerWed, 11 Ma⚡ eess

Gender Fairness in Audio Deepfake Detection: Performance and Disparity Analysis

本論文は、ASVspoof 5 データセットを用いた音声ディープフェイク検出モデルの分析を通じて、従来の総合誤り率だけでは隠れてしまう性別による性能偏在を公平性指標で明らかにし、より公平で信頼性の高いシステム構築には公平性重視の評価が不可欠であることを示しています。

Aishwarya Fursule, Shruti Kshirsagar, Anderson R. AvilaWed, 11 Ma🤖 cs.AI

The Costs of Reproducibility in Music Separation Research: a Replication of Band-Split RNN

音楽ソース分離における再現性の課題を明らかにするため、公開コードが不足しているBand-Split RNNモデルの複製を試みた結果、元のモデルを上回る性能を持つ最適化モデルを開発し、コードと事前学習済みモデルを公開して研究の透明性と持続可能性の向上を提唱しています。

Paul Magron, Romain Serizel, Constance DouwesWed, 11 Ma🤖 cs.LG

How Contrastive Decoding Enhances Large Audio Language Models?

本論文は、対照的デコーディングがオーディオ認識の欠落や不確実性に基づく推測といった誤りを修正する一方で、誤った推論や確信過剰な誤断定には効果が限定的であることを示し、Transition Matrix 枠組みを用いてモデルのベースライン誤りプロファイルに基づき最適な手法を決定する指針を提示しています。

Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi LeeWed, 11 Ma💬 cs.CL

Paralinguistic Emotion-Aware Validation Timing Detection in Japanese Empathetic Spoken Dialogue

本論文は、テキストに依存せず音声の非言語的特徴と感情情報を統合したモデルを提案し、共感的対話における「感情の受容(バリデーション)」の適切なタイミングを高精度に検出することで、より共感的な人間・ロボット対話の実現を目指す研究です。

Zi Haur Pang, Yahui Fu, Yuan Gao, Tatsuya KawaharaWed, 11 Ma💻 cs