cs.SD 件の論文 | Gist.Science

Textless and Non-Parallel Speech-to-Speech Emotion Style Transfer

この論文は、テキスト情報や並列データが不要な環境下で、音声の内容と話者特性を保持しつつ参照音声の感情スタイルを転写するゼロショット音声対音声感情スタイル転送フレームワーク「S2S-ZEST」を提案し、既存手法を上回る性能と感情認識タスクへのデータ拡張応用を実証したものです。

Soumya Dutta, Avni Jain, Sriram GanapathyWed, 11 Ma⚡ eess

Fast-Converging Distributed Signal Estimation in Topology-Unconstrained Wireless Acoustic Sensor Networks

本論文は、トポロジー制約のないワイヤレス音響センサーネットワークにおいて、従来の TI-DANSE アルゴリズムの収束速度の遅さを解消し、完全接続ネットワークにおける DANSE と同等の高速収束を実現しつつ通信帯域幅を節約する改良アルゴリズム「TI-DANSE+」を提案するものである。

Paul Didier, Toon van Waterschoot, Simon Doclo, Jörg Bitzer, Marc MoonenWed, 11 Ma⚡ eess

Human-CLAP: Human-perception-based contrastive language-audio pretraining

既存の CLAP スコアと人間の主観的評価との相関が低いことを示し、主観的評価スコアを用いて学習した新しいモデル「Human-CLAP」を提案することで、両者の相関を大幅に改善したことを報告する論文です。

Taisei Takano, Yuki Okamoto, Yusuke Kanamori, Yuki Saito, Ryotaro Nagase, Hiroshi SaruwatariWed, 11 Ma⚡ eess

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

本論文は、ビデオ条件付き音声生成（Video-to-Sound）と視覚テキスト音声合成（VisualTTS）という従来別個のタスクを、ディテトランス（DiT）アーキテクチャ内の条件統合メカニズムを工夫した単一のフローマッチングフレームワーク「VSSFlow」によって統合し、個別の最先端モデルを上回る性能で同時学習を可能にしたことを提案しています。

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

VoiceBridge: General Speech Restoration with One-step Latent Bridge Models

この論文は、多様な歪みから 48kHz の高品質な音声を一ステップで復元する汎用音声復元モデル「VoiceBridge」を提案し、エネルギー保存型 VAE、結合型ニューラル事前分布、および生成器への転換を可能にする橋渡し学習手法によって、蒸留なしで高性能な音声復元を実現することを示しています。

Chi Zhang, Kaiwen Zheng, Zehua Chen, Jun ZhuWed, 11 Ma🤖 cs.AI

LARA-Gen: Enabling Continuous Emotion Control for Music Generation Models via Latent Affective Representation Alignment

この論文は、外部の音楽理解モデルとの潜在感情表現の整合化と連続的な価・覚醒空間に基づく制御モジュールを導入することで、テキストプロンプトの限界を克服し、音楽生成モデルにおける連続的かつ微細な感情制御を実現する「LARA-Gen」というフレームワークを提案し、その有効性を示したものである。

Jiahao Mei, Xuenan Xu, Zeyu Xie, Zihao Zheng, Ye Tao, Yue Ding, Mengyue WuWed, 11 Ma💻 cs

Noise-Conditioned Mixture-of-Experts Framework for Robust Speaker Verification

この論文は、入力ノイズ情報に基づいて専門家のネットワークへ自動的にルーティングするノイズ条件付き混合専門家フレームワークを提案し、多様な雑音条件下での話者検証の頑健性と汎化性能を向上させる手法を提示しています。

Bin Gu, Haitao Zhao, Jibo WeiWed, 11 Ma⚡ eess

Modeling strategies for speech enhancement in the latent space of a neural audio codec

本論文は、ニューラルオーディオコーデックの潜在空間における連続ベクトルと離散トークンの比較、および自己回帰・非自己回帰モデルやエンコーダー微調整の検討を通じて、連続潜在表現の予測とエンコーダー微調整が音声強化の性能向上に最も効果的であることを示しています。

Sofiene Kammoun, Xavier Alameda-Pineda, Simon LeglaiveWed, 11 Ma⚡ eess

Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

この論文は、視覚と聴覚の両方の感覚を統合した世界モデルの概念を初めて定義し、専用データセット「AVW-4k」と新しいモデル「AV-CDiT」を提案することで、マルチモーダルな未来予測と音声視覚ナビゲーションタスクの性能向上を実現するものです。

Jiahua Wang, Leqi Zheng, Jialong Wu, Yaoxin MaoWed, 11 Ma💻 cs

Head, posture, and full-body gestures in unscripted dyadic conversations in noise

この論文は、雑音環境における対話において、話者が手や頭、体幹の動きを複雑化・増加させ、聴取者がバックチャネルを強化することでコミュニケーションを維持し、手話と音声の同期が中程度の雑音でわずかに低下することを明らかにしたものである。

Luboš Hládek, Bernhard U. SeeberWed, 11 Ma⚡ eess

Rethinking Discrete Speech Representation Tokens for Accent Generation

本論文は、音声生成の基盤である離散音声表現トークン（DSRT）におけるアクセント情報の符号化を初めて体系的に調査し、アクセントの可視化と復元を評価する新たな枠組みを用いて、層の選択が最も重要であり、ASR による監督がアクセント情報を大幅に減少させること、そして単純なコードブック縮小ではアクセントを他の情報から分離できないことを明らかにしました。

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter BellWed, 11 Ma⚡ eess

EDMFormer: Genre-Specific Self-Supervised Learning for Music Structure Segmentation

この論文は、ポップス向けに設計された既存モデルでは性能が不十分だった電子ダンスミュージック（EDM）の構造セグメンテーション課題に対し、EDM 特有のエネルギーやリズムの変化に焦点を当てた自己教師あり学習と専門データセット「EDM-98」を活用したトランスフォーマーモデル「EDMFormer」を提案し、特にドロップやビルドアップの検出精度を大幅に向上させたことを報告しています。

Sahal Sajeer, Krish Patel, Oscar Chung, Joel Song BaeWed, 11 Ma🤖 cs.AI

Fish Audio S2 Technical Report

この論文では、自然言語による指示制御、マルチスピーカー・マルチターン生成に対応し、高品質なストリーミング推論を実現するオープンソースの音声合成システム「Fish Audio S2」およびそのトレーニング手法とリソースの公開について紹介しています。

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei HanWed, 11 Ma🤖 cs.AI

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

この論文は、ゼロショット推論におけるプロンプトの感度や感情の曖昧さといった課題を克服し、35 のコーパスと 15 言語にわたる包括的な評価基準「VoxEmo」を提案することで、音声 LLM による感情認識の標準化と人間の主観的分布への整合性を可能にする研究です。

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

Universal Speech Content Factorization

この論文は、少数の目標音声から話者固有の情報を抑制しつつ音声内容を保持する汎用的な線形手法「Universal Speech Content Factorization（USCF）」を提案し、ゼロショット音声変換や音声合成における効率的な特徴量としての有効性を示しています。

Henry Li Xinyuan, Zexin Cai, Lin Zhang, Leibny Paola García-Perera, Berrak Sisman, Sanjeev Khudanpur, Nicholas Andrews, Matthew WiesnerWed, 11 Ma⚡ eess

Gender Fairness in Audio Deepfake Detection: Performance and Disparity Analysis

本論文は、ASVspoof 5 データセットを用いた音声ディープフェイク検出モデルの分析を通じて、従来の総合誤り率だけでは隠れてしまう性別による性能偏在を公平性指標で明らかにし、より公平で信頼性の高いシステム構築には公平性重視の評価が不可欠であることを示しています。

Aishwarya Fursule, Shruti Kshirsagar, Anderson R. AvilaWed, 11 Ma🤖 cs.AI

Trade-offs Between Capacity and Robustness in Neural Audio Codecs for Adversarially Robust Speech Recognition

この論文は、残差ベクトル量子化（RVQ）の深さを調整することで、敵対的ノイズの抑制と音声内容の保持のバランスを最適化し、従来の圧縮防御手法を上回る強健な音声認識を実現できることを示しています。

Jordan Prescott, Thanathai Lertpetchpun, Shrikanth NarayananWed, 11 Ma⚡ eess

The Costs of Reproducibility in Music Separation Research: a Replication of Band-Split RNN

音楽ソース分離における再現性の課題を明らかにするため、公開コードが不足しているBand-Split RNNモデルの複製を試みた結果、元のモデルを上回る性能を持つ最適化モデルを開発し、コードと事前学習済みモデルを公開して研究の透明性と持続可能性の向上を提唱しています。

Paul Magron, Romain Serizel, Constance DouwesWed, 11 Ma🤖 cs.LG

How Contrastive Decoding Enhances Large Audio Language Models?

本論文は、対照的デコーディングがオーディオ認識の欠落や不確実性に基づく推測といった誤りを修正する一方で、誤った推論や確信過剰な誤断定には効果が限定的であることを示し、Transition Matrix 枠組みを用いてモデルのベースライン誤りプロファイルに基づき最適な手法を決定する指針を提示しています。

Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi LeeWed, 11 Ma💬 cs.CL

Paralinguistic Emotion-Aware Validation Timing Detection in Japanese Empathetic Spoken Dialogue

本論文は、テキストに依存せず音声の非言語的特徴と感情情報を統合したモデルを提案し、共感的対話における「感情の受容（バリデーション）」の適切なタイミングを高精度に検出することで、より共感的な人間・ロボット対話の実現を目指す研究です。

Zi Haur Pang, Yahui Fu, Yuan Gao, Tatsuya KawaharaWed, 11 Ma💻 cs