Evaluating Parkinson's Disease Detection in Anonymized Speech: A Performance and Acoustic Analysis

この論文は、パーキンソン病の音声検出におけるプライバシー保護と診断精度のトレードオフを評価し、kNN-VC による匿名化が STT-TTS に比べて話者識別性を保ちつつ病理情報を維持できることを示すことで、プライバシーを保護したままのパーキンソン病検出の実現可能性を証明しています。

Carlos Franzreb, Francisco Teixeira, Ben Luks, Sebastian Möller, Alberto AbadTue, 10 Ma💻 cs

Targeted Speaker Poisoning Framework in Zero-Shot Text-to-Speech

この論文は、ゼロショット音声合成モデルから特定の話者アイデンティティを除去する「音声生成話者ポイズニング(SGSP)」という新たな課題を定義し、15 名までの話者に対してプライバシー保護とモデル有用性の両立を達成するフレームワークを提案しています。

Thanapat Trachu, Thanathai Lertpetchpun, Sai Praneeth Karimireddy, Shrikanth NarayananTue, 10 Ma💻 cs

Nw\=ach\=a Mun\=a: A Devanagari Speech Corpus and Proximal Transfer Benchmark for Nepal Bhasha ASR

ネパール語(ネワール語)の音声認識におけるリソース不足を解消するため、5.39 時間の手書き転写コーパス「Nwāchā Munā」を公開し、大規模多言語モデルに匹敵する性能を、近隣言語であるネパール語からの転移学習によって達成したことを報告する論文です。

Rishikesh Kumar Sharma, Safal Narshing Shrestha, Jenny Poudel, Rupak Tiwari, Arju Shrestha, Rupak Raj Ghimire, Bal Krishna BalTue, 10 Ma💬 cs.CL

Analysis-Driven Procedural Generation of an Engine Sound Dataset with Embedded Control Annotations

この論文は、実録音からのピッチ適応スペクトル分析とパラメトリック合成を組み合わせた分析駆動型フレームワークを提案し、サンプル単位のRPMおよびトルク注釈を備えた大規模なエンジン音合成データセット「Procedural Engine Sounds Dataset」を構築・公開し、自動車音響設計やデータ駆動型合成研究を支援することを目的としています。

Robin Doerfler, Lonce WyseTue, 10 Ma🤖 cs.LG

Unsupervised Domain Adaptation for Audio Deepfake Detection with Modular Statistical Transformations

この論文は、ラベル付きターゲットデータなしでクロスドメインの一般化を向上させるため、Wav2Vec 2.0 埋め込みと統計的変換(変換、特徴選択、PCA、CORAL 整合)を組み合わせたモジュール式のパイプラインを提案し、音声ディープフェイク検出におけるドメイン適応の有効性を示しています。

Urawee Thani, Gagandeep Singh, Priyanka SinghTue, 10 Ma💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

本論文は、音楽のビートに基づくガウス表現を導入し、Transformer の代わりに長系列処理に優れた Mamba を拡散モデルに組み込むことで、短尺から長尺まで音楽と同期した高品質なダンス生成を実現する「MambaDance」を提案しています。

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon JooTue, 10 Ma💻 cs

WhispEar: A Bi-directional Framework for Scaling Whispered Speech Conversion via Pseudo-Parallel Whisper Generation

この論文は、 whispered 音声と通常音声の両方向変換を可能にする双方向フレームワーク「WhispEar」を提案し、通常音声から擬似並列 whispered 音声を生成することでデータ拡張を実現し、大規模なバイリンガルコーパスとともに whisper 音声変換の性能を大幅に向上させたことを報告しています。

Zihao Fang, Yingda Shen, Zifan Guan, Tongtong Song, Zhenyi Liu, Zhizheng WuTue, 10 Ma💻 cs

PathBench: Speech Intelligibility Benchmark for Automatic Pathological Speech Assessment

この論文は、非公開データや不統一なプロトコルに依存していた既存の課題を解決するため、公開データセットを用いた統合ベンチマーク「PathBench」を提案し、言語学者と機械学習専門家の異なるアプローチを反映した 3 つのプロトコルで各種手法を評価し、その中で参照不要な手法として最高相関を達成した「Dual-ASR Articulatory Precision (DArtP)」を導入したことを報告しています。

Bence Mark Halpern, Thomas Tienkamp, Defne Abur, Tomoki TodaTue, 10 Ma💻 cs

Soundscapes in Spectrograms: Pioneering Multilabel Classification for South Asian Sounds

本論文は、MFCC に依存する従来の手法よりも複雑な南アジアの環境音を高精度に分類できる、スペクトログラムと畳み込みニューラルネットワーク(CNN)を用いた新しいマルチラベル分類手法を提案し、SAS-KIIT および UrbanSound8K データセットでの検証によりその有効性を実証したものである。

Sudip Chakrabarty, Pappu Bishwas, Rajdeep Chatterjee, Tathagata Bandyopadhyay, Digonto Biswas, Bibek HowladerTue, 10 Ma💻 cs

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

この論文は、人間の感情表現の曖昧さを単一のラベルではなく分布として捉え、大規模オーディオ言語モデルの推論能力を向上させるための分布推論アプローチと構造化された思考連鎖指導を提案し、IEMOCAP や CREMA-D などのデータセットで複数の学習戦略において一貫した改善を実証した研究です。

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting DangTue, 10 Ma💻 cs

Benchmarking Language Modeling for Lossless Compression of Full-Fidelity Audio

この論文は、従来のトークン化手法では高ビット深度の音声処理が困難だった課題に対し、語彙サイズを一定に保つ「Trilobyte」というバイトレベルのトークン化方式を提案し、24 ビットフル解像度音声における実用的な損失なし圧縮を可能にしたことを報告しています。

Phillip Long, Zachary Novack, Chris DonahueTue, 10 Ma🤖 cs.LG

Robust Audio-Visual Target Speaker Extraction with Emotion-Aware Multiple Enrollment Fusion

本論文は、現実世界のモダリティ欠損に強健な音声・映像話者抽出を実現するため、多様な登録情報の融合戦略を系統的に検討し、高欠損率での学習と顔画像・口唇特徴の組み合わせが性能と堅牢性を両立させることを示しています。

Zhan Jin, Bang Zeng, Peijun Yang, Jiarong Du, Wei Ju, Yao Tian, Juan Liu, Ming LiThu, 12 Ma⚡ eess