Fine-grained Soundscape Control for Augmented Hearing

本論文は、リソース制約のあるヒアラブルデバイス上で、複数の同時音源を個別に抽出・調整可能なリアルタイムの細粒度サウンドスケープ制御システム「Aurchestra」を提案し、環境音をオーディオエンジニアがトラックをミックスするようにカスタマイズ可能にする技術を示しています。

Seunghyun Oh, Malek Itani, Aseem Gauri + 1 more2026-03-06💻 cs

VoxKnesset: A Large-Scale Longitudinal Hebrew Speech Dataset for Aging Speaker Modeling

本論文は、2009 年から 2025 年にかけての 393 名の国会議員による約 2,300 時間のヘブライ語音声データ「VoxKnesset」を公開し、15 年間の経年変化に伴う音声認識および話者認証の性能低下を実証的に分析するとともに、加齢に頑健な音声システム開発への基盤を提供するものである。

Yanir Marmor, Arad Zulti, David Krongauz + 4 more2026-03-06💻 cs

The PARLO Dementia Corpus: A German Multi-Center Resource for Alzheimer's Disease

本論文は、ドイツの 9 医療機関で収集され、アルツハイマー型認知症の非侵襲的かつスケーラブルな検出を可能にする、音声・言語分析用の初の公開ドイツ語マルチセンターデータセット「PARLO Dementia Corpus」を紹介し、その臨床的妥当性と自動評価の可能性を実証しています。

Franziska Braun, Christopher Witzl, Florian Hönig + 3 more2026-03-06⚡ eess

Temporal Pooling Strategies for Training-Free Anomalous Sound Detection with Self-Supervised Audio Embeddings

本論文は、事前学習済み音声埋め込みモデルを用いた学習不要な異常音検出において、従来の平均プーリングに代わる相対偏差プーリングやハイブリッドプーリングを提案し、複数のベンチマークデータセットで最先端の性能を達成したことを示しています。

Kevin Wilkinghoff, Sarthak Yadav, Zheng-Hua Tan2026-03-06💻 cs

An Approach to Simultaneous Acquisition of Real-Time MRI Video, EEG, and Surface EMG for Articulatory, Brain, and Muscle Activity During Speech Production

この論文は、発話生成における脳、筋肉、および構音器官の動きを同時に捉えるため、リアルタイム MRI、EEG、表面筋電図の同時取得と、それらの相互干渉を抑制する新しいアーチファクト除去パイプラインを提案するものである。

Jihwan Lee, Parsa Razmara, Kevin Huang + 16 more2026-03-06🤖 cs.AI

Voice Timbre Attribute Detection with Compact and Interpretable Training-Free Acoustic Parameters

この論文は、深層学習モデルの「ブラックボックス」性や計算コストを克服し、物理的な解釈可能性と極めて低い計算負荷を実現するトレーニング不要のコンパクトな音響パラメータセットを提案し、音声の音色属性検出タスクにおいて従来の特徴量や教師あり深層学習埋め込みを上回る性能を達成したことを報告しています。

Aemon Yat Fei Chiu, Yujia Xiao, Qiuqiang Kong + 1 more2026-03-06⚡ eess

BabAR: from phoneme recognition to developmental measures of young children's speech production

著者らは、5 言語にわたる 50 万件以上の幼児発話データ「TinyVox」を構築し、多言語の長時間録音による事前学習と文脈情報の活用によって幼児の音素認識を可能にした「BabAR」を開発し、その自動測定値が既存の発達指標と一致することを示すことで、大規模な幼児発話研究への実用性を確立しました。

Marvin Lavechin, Elika Bergelson, Roger Levy2026-03-06⚡ eess

Visual-Informed Speech Enhancement Using Attention-Based Beamforming

この論文は、音声認識モデルから抽出した口元の動きを注意機構を備えたニューラルビームフォーマに統合し、低 SNR 環境や動的な話者を含む複雑な状況における音声強調性能とロバスト性を向上させる新しい「視覚情報に基づくニューラルビームフォーマ(VI-NBFNet)」を提案し、その有効性を実証したものです。

Chihyun Liu, Jiaxuan Fan, Mingtung Sun + 3 more2026-03-06🤖 cs.AI

Exploring the potential and limitations of Model Merging for Multi-Domain Adaptation in ASR

この論文は、11 種類のモデル統合アルゴリズムを 10 のポルトガル語ドメインで評価し、特異値ブースティングを導入した新手法 BoostedTSV-M を提案することで、フルファインチューニングを上回る性能と分布外汎化能力を単一モデルで実現する ASR におけるモデル統合の可能性と限界を明らかにしています。

Carlos Carvalho, Francisco Teixeira, Thomas Rolland + 1 more2026-03-06💬 cs.CL

Hierarchical Decoding for Discrete Speech Synthesis with Multi-Resolution Spoof Detection

本論文は、パラメータの再学習を必要とせず、マルチ解像度のスパム検出器を用いた階層的デコーディング戦略により、離散音声合成の推論段階でトークンレベルのアーティファクトを抑制し、ゼロショット合成の品質と堅牢性を向上させる「MSpoof-TTS」という推論フレームワークを提案するものである。

Junchuan Zhao, Minh Duc Vu, Ye Wang2026-03-06💻 cs

Knowing When to Quit: Probabilistic Early Exits for Speech Separation

この論文は、埋め込みデバイス向けに計算リソースを動的に調整可能にするため、不確実性を考慮した確率的枠組みを用いて所望の信号対雑音比に基づいて早期終了を可能にするニューラルネットワークアーキテクチャを提案し、音声分離・強化タスクにおいて再構成品質を損なうことなく大幅な計算節約を実現することを示しています。

Kenny Falkær Olsen, Mads Østergaard, Karl Ulbæk + 4 more2026-03-05🤖 cs.LG

LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection

本論文は、既存の手法が抱える遅延融合やスコア音源の曖昧さといった課題を解決するため、双方向ストリームエンコーダと記号スコアをデコーダのプロンプトとして活用するマルチモーダル・インターリーブ型トランスフォーマー「LadderSym」を提案し、音楽練習のエラー検出精度を大幅に向上させたことを報告するものです。

Benjamin Shiue-Hal Chou, Purvish Jajal, Nick John Eliopoulos + 4 more2026-03-05🤖 cs.AI

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

この論文は、テキスト、歌詞、参照オーディオを組み合わせた複合的マルチモーダル指示(CMI)に対応する音楽生成モデルの評価ギャップを埋めるため、大規模な嗜好データセット、高品質な人間アノテーションコーパス、統一ベンチマーク、および効率的な報酬モデル(CMI-RM)を含む包括的なエコシステムを提案し、人間の評価との高い相関と推論時のスケーリング能力を実証しています。

Yinghao Ma, Haiwen Xia, Hewei Gao + 9 more2026-03-05🤖 cs.AI

Escaping the BLEU Trap: A Signal-Grounded Framework with Decoupled Semantic Guidance for EEG-to-Text Decoding

この論文は、脳波(EEG)から自然言語を復号化する際に生じる意味的バイアスや信号軽視、そして BLEU スコアの罠といった課題に対処するため、感情やトピックなどの decoupled な意味目標と、信号に基づく厳密な注意機構を統合した新たなフレームワーク「SemKey」を提案し、従来の評価指標を超えた堅牢な性能向上を実証したものである。

Yuchen Wang, Haonan Wang, Yu Guo + 2 more2026-03-05🤖 cs.AI

Automated Measurement of Geniohyoid Muscle Thickness During Speech Using Deep Learning and Ultrasound

この論文は、深層学習と骨格ベースの計測を組み合わせた自動フレームワーク「SMMA」を開発し、音声中の舌骨下筋の厚さを人間と同等の精度で測定することで、大規模な発話運動制御研究や摂食・嚥下障害の客観的評価を可能にしたことを報告しています。

Alisher Myrgyyassov, Bruce Xiao Wang, Yu Sun + 4 more2026-03-05🤖 cs.LG

ACES: Accent Subspaces for Coupling, Explanations, and Stress-Testing in Automatic Speech Recognition

本論文は、自動音声認識におけるアクセント間の性能格差のメカニズムを解明するため、Wav2Vec2-base の分析を通じてアクセント情報が低次元の早期層に集中していることを発見し、その空間を単純に除去するのではなくモデルの脆弱性や格差を診断するための重要なツールとして位置づける「ACES」という手法を提案しています。

Swapnil Parekh2026-03-05🤖 cs.AI

Multi-Stage Music Source Restoration with BandSplit-RoFormer Separation and HiFi++ GAN

本論文は、ICASSP 2025 ミュージックソース復元(MSR)チャレンジに向けた CP-JKU チームのシステムを提案し、3 段階のカリキュラム学習を用いた BandSplit-RoFormer による 8 音源分離と、HiFi++ GAN による楽器固有の波形復元という多段階アプローチを特徴としています。

Tobias Morocutti, Emmanouil Karystinaios, Jonathan Greif + 1 more2026-03-05🤖 cs.LG