A Large-Scale Probing Analysis of Speaker-Specific Attributes in Self-Supervised Speech Representations

本論文は、11 の自己教師あり音声モデルを対象とした大規模なプロービング分析を通じて、音声 SSL モデルが話者固有の情報をどのように符号化するかを解明し、最終層が純粋に言語内容のみを抽象化するとの通説に反して大規模モデルでは深層で話者アイデンティティが再獲得されること、また中間表現が専門的な話者埋め込みよりも動的な韻律を捉えることを発見しました。

Aemon Yat Fei Chiu, Kei Ching Fung, Roger Tsz Yeung Li + 2 more2026-03-06💻 cs

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

この論文は、複数の人物や物体が同一の動画内で相互作用するシナリオに対応するため、各アイデンティティの空間的・時間的領域にテキスト、画像、音声などのマルチモーダル条件を厳密に紐付ける新しいフレームワーク「InterActHuman」を提案し、高品質な多概念人間アニメーション生成を実現するものです。

Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang + 7 more2026-03-06💻 cs

TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

本論文は、限られた計算資源下でもベトナム語と英語のコードスイッチング音声認識において、PhoWhisper-base などの既存手法を上回る Word Error Rate 19.06% を達成する、拡張ベトナム語音素セットを中間表現とする効率的な 2 段階音素中心アーキテクチャ「TSPC」を提案するものである。

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam + 1 more2026-03-06💻 cs

BabyHuBERT: Multilingual Self-Supervised Learning for Segmenting Speakers in Child-Centered Long-Form Recordings

本研究では、40 以上の言語にわたる 1 万 3,000 時間の多言語幼児中心音声データを用いて学習させた自己教師あり音声モデル「BabyHuBERT」を提案し、これにより既存の成人向けモデルを上回る性能で、自然な環境下での長編録音における話者(対象児と成人・他児など)の分類精度を大幅に向上させたことを示しています。

Théo Charlot, Tarek Kunze, Maxime Poli + 3 more2026-03-06💻 cs

SAM: A Mamba-2 State-Space Audio-Language Model

本論文は、Mamba-2 をバックボーンに採用した音声言語モデル「SAM」を提案し、パラメータ数を削減しながら大規模なトランスフォーマーモデルに匹敵する性能を達成するとともに、音声エンコーダーの微調整やトークン表現の最適化、指示追従学習の重要性など、SSM を音声言語モデルの基盤として実用的に設計するための指針を確立したものである。

Taehan Lee, Jaehan Jung, Hyukjun Lee2026-03-06💻 cs

Multi-Loss Learning for Speech Emotion Recognition with Energy-Adaptive Mixup and Frame-Level Attention

本論文は、SNR ベースのエネルギー適応ミックスアップとフレームレベル注意機構を統合し、多損失学習戦略を用いて感情の複雑さやデータ不足という課題を克服し、複数のデータセットで最先端の性能を達成する音声感情認識フレームワークを提案しています。

Cong Wang, Yizhong Geng, Yuhua Wen + 7 more2026-03-06💻 cs

MultiAPI Spoof: A Multi-API Dataset and Local-Attention Network for Speech Anti-spoofing Detection

本論文は、実世界の多様な商用 API を反映した大規模な音声偽造データセット「MultiAPI Spoof」と、その生成元を特定するタスクを提案し、ローカル注意機構を強化した Nes2Net-LA モデルが未知の偽造条件においても高い検出性能と頑健性を示すことを実証したものです。

Xueping Zhang, Zhenshan Zhang, Yechen Wang + 3 more2026-03-06💻 cs

Fine-grained Soundscape Control for Augmented Hearing

本論文は、リソース制約のあるヒアラブルデバイス上で、複数の同時音源を個別に抽出・調整可能なリアルタイムの細粒度サウンドスケープ制御システム「Aurchestra」を提案し、環境音をオーディオエンジニアがトラックをミックスするようにカスタマイズ可能にする技術を示しています。

Seunghyun Oh, Malek Itani, Aseem Gauri + 1 more2026-03-06💻 cs

VoxKnesset: A Large-Scale Longitudinal Hebrew Speech Dataset for Aging Speaker Modeling

本論文は、2009 年から 2025 年にかけての 393 名の国会議員による約 2,300 時間のヘブライ語音声データ「VoxKnesset」を公開し、15 年間の経年変化に伴う音声認識および話者認証の性能低下を実証的に分析するとともに、加齢に頑健な音声システム開発への基盤を提供するものである。

Yanir Marmor, Arad Zulti, David Krongauz + 4 more2026-03-06💻 cs

Temporal Pooling Strategies for Training-Free Anomalous Sound Detection with Self-Supervised Audio Embeddings

本論文は、事前学習済み音声埋め込みモデルを用いた学習不要な異常音検出において、従来の平均プーリングに代わる相対偏差プーリングやハイブリッドプーリングを提案し、複数のベンチマークデータセットで最先端の性能を達成したことを示しています。

Kevin Wilkinghoff, Sarthak Yadav, Zheng-Hua Tan2026-03-06💻 cs

WhisperAlign: Word-Boundary-Aware ASR and WhisperX-Anchored Pyannote Diarization for Long-Form Bengali Speech

本論文は、DL スプリント 4.0 向けに WhisperX とピボット化された WhisperX を活用し、ベンガル語の長文音声認識と話者分離の課題に対し、音声チャンキング戦略とドメイン固有のセグメンテーションモデルの微調整を組み合わせることで、単語誤り率と話者分離誤り率を大幅に低減する手法を提案しています。

Aurchi Chowdhury, Rubaiyat -E-Zaman, Sk. Ashrafuzzaman Nafees2026-03-06💻 cs

Focus Then Listen: Exploring Plug-and-Play Audio Enhancer for Noise-Robust Large Audio Language Models

本論文は、大規模音声言語モデルのノイズ耐性を向上させるため、入力波形の分離と指示に応じたモダリティルータ、タスク適応型融合ブロックを備えた、モデルの再学習不要なプラグアンドプレイ型音声增强器「Focus-Then-Listen」を提案するものである。

Han Yin, Yang Xiao, Younghoo Kwon + 2 more2026-03-06💻 cs

The First Environmental Sound Deepfake Detection Challenge: Benchmarking Robustness, Evaluation, and Insights

本論文は、環境音のディープフェイク検出(ESDD)という未開拓分野を推進するため、97 チームが参加し 1,748 件の提出を記録した初の ESDD チャレンジの課題設定、データセット、評価手法、ベースラインシステム、および上位システムから得られた知見と将来の研究方向性をまとめたものである。

Han Yin, Yang Xiao, Rohan Kumar Das + 2 more2026-03-06💻 cs