[b]=[d]-[t]+[p]: Self-supervised Speech Models Discover Phonological Vector Arithmetic

本論文は、自己教師あり音声モデルが、音声特徴に対応する線形ベクトル方向を学習しており、これらのベクトルの演算やスケーリングによって音韻論的な関係(例:有声・無声の連続性)を捉える「音韻ベクトル演算」が可能であることを、96 言語にわたる包括的な研究で実証したものである。

Kwanghee Choi, Eunjung Yeo, Cheol Jun Cho, David Harwath, David R. MortensenFri, 13 Ma⚡ eess

V2A-DPO: Omni-Preference Optimization for Video-to-Audio Generation

本論文は、フローベースの動画から音声生成モデル向けに、人間の嗜好に合致した大規模なペアデータ生成パイプラインとカリキュラム学習を備えた Direct Preference Optimization(DPO)フレームワーク「V2A-DPO」を提案し、VGGSound ベンチマークにおいて既存の手法や DDPO 最適化モデルを上回る最先端の性能を達成したことを報告しています。

Nolan Chan, Timmy Gang, Yongqian Wang, Yuzhe Liang, Dingdong WangFri, 13 Ma⚡ eess

Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

本論文は、音声と映像のフレームレート不一致を解決し、時間的整合性を保つために、 Temporally-aligned Rotary Position Embeddings (TaRoPE) と Cross-Temporal Matching (CTM) 損失を組み込んだトランスフォーマーベースのマルチモーダル自己注意ネットワークを提案し、CREMA-D および RAVDESS データセットにおける感情認識精度の向上を実証しています。

Inyong Koo, yeeun Seong, Minseok Son, Jaehyuk Jang, Changick KimFri, 13 Ma⚡ eess

Huntington Disease Automatic Speech Recognition with Biomarker Supervision

ハンチントン病の音声認識(ASR)において、高品質な臨床コーパスを用いた体系的な研究により、Parakeet-TDT アーキテクチャの優位性を示し、生体マーカーに基づく補助教師信号を用いることで誤り率を 6.99% から 4.95% まで改善する手法を提案し、コードとモデルをオープンソース化しました。

Charles L. Wang, Cady Chen, Ziwei Gong, Julia HirschbergFri, 13 Ma🤖 cs.LG

Can LLMs Help Localize Fake Words in Partially Fake Speech?

この論文は、テキストで訓練された大規模言語モデル(LLM)を音声タスクに応用して部分的に改ざんされた音声内の偽造単語を特定する手法を提案し、AV-Deepfake1M および PartialEdit での実験により、モデルが学習データ特有の編集パターンに依存していることが示されたものの、未見の編集スタイルへの汎化性が課題であることを明らかにしています。

Lin Zhang, Thomas Thebaud, Zexin Cai, Sanjeev Khudanpur, Daniel Povey, Leibny Paola García-Perera, Matthew Wiesner, Nicholas AndrewsFri, 13 Ma⚡ eess

Cough activity detection for automatic tuberculosis screening

南アフリカとウガンダのコミュニティ医療センターで収集された結核患者の咳音データを用いた研究において、XLS-R の最初の 3 層のみを活用した事前学習済みトランスフォーマーモデルが、咳の開始・終了点の自動検出およびその後の結核分類タスクにおいて、既存のモデルやベースラインを凌駕する高い精度と計算効率を実現し、スマートフォンを用いた大規模なスクリーニングツールの実用化可能性を示しました。

Joshua Jansen van Vüren, Devendra Singh Parihar, Daphne Naidoo, Kimsey Zajac, Willy Ssengooba, Grant Theron, Thomas NieslerFri, 13 Ma⚡ eess

Fair-Gate: Fairness-Aware Interpretable Risk Gating for Sex-Fair Voice Biometrics

この論文は、音声生体認証における性差による性能格差を解消するため、デモグラフィックなショートカット学習と特徴の絡み合いという 2 つの課題に対処し、リスクの均一化と解釈可能な特徴ルーティングを行う公平性意識型のリスクゲートフレームワーク「Fair-Gate」を提案するものである。

Yangyang Qu, Todisco Massimiliano, Galdi Chiara, Evans NicholasFri, 13 Ma⚡ eess

Continued Pretraining for Low-Resource Swahili ASR: Achieving State-of-the-Art Performance with Minimal Labeled Data

本論文は、限られたラベル付きデータ(2 万サンプル)と未ラベル音声を活用した継続的事前学習(CPT)手法により、スワヒリ語音声認識(ASR)の単語誤り率を 3.24% まで低減し、既存の最優秀学術システムを大幅に上回る性能を達成したことを報告しています。

Hillary Mutisya, John MuganeFri, 13 Ma⚡ eess

Stage-Adaptive Reliability Modeling for Continuous Valence-Arousal Estimation

本論文は、リアルワールド環境における音声・視覚信号の信頼性が相互作用の段階によって変動する課題に対処するため、各段階でモダリティごとの信頼性を推定・較正し、適応的に融合を行う「SAGE」と呼ばれるフレームワークを提案し、Aff-Wild2 ベンチマークにおいて既存手法を上回る連続的な感情推定性能を実証したものである。

Yubeen Lee, Sangeun Lee, Junyeop Cha, Eunil ParkFri, 13 Ma🤖 cs.AI

SEMamba++: A General Speech Restoration Framework Leveraging Global, Local, and Periodic Spectral Patterns

SEMamba++ は、周波数特性やマルチ解像度分析といった音声固有の性質をインダクティブバイアスとして取り入れた新しいアーキテクチャを提案し、計算効率を維持しながら複数のベースラインモデルを上回る性能を実現する汎用的な音声復元フレームワークです。

Yongjoon Lee, Jung-Woo ChoiFri, 13 Ma⚡ eess

Causal Prosody Mediation for Text-to-Speech:Counterfactual Training of Duration, Pitch, and Energy in FastSpeech2

この論文は、FastSpeech2 構造に明示的な感情条件付けと因果推論に基づく対照的訓練(間接経路制約と対照的プロソディ制約)を導入し、言語内容から感情プロソディを分離することで、自然さを損なわずに制御可能な感情表現とプロソディ編集を実現する新しい音声合成フレームワークを提案しています。

Suvendu Sekhar MohantyFri, 13 Ma🤖 cs.AI

Affect Decoding in Phonated and Silent Speech Production from Surface EMG

この論文は、発声および無声の発話時の顔面・頸部の表面筋電図(sEMG)データを用いて感情を解読する手法を提案し、特に「フラストレーション」の識別において高い精度を達成し、発声の有無にかかわらず感情の筋活動パターンが持続することを示しています。

Simon Pistrosch, Kleanthis Avramidis, Tiantian Feng, Jihwan Lee, Monica Gonzalez-Machorro, Shrikanth Narayanan, Björn W. SchullerFri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

この論文は、大規模音声言語モデル(LALMs)が従来の内容中心の枠組みで無視しがちな副言語的キューへの意識を回復させるため、層ごとの分析に基づき「選択的層微調整」と「補助的な二重レベル分類ヘッド」を組み合わせた新しい微調整プロトコル「PE-FT」を提案し、その有効性を実証したものである。

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition

この論文は、Shapley 値を用いて音声・視覚モダリティの寄与を定量化する「Dr. SHAP-AV」フレームワークを提案し、ノイズ環境下でもモデルが音声へのバイアスを維持しつつ視覚への依存を高めるという発見を通じて、AVSR におけるモダリティバランスの動的変化と診断手法の重要性を明らかにしています。

Umberto Cappellazzo, Stavros Petridis, Maja PanticFri, 13 Ma⚡ eess

Controllable Dance Generation with Style-Guided Motion Diffusion

既存の手法が欠如していた音楽スタイルとの整合性や制御性を補完するため、音楽特徴とスタイルプロンプトを統合した「スタイル誘導モーション拡散(SGMD)」を提案し、Transformer 構造と空間時間的マスク機構を用いて、軌跡生成やダンスの補間・修復など多様な制御タスクに対応する高品質でスタイルに忠実なダンス生成を実現する。

Hongsong Wang, Ying Zhu, Xin Geng + 1 more2026-03-11⚡ eess

ExSampling: a system for the real-time ensemble performance of field-recorded environmental sounds

本論文は、フィールドレコーディングによる環境音のリアルタイムな音楽パフォーマンスを可能にする統合システム「ExSampling」を提案し、深層学習を用いた自動的な音源の Ableton Live トラックへのマッピングにより、録音者・作曲家・演奏者の間での相互作用を実現するものである。

Atsuya Kobayashi, Reo Anzai, Nao Tokui2026-03-10⚡ eess