SEMamba++: A General Speech Restoration Framework Leveraging Global, Local, and Periodic Spectral Patterns

SEMamba++ は、周波数特性やマルチ解像度分析といった音声固有の性質をインダクティブバイアスとして取り入れた新しいアーキテクチャを提案し、計算効率を維持しながら複数のベースラインモデルを上回る性能を実現する汎用的な音声復元フレームワークです。

Yongjoon Lee, Jung-Woo ChoiFri, 13 Ma⚡ eess

Affect Decoding in Phonated and Silent Speech Production from Surface EMG

この論文は、発声および無声の発話時の顔面・頸部の表面筋電図(sEMG)データを用いて感情を解読する手法を提案し、特に「フラストレーション」の識別において高い精度を達成し、発声の有無にかかわらず感情の筋活動パターンが持続することを示しています。

Simon Pistrosch, Kleanthis Avramidis, Tiantian Feng, Jihwan Lee, Monica Gonzalez-Machorro, Shrikanth Narayanan, Björn W. SchullerFri, 13 Ma⚡ eess

Reconstruction of the Vocal Tract from Speech via Phonetic Representations Using MRI Data

この論文は、音声信号から声道の幾何学形状を再構築する音響・調音逆変換において、MFCC ベースラインと比較し、自動文字起こし、時間整合された音素セグメンテーション、そして専門家による手動修正という 3 つの異なるレベルの音素情報精度が再構築精度に与える影響を MRI データを用いて検討し、手動修正後のモデルがベースラインに匹敵する最高性能を示すことを明らかにしています。

Sofiane Azzouz, Pierre-André Vuissoz, Yves LaprieFri, 13 Ma⚡ eess

Silent Speech Interfaces in the Era of Large Language Models: A Comprehensive Taxonomy and Systematic Review

本論文は、環境ノイズやプライバシー制約を克服するサイレント・スピーチ・インターフェース(SSI)の技術動向を、従来の信号処理から大規模言語モデルを活用した意味的潜在空間へのマッピングという新たなパラダイムへと転換する包括的な分類体系とシステマティック・レビューとして提示し、実用化に向けたロードマップと倫理的課題を論じています。

Kele Xu, Yifan Wang, Ming Feng, Qisheng Xu, Wuyang Chen, Yutao Dou, Cheng Yang, Huaimin WangFri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

この論文は、大規模音声言語モデル(LALMs)が従来の内容中心の枠組みで無視しがちな副言語的キューへの意識を回復させるため、層ごとの分析に基づき「選択的層微調整」と「補助的な二重レベル分類ヘッド」を組み合わせた新しい微調整プロトコル「PE-FT」を提案し、その有効性を実証したものである。

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition

この論文は、Shapley 値を用いて音声・視覚モダリティの寄与を定量化する「Dr. SHAP-AV」フレームワークを提案し、ノイズ環境下でもモデルが音声へのバイアスを維持しつつ視覚への依存を高めるという発見を通じて、AVSR におけるモダリティバランスの動的変化と診断手法の重要性を明らかにしています。

Umberto Cappellazzo, Stavros Petridis, Maja PanticFri, 13 Ma⚡ eess

Controllable Dance Generation with Style-Guided Motion Diffusion

既存の手法が欠如していた音楽スタイルとの整合性や制御性を補完するため、音楽特徴とスタイルプロンプトを統合した「スタイル誘導モーション拡散(SGMD)」を提案し、Transformer 構造と空間時間的マスク機構を用いて、軌跡生成やダンスの補間・修復など多様な制御タスクに対応する高品質でスタイルに忠実なダンス生成を実現する。

Hongsong Wang, Ying Zhu, Xin Geng + 1 more2026-03-11⚡ eess

ExSampling: a system for the real-time ensemble performance of field-recorded environmental sounds

本論文は、フィールドレコーディングによる環境音のリアルタイムな音楽パフォーマンスを可能にする統合システム「ExSampling」を提案し、深層学習を用いた自動的な音源の Ableton Live トラックへのマッピングにより、録音者・作曲家・演奏者の間での相互作用を実現するものである。

Atsuya Kobayashi, Reo Anzai, Nao Tokui2026-03-10⚡ eess

A Large-Scale Probing Analysis of Speaker-Specific Attributes in Self-Supervised Speech Representations

本論文は、11 の自己教師あり音声モデルを対象とした大規模なプロービング分析を通じて、音声 SSL モデルが話者固有の情報をどのように符号化するかを解明し、最終層が純粋に言語内容のみを抽象化するとの通説に反して大規模モデルでは深層で話者アイデンティティが再獲得されること、また中間表現が専門的な話者埋め込みよりも動的な韻律を捉えることを発見しました。

Aemon Yat Fei Chiu, Kei Ching Fung, Roger Tsz Yeung Li + 2 more2026-03-06💻 cs

TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

本論文は、限られた計算資源下でもベトナム語と英語のコードスイッチング音声認識において、PhoWhisper-base などの既存手法を上回る Word Error Rate 19.06% を達成する、拡張ベトナム語音素セットを中間表現とする効率的な 2 段階音素中心アーキテクチャ「TSPC」を提案するものである。

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam + 1 more2026-03-06💻 cs

BabyHuBERT: Multilingual Self-Supervised Learning for Segmenting Speakers in Child-Centered Long-Form Recordings

本研究では、40 以上の言語にわたる 1 万 3,000 時間の多言語幼児中心音声データを用いて学習させた自己教師あり音声モデル「BabyHuBERT」を提案し、これにより既存の成人向けモデルを上回る性能で、自然な環境下での長編録音における話者(対象児と成人・他児など)の分類精度を大幅に向上させたことを示しています。

Théo Charlot, Tarek Kunze, Maxime Poli + 3 more2026-03-06💻 cs

SAM: A Mamba-2 State-Space Audio-Language Model

本論文は、Mamba-2 をバックボーンに採用した音声言語モデル「SAM」を提案し、パラメータ数を削減しながら大規模なトランスフォーマーモデルに匹敵する性能を達成するとともに、音声エンコーダーの微調整やトークン表現の最適化、指示追従学習の重要性など、SSM を音声言語モデルの基盤として実用的に設計するための指針を確立したものである。

Taehan Lee, Jaehan Jung, Hyukjun Lee2026-03-06💻 cs

Conversational Speech Reveals Structural Robustness Failures in SpeechLLM Backbones

本研究は、LLM を基盤とする音声モデルが自然な会話の流暢性を欠く入力に対して構造的忠実度よりも意味の抽象化を優先する傾向があり、特に推論モデルが過剰な削除を行うことを示し、音声に対する頑健性が特定の学習目的によって形成されることを明らかにしています。

Maria Teleki, Sai Janjur, Haoran Liu + 11 more2026-03-06💻 cs

Multi-Loss Learning for Speech Emotion Recognition with Energy-Adaptive Mixup and Frame-Level Attention

本論文は、SNR ベースのエネルギー適応ミックスアップとフレームレベル注意機構を統合し、多損失学習戦略を用いて感情の複雑さやデータ不足という課題を克服し、複数のデータセットで最先端の性能を達成する音声感情認識フレームワークを提案しています。

Cong Wang, Yizhong Geng, Yuhua Wen + 7 more2026-03-06💻 cs