Robust Audio-Visual Target Speaker Extraction with Emotion-Aware Multiple Enrollment Fusion

本論文は、現実世界のモダリティ欠損に強健な音声・映像話者抽出を実現するため、多様な登録情報の融合戦略を系統的に検討し、高欠損率での学習と顔画像・口唇特徴の組み合わせが性能と堅牢性を両立させることを示しています。

Zhan Jin, Bang Zeng, Peijun Yang, Jiarong Du, Wei Ju, Yao Tian, Juan Liu, Ming LiThu, 12 Ma⚡ eess

Trade-offs between structural richness and communication efficiency in music network representations

この論文は、ピアノ音楽のネットワーク表現において、単一特徴量による圧縮表現が学習容易な高い不確実性を示す一方で、多特徴量による豊かさは状態空間の拡大とモデル誤差の増大を招くという構造の豊かさと通信効率の間のトレードオフを明らかにし、聴衆の現実的な期待形成にどの表現が適しているかを論じています。

Lluc Bono Rosselló, Robert Jankowski, Hugues Bersini, Marián Boguñá, M. Ángeles SerranoThu, 12 Ma🧬 q-bio

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

この論文は、標準的な音声活動検出(VAD)モデルの特定の層に対してハイパーネットワークを用いてパーソナライズされた重みを生成する「HyWA」という手法を提案し、既存の条件付け手法と比較して精度の向上とアーキテクチャの再利用による展開の容易さを両立させることを示しています。

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi NiaThu, 12 Ma⚡ eess

Calibration-Reasoning Framework for Descriptive Speech Quality Assessment

この論文は、Audio Large Language Model を校正段階と GRPO による強化学習段階で調整する新たな手法を提案し、音声の知覚次元の推論やアーティファクトの特定・分類能力を飛躍的に向上させ、多面的な音声品質評価において最先端の性能を達成したことを報告しています。

Elizaveta Kostenok, Mathieu Salzmann, Milos CernakThu, 12 Ma⚡ eess

FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

この論文は、音声認識(ASR)、音声活動検出(VAD)、話者言語識別(LID)、句読点予測(Punc)の 4 つのモジュールを統合し、各タスクで最先端の性能を達成した産業級オールインワン自動音声認識システム「FireRedASR2S」を提案し、そのモデル重みとコードを公開していることを述べています。

Kaituo Xu, Yan Jia, Kai Huang, Junjie Chen, Wenpeng Li, Kun Liu, Feng-Long Xie, Xu Tang, Yao HuThu, 12 Ma⚡ eess

G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

本論文は、長尺の複数話者音声における時間指定付き話者割り当て付きASRを実現するため、時間意識型話者追跡モジュールと音声LLMを組み合わせたエンドツーエンドシステム「G-STAR」を提案し、チャンク間の話者同一性の一貫性と微細な時間境界の両方を維持する手法を確立したものである。

Jing Peng, Ziyi Chen, Haoyu Li, Yucheng Wang, Duo Ma, Mengtian Li, Yunfan Du, Dezhu Xu, Kai Yu, Shuai WangThu, 12 Ma⚡ eess

Geo-ATBench: A Benchmark for Geospatial Audio Tagging with Geospatial Semantic Context

この論文は、地理空間的意味文脈(GSC)を活用して音声イベントの曖昧さを解消する「Geo-AT」タスクを提案し、その評価基準となるデータセット「Geo-ATBench」と融合フレームワーク「GeoFusion-AT」を開発して、音声認識の精度向上と人間との整合性を検証したものです。

Yuanbo Hou, Yanru Wu, Qiaoqiao Ren, Shengchen Li, Stephen Roberts, Dick BotteldoorenThu, 12 Ma⚡ eess

MOS-Bias: From Hidden Gender Bias to Gender-Aware Speech Quality Assessment

この論文は、音声品質評価の標準指標である平均意見スコア(MOS)に存在する性差(男性聴衆が女性より高得点を付ける傾向)を初めて体系的に分析し、これを学習可能なパターンとして捉えた性認識モデルを提案することで、公平な音声評価の実現に貢献することを示しています。

Wenze Ren, Yi-Cheng Lin, Wen-Chin Huang, Erica Cooper, Ryandhimas E. Zezario, Hsin-Min Wang, Hung-yi Lee, Yu TsaoThu, 12 Ma⚡ eess

Efficient Emotion and Speaker Adaptation in LLM-Based TTS via Characteristic-Specific Partial Fine-Tuning

LLM 音声合成モデルの感情・話者適応において、全パラメータの微調整に代わり、感情と話者情報の寄与を動的に分析して特定の 2 層のみを選択的に微調整する「CSP-FT」手法を提案し、学習速度の向上と忘却の抑制を実現しつつ、フル微調整と同等以上の忠実度と明瞭さを達成することを示しました。

Tianrui Wang, Meng Ge, Cheng Gong, Chunyu Qiang, Haoyu Wang, Zikang Huang, Yu Jiang, Ye Ni, Yuheng Lu, Xiaobao Wang, Engsiong Chng, Xie Chen, Longbiao Wang, Jianwu DangMon, 09 Ma💻 cs

The trajectoRIR Database: Room Acoustic Recordings Along a Trajectory of Moving Microphones

この論文は、ロボットカートを用いて制御された軌跡上を移動するマイクと静止マイクからなる多様なアレイ配置で録音された、移動マイク録音と静止インパルス応答の両方を含む大規模な音響データベース「trajectoRIR」を紹介し、音源定位や音場再構成など多様なタスクへの応用を可能にするものである。

Stefano Damiano, Kathleen MacWilliam, Valerio Lorenzoni, Thomas Dietzen, Toon van WaterschootMon, 09 Ma⚡ eess

ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction

この論文は、話者の感情やトーンなどの副言語的要素を適切に扱える音声対話モデルの構築を目指し、新しい強化学習フレームワーク「ParaS2S」と高品質な評価ベンチマーク「ParaS2SBench」を提案し、既存のモデルや教師あり微細化(SFT)を上回る性能を達成したことを報告しています。

Shu-wen Yang, Ming Tu, Andy T. Liu, Xinghua Qu, Hung-yi Lee, Lu Lu, Yuxuan Wang, Yonghui WuMon, 09 Ma⚡ eess

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

この論文は、ノイズを含む音声から意味情報を失わずに視覚情報を用いて特徴を洗練させるコンフォーマーベースのバトネック融合モジュールを備えたエンドツーエンドの音声増強フレームワークを提案し、LRS3 ベンチマークにおいて既存のマスクベース手法を上回る頑健な音声・視覚音声認識性能を実現することを示しています。

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

LMU-Based Sequential Learning and Posterior Ensemble Fusion for Cross-Domain Infant Cry Classification

本論文は、限られたアノテーションと強いドメインシフトに直面する乳児の泣き声分類において、MFCC、STFT、ピッチ特徴を統合した多ブランチ CNN と、LSTM よりも効率的な時間ダイナミクスモデルである Legendre Memory Unit(LMU)を用いたコンパクトなフレームワークを提案し、エントロピーゲート付きの校正された事後確率アンサンブル融合により、クロスドメイン評価での汎化性能とリアルタイム処理能力を向上させることを示しています。

Niloofar Jazaeri, Hilmi R. Dajani, Marco Janeczek, Martin BouchardMon, 09 Ma🤖 cs.LG

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

本論文は、複数の専門エンコーダやモジュール結合のオーバーヘッドを排除し、単一の密なトランスフォーマー・エンコーダ(Omni-C)を用いて画像・音声・テキストなどの異種モダリティを効率的に共有表現へ圧縮する手法を提案し、リソース制約のある環境でもスケーラブルなマルチモーダル学習を実現することを示しています。

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de GusmãoMon, 09 Ma🤖 cs.AI

Activation Steering for Accent Adaptation in Speech Foundation Models

この論文は、音声基礎モデルにおけるアクセント情報を隠れ表現の解釈可能な部分空間として捉え、パラメータの更新なしに推論時にアクティベーションを直接操作する「アクティベーション・ステアリング」手法を提案し、8 つのアクセントで単語誤り率を改善することを示しています。

Jinuo Sun, Yang Xiao, Sung Kyun Chung, Qiuchi Hu, Gongping Huang, Eun-Jung Holden, Ting DangMon, 09 Ma⚡ eess