Trade-offs between structural richness and communication efficiency in music network representations

この論文は、ピアノ音楽のネットワーク表現において、単一特徴量による圧縮表現が学習容易な高い不確実性を示す一方で、多特徴量による豊かさは状態空間の拡大とモデル誤差の増大を招くという構造の豊かさと通信効率の間のトレードオフを明らかにし、聴衆の現実的な期待形成にどの表現が適しているかを論じています。

Lluc Bono Rosselló, Robert Jankowski, Hugues Bersini, Marián Boguñá, M. Ángeles SerranoThu, 12 Ma🧬 q-bio

Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention

この論文は、唇の動きを離散的な意味トークンに変換する軽量エンコーダと、マルチスケールのグローバル・ローカル注意機構を採用した分離器を組み合わせた「Dolphin」という効率的な音声・視覚分離手法を提案し、最先端モデルよりも分離精度を維持しつつパラメータ数や計算コストを大幅に削減したことを示しています。

Kai Li, Kejun Gao, Xiaolin HuThu, 12 Ma💻 cs

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

この論文は、標準的な音声活動検出(VAD)モデルの特定の層に対してハイパーネットワークを用いてパーソナライズされた重みを生成する「HyWA」という手法を提案し、既存の条件付け手法と比較して精度の向上とアーキテクチャの再利用による展開の容易さを両立させることを示しています。

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi NiaThu, 12 Ma⚡ eess

Evaluation of Audio Compression Codecs

この論文は、音声圧縮コーデックの選択において圧縮効率だけでなく聴覚的な知覚品質も考慮すべきであると主張し、複数のコーデックを圧縮性能、可視化、および PEAQ スコアを用いて評価することで、デジタル音声圧縮技術が知覚品質に与える影響を明らかにし、コーデック選定への示唆を提供しています。

Thien T. Duong, Jan P. SpringerThu, 12 Ma💻 cs

AMB-DSGDN: Adaptive Modality-Balanced Dynamic Semantic Graph Differential Network for Multimodal Emotion Recognition

既存のマルチモーダル感情認識手法が抱えるノイズ除去の難しさと支配的モーダリティによる不均衡の問題を解決するため、話者内・話者間の動的な感情依存関係を捉えるモダリティ別サブグラフと、注意分布の差分を用いてノイズを除去し補完性を高める適応的モダリティバランス機構を組み合わせた「AMB-DSGDN」を提案する論文です。

Yunsheng Wang, Yuntao Shou, Yilong Tan, Wei Ai, Tao Meng, Keqin LiThu, 12 Ma🤖 cs.AI

PRoADS: Provably Secure and Robust Audio Diffusion Steganography with latent optimization and backward Euler Inversion

この論文は、拡散モデルの初期ノイズに秘密情報を埋め込む「PRoADS」という音声ステガノグラフィ手法を提案し、潜在空間最適化と後退オイラー法による逆転技術を用いて再構成誤差を最小化し、64kbps の MP3 圧縮下でも 0.15% という極めて低い誤り率を達成する堅牢なシステムを構築したことを述べています。

YongPeng Yan, Yanan Li, Qiyang Xiao, Yanzhen RenThu, 12 Ma💻 cs

FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

この論文は、音声認識(ASR)、音声活動検出(VAD)、話者言語識別(LID)、句読点予測(Punc)の 4 つのモジュールを統合し、各タスクで最先端の性能を達成した産業級オールインワン自動音声認識システム「FireRedASR2S」を提案し、そのモデル重みとコードを公開していることを述べています。

Kaituo Xu, Yan Jia, Kai Huang, Junjie Chen, Wenpeng Li, Kun Liu, Feng-Long Xie, Xu Tang, Yao HuThu, 12 Ma⚡ eess

G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

本論文は、長尺の複数話者音声における時間指定付き話者割り当て付きASRを実現するため、時間意識型話者追跡モジュールと音声LLMを組み合わせたエンドツーエンドシステム「G-STAR」を提案し、チャンク間の話者同一性の一貫性と微細な時間境界の両方を維持する手法を確立したものである。

Jing Peng, Ziyi Chen, Haoyu Li, Yucheng Wang, Duo Ma, Mengtian Li, Yunfan Du, Dezhu Xu, Kai Yu, Shuai WangThu, 12 Ma⚡ eess

Distilling LLM Semantic Priors into Encoder-Only Multi-Talker ASR with Talker-Count Routing

この論文は、LLM の意味的事前知識をエンコーダに蒸着させ、話者数を予測して動的にデコード経路を選択する「Talker-Count Routing」を導入することで、LLM をデコーダとして使用せずとも高速かつ高精度なマルチトークア ASR を実現する新しいフレームワークを提案しています。

Hao Shi, Yusuke Fujita, Roman Koshkin, Mengjie Zhao, Yuan Gao, Lianbo Liu, Yui SudoThu, 12 Ma💻 cs

Geo-ATBench: A Benchmark for Geospatial Audio Tagging with Geospatial Semantic Context

この論文は、地理空間的意味文脈(GSC)を活用して音声イベントの曖昧さを解消する「Geo-AT」タスクを提案し、その評価基準となるデータセット「Geo-ATBench」と融合フレームワーク「GeoFusion-AT」を開発して、音声認識の精度向上と人間との整合性を検証したものです。

Yuanbo Hou, Yanru Wu, Qiaoqiao Ren, Shengchen Li, Stephen Roberts, Dick BotteldoorenThu, 12 Ma⚡ eess

AlphaFlowTSE: One-Step Generative Target Speaker Extraction via Conditional AlphaFlow

本論文は、混合音声から参照発話を用いて目標話者を抽出するタスクにおいて、従来の多ステップサンプリングの遅延や不安定な混合比予測を回避し、ヤコビアン・ベクトル積不要の条件付き AlphaFlow 手法を用いた単一ステップ生成モデル「AlphaFlowTSE」を提案し、話者類似性と ASR 性能の向上を実証したものである。

Duojia Li, Shuhan Zhang, Zihan Qian, Wenxuan Wu, Shuai Wang, Qingyang Hong, Lin Li, Haizhou LiThu, 12 Ma🤖 cs.AI

Towards Robust Speech Deepfake Detection via Human-Inspired Reasoning

本論文は、大規模音声言語モデルと人間が注釈したデータセットから導き出された推論を組み合わせた新たな音声ディープフェイク検出フレームワーク「HIR-SDD」を提案し、既存手法が抱える汎化性の欠如と解釈性の低さを解決するとともに、予測の根拠を人間が理解可能な形で提示することを可能にします。

Artem Dvirniak, Evgeny Kushnir, Dmitrii Tarasov, Artem Iudin, Oleg Kiriukhin, Mikhail Pautov, Dmitrii Korzh, Oleg Y. RogovThu, 12 Ma🤖 cs.AI

Speaker Verification with Speech-Aware LLMs: Evaluation and Augmentation

この論文は、既存の音声対応大規模言語モデル(LLM)が話者識別能力に欠けることを示し、ECAPA-TDNN の話者埋め込みを LoRA 経由で注入する軽量な拡張手法を提案することで、自然言語インターフェースを維持しつつ話者検証タスクで専用システムに匹敵する性能を達成したことを報告しています。

Thomas Thebaud, Yuzhe Wang, Laureano Moro-Velazquez, Jesus Villalba-Lopez, Najim DehakThu, 12 Ma🤖 cs.AI

OSUM-Pangu: An Open-Source Multidimension Speech Understanding Foundation Model Built upon OpenPangu on Ascend NPUs

本論文は、非 CUDA 環境である Ascend NPU プラットフォーム上で完全オープンソース化された音声理解基盤モデル「OSUM-Pangu」を提案し、OpenPangu-7B を基盤として音声知覚とユーザー意図認識を順次統合するトレーニング手法により、GPU ベースの主要モデルと同等の精度を達成したことを示しています。

Yujie Liao, Xuelong Geng, Hongfei Xue, Shuiyuan Wang, Lei XieThu, 12 Ma💻 cs

VoxCare: Studying Natural Communication Behaviors of Hospital Caregivers through Wearable Sensing of Egocentric Audio

この論文は、生音データを保存せずにウェアラブル機器を用いてリアルタイムで医療従事者の自然なコミュニケーション行動を分析するシステム「VoxCare」を提案し、そのデータから業務負荷やストレスを推測可能な行動指標を導き出すことで、医療提供の改善に貢献する手法を示しています。

Tiantian Feng, Kleanthis Avramidis, Anfeng Xu, Deqi Wang, Brandon M Booth, Shrikanth NarayananThu, 12 Ma💻 cs