Trade-offs between structural richness and communication efficiency in music network representations

Cette étude démontre que le choix des encodages de caractéristiques dans les représentations en réseau de la musique crée un compromis fondamental entre la richesse structurelle et l'efficacité de la communication, où les représentations simples favorisent une incertitude globale élevée mais un faible erreur de modèle, tandis que les représentations complexes préservent des distinctions fines au prix d'une expansion de l'espace d'états et d'une erreur accrue, façonnant ainsi la plausibilité des attentes perceptives des auditeurs.

Lluc Bono Rosselló, Robert Jankowski, Hugues Bersini, Marián Boguñá, M. Ángeles SerranoThu, 12 Ma🧬 q-bio

Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention

Le papier présente Dolphin, une méthode efficace de séparation de la parole audio-visuelle qui utilise un encodeur vidéo léger pour transformer les mouvements des lèvres en tokens sémantiques discrets et un séparateur avec une attention globale-locale multi-échelle, surpassant les modèles actuels en qualité de séparation tout en réduisant considérablement les paramètres et le temps d'inférence.

Kai Li, Kejun Gao, Xiaolin HuThu, 12 Ma💻 cs

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

Le papier propose HyWA, une méthode de détection d'activité vocale personnalisée qui utilise un hyper-réseau pour générer des poids adaptés à un locuteur cible, surpassant les techniques existantes en améliorant la précision moyenne et en facilitant le déploiement grâce à une architecture VAD réutilisable.

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi NiaThu, 12 Ma⚡ eess

AMB-DSGDN: Adaptive Modality-Balanced Dynamic Semantic Graph Differential Network for Multimodal Emotion Recognition

Cet article propose le réseau AMB-DSGDN, une architecture innovante pour la reconnaissance des émotions multimodales qui utilise des graphes sémantiques dynamiques et un mécanisme d'attention différentielle pour éliminer le bruit et un mécanisme d'équilibrage adaptatif pour prévenir la domination d'une modalité, améliorant ainsi la précision de la détection des états émotionnels.

Yunsheng Wang, Yuntao Shou, Yilong Tan, Wei Ai, Tao Meng, Keqin LiThu, 12 Ma🤖 cs.AI

PRoADS: Provably Secure and Robust Audio Diffusion Steganography with latent optimization and backward Euler Inversion

Le papier propose PRoADS, un cadre de stéganographie audio basé sur les modèles de diffusion qui garantit sécurité et robustesse grâce à une projection matricielle orthogonale et à des techniques d'optimisation latente et d'inversion d'Euler, permettant d'atteindre un taux d'erreur de bits extrêmement faible de 0,15 % même après compression MP3.

YongPeng Yan, Yanan Li, Qiyang Xiao, Yanzhen RenThu, 12 Ma💻 cs

FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

Ce papier présente FireRedASR2S, un système de reconnaissance automatique de la parole (ASR) industriel de pointe intégrant quatre modules unifiés (ASR, détection d'activité vocale, identification de langue parlée et prédiction de ponctuation) qui atteignent des performances state-of-the-art sur divers benchmarks multilingues et dialectaux.

Kaituo Xu, Yan Jia, Kai Huang, Junjie Chen, Wenpeng Li, Kun Liu, Feng-Long Xie, Xu Tang, Yao HuThu, 12 Ma⚡ eess

MoXaRt: Audio-Visual Object-Guided Sound Interaction for XR

Le système MoXaRt introduit une architecture en cascade pour les réalités étendues (XR) qui combine des indices audio et visuels afin de séparer en temps réel jusqu'à cinq sources sonores concurrentes, améliorant ainsi significativement l'intelligibilité de la parole et réduisant la charge cognitive des utilisateurs.

Tianyu Xu, Sieun Kim, Qianhui Zheng, Ruoyu Xu, Tejasvi Ravi, Anuva Kulkarni, Katrina Passarella-Ward, Junyi Zhu, Adarsh KowdleThu, 12 Ma💻 cs

G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

Le papier présente G-STAR, un système de reconnaissance automatique de la parole attribué aux locuteurs de bout en bout qui couple un module de suivi temporel des locuteurs avec un modèle de langage pour assurer une cohérence des identités à l'échelle de la réunion tout en générant des transcriptions étiquetées et horodatées.

Jing Peng, Ziyi Chen, Haoyu Li, Yucheng Wang, Duo Ma, Mengtian Li, Yunfan Du, Dezhu Xu, Kai Yu, Shuai WangThu, 12 Ma⚡ eess

Distilling LLM Semantic Priors into Encoder-Only Multi-Talker ASR with Talker-Count Routing

Cet article propose un cadre MT-ASR basé uniquement sur un encodeur qui distille les priors sémantiques d'un LLM pour améliorer la reconnaissance de la parole multi-parleurs avec un nombre variable d'interlocuteurs, en atteignant des performances compétitives avec une latence réduite par rapport aux systèmes utilisant des décodeurs LLM.

Hao Shi, Yusuke Fujita, Roman Koshkin, Mengjie Zhao, Yuan Gao, Lianbo Liu, Yui SudoThu, 12 Ma💻 cs

Geo-ATBench: A Benchmark for Geospatial Audio Tagging with Geospatial Semantic Context

Ce papier présente Geo-ATBench, un nouveau benchmark et une tâche d'étiquetage audio géospatial qui intègrent le contexte sémantique géographique pour améliorer la reconnaissance des événements sonores, en démontrant que cette approche réduit les ambiguïtés acoustiques et atteint des performances alignées avec l'écoute humaine.

Yuanbo Hou, Yanru Wu, Qiaoqiao Ren, Shengchen Li, Stephen Roberts, Dick BotteldoorenThu, 12 Ma⚡ eess

AlphaFlowTSE: One-Step Generative Target Speaker Extraction via Conditional AlphaFlow

Le papier présente AlphaFlowTSE, un modèle génératif conditionnel en une seule étape pour l'extraction de la parole cible, qui utilise une objective AlphaFlow sans produit Jacobien-vecteur pour améliorer la fidélité de la parole et la généralisation aux mélanges réels tout en réduisant la latence.

Duojia Li, Shuhan Zhang, Zihan Qian, Wenxuan Wu, Shuai Wang, Qingyang Hong, Lin Li, Haizhou LiThu, 12 Ma🤖 cs.AI

Towards Robust Speech Deepfake Detection via Human-Inspired Reasoning

Cet article présente HIR-SDD, un cadre novateur de détection de deepfakes vocaux qui combine les grands modèles de langage audio et un raisonnement de type « chaîne de pensée » issu d'un jeu de données annoté par des humains pour améliorer la généralisation et l'interprétabilité des prédictions.

Artem Dvirniak, Evgeny Kushnir, Dmitrii Tarasov, Artem Iudin, Oleg Kiriukhin, Mikhail Pautov, Dmitrii Korzh, Oleg Y. RogovThu, 12 Ma🤖 cs.AI

Speaker Verification with Speech-Aware LLMs: Evaluation and Augmentation

Ce papier propose un protocole d'évaluation révélant la faible capacité de discrimination des locuteurs des LLMs conscients de la parole, et introduit une méthode d'augmentation légère intégrant des embeddings ECAPA-TDNN via des adaptateurs LoRA pour doter un LLM d'une capacité de vérification d'identité performante tout en conservant une interface en langage naturel.

Thomas Thebaud, Yuzhe Wang, Laureano Moro-Velazquez, Jesus Villalba-Lopez, Najim DehakThu, 12 Ma🤖 cs.AI

OSUM-Pangu: An Open-Source Multidimension Speech Understanding Foundation Model Built upon OpenPangu on Ascend NPUs

L'article présente OSUM-Pangu, un modèle fondamental de compréhension de la parole open-source entièrement développé sur la pile logicielle et matérielle non-CUDA des NPU Ascend, qui atteint des performances comparables aux modèles basés sur GPU tout en favorisant l'évolution indépendante de l'intelligence multimodale.

Yujie Liao, Xuelong Geng, Hongfei Xue, Shuiyuan Wang, Lei XieThu, 12 Ma💻 cs

VoxCare: Studying Natural Communication Behaviors of Hospital Caregivers through Wearable Sensing of Egocentric Audio

L'article présente VoxCare, un système portable scalable qui analyse en temps réel les comportements de communication naturelle des soignants hospitaliers via l'audio égo-centrique sans stocker les enregistrements bruts, afin d'évaluer leur charge de travail et d'améliorer la prestation de soins.

Tiantian Feng, Kleanthis Avramidis, Anfeng Xu, Deqi Wang, Brandon M Booth, Shrikanth NarayananThu, 12 Ma💻 cs