cs.SD articles | Gist.Science

Trade-offs between structural richness and communication efficiency in music network representations

Cette étude démontre que le choix des encodages de caractéristiques dans les représentations en réseau de la musique crée un compromis fondamental entre la richesse structurelle et l'efficacité de la communication, où les représentations simples favorisent une incertitude globale élevée mais un faible erreur de modèle, tandis que les représentations complexes préservent des distinctions fines au prix d'une expansion de l'espace d'états et d'une erreur accrue, façonnant ainsi la plausibilité des attentes perceptives des auditeurs.

Lluc Bono Rosselló, Robert Jankowski, Hugues Bersini, Marián Boguñá, M. Ángeles SerranoThu, 12 Ma🧬 q-bio

Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention

Le papier présente Dolphin, une méthode efficace de séparation de la parole audio-visuelle qui utilise un encodeur vidéo léger pour transformer les mouvements des lèvres en tokens sémantiques discrets et un séparateur avec une attention globale-locale multi-échelle, surpassant les modèles actuels en qualité de séparation tout en réduisant considérablement les paramètres et le temps d'inférence.

Kai Li, Kejun Gao, Xiaolin HuThu, 12 Ma💻 cs

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

Le papier propose HyWA, une méthode de détection d'activité vocale personnalisée qui utilise un hyper-réseau pour générer des poids adaptés à un locuteur cible, surpassant les techniques existantes en améliorant la précision moyenne et en facilitant le déploiement grâce à une architecture VAD réutilisable.

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi NiaThu, 12 Ma⚡ eess

Evaluation of Audio Compression Codecs

Ce papier évalue plusieurs codecs de compression audio courants en analysant non seulement leur efficacité de compression, mais aussi leur qualité perceptuelle sonore via des mesures, des visualisations et des scores PEAQ, afin d'orienter les utilisateurs dans le choix d'un schéma de compression adapté.

Thien T. Duong, Jan P. SpringerThu, 12 Ma💻 cs

AMB-DSGDN: Adaptive Modality-Balanced Dynamic Semantic Graph Differential Network for Multimodal Emotion Recognition

Cet article propose le réseau AMB-DSGDN, une architecture innovante pour la reconnaissance des émotions multimodales qui utilise des graphes sémantiques dynamiques et un mécanisme d'attention différentielle pour éliminer le bruit et un mécanisme d'équilibrage adaptatif pour prévenir la domination d'une modalité, améliorant ainsi la précision de la détection des états émotionnels.

Yunsheng Wang, Yuntao Shou, Yilong Tan, Wei Ai, Tao Meng, Keqin LiThu, 12 Ma🤖 cs.AI

nlm: Real-Time Non-linear Modal Synthesis in Max

Le papier présente \texttt{nlm}, un ensemble d'externes Max open-source en C++ permettant la synthèse modale non linéaire en temps réel pour les cordes, les membranes et les plaques, offrant ainsi un contrôle interactif des paramètres physiques et une sortie multicanal pour faciliter l'exploration de cette technique par les créateurs sonores.

Rodrigo Diaz, Rodrigo Constanzo, Mark SandlerThu, 12 Ma⚡ eess

ID-LoRA: Identity-Driven Audio-Video Personalization with In-Context LoRA

ID-LoRA est une méthode novatrice qui génère simultanément l'apparence visuelle et la voix d'un sujet dans un seul passage de diffusion, en utilisant des techniques de LoRA contextuel et de guidage d'identité pour surpasser les modèles existants en termes de similarité vocale et de cohérence audio-vidéo.

Aviad Dahan, Moran Yanuka, Noa Kraicer, Lior Wolf, Raja GiryesThu, 12 Ma💻 cs

PRoADS: Provably Secure and Robust Audio Diffusion Steganography with latent optimization and backward Euler Inversion

Le papier propose PRoADS, un cadre de stéganographie audio basé sur les modèles de diffusion qui garantit sécurité et robustesse grâce à une projection matricielle orthogonale et à des techniques d'optimisation latente et d'inversion d'Euler, permettant d'atteindre un taux d'erreur de bits extrêmement faible de 0,15 % même après compression MP3.

YongPeng Yan, Yanan Li, Qiyang Xiao, Yanzhen RenThu, 12 Ma💻 cs

NasoVoce: A Nose-Mounted Low-Audibility Speech Interface for Always-Available Speech Interaction

Le papier présente NasoVoce, une interface discrète montée sur le pont nasal qui fusionne des signaux acoustiques et vibratoires pour permettre une interaction vocale avec l'IA en tout temps, même dans des environnements bruyants ou lors de chuchotements.

Jun Rekimoto, Yu Nishimura, Bojian YangThu, 12 Ma🤖 cs.AI

FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

Ce papier présente FireRedASR2S, un système de reconnaissance automatique de la parole (ASR) industriel de pointe intégrant quatre modules unifiés (ASR, détection d'activité vocale, identification de langue parlée et prédiction de ponctuation) qui atteignent des performances state-of-the-art sur divers benchmarks multilingues et dialectaux.

Kaituo Xu, Yan Jia, Kai Huang, Junjie Chen, Wenpeng Li, Kun Liu, Feng-Long Xie, Xu Tang, Yao HuThu, 12 Ma⚡ eess

MoXaRt: Audio-Visual Object-Guided Sound Interaction for XR

Le système MoXaRt introduit une architecture en cascade pour les réalités étendues (XR) qui combine des indices audio et visuels afin de séparer en temps réel jusqu'à cinq sources sonores concurrentes, améliorant ainsi significativement l'intelligibilité de la parole et réduisant la charge cognitive des utilisateurs.

Tianyu Xu, Sieun Kim, Qianhui Zheng, Ruoyu Xu, Tejasvi Ravi, Anuva Kulkarni, Katrina Passarella-Ward, Junyi Zhu, Adarsh KowdleThu, 12 Ma💻 cs

G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

Le papier présente G-STAR, un système de reconnaissance automatique de la parole attribué aux locuteurs de bout en bout qui couple un module de suivi temporel des locuteurs avec un modèle de langage pour assurer une cohérence des identités à l'échelle de la réunion tout en générant des transcriptions étiquetées et horodatées.

Jing Peng, Ziyi Chen, Haoyu Li, Yucheng Wang, Duo Ma, Mengtian Li, Yunfan Du, Dezhu Xu, Kai Yu, Shuai WangThu, 12 Ma⚡ eess

Distilling LLM Semantic Priors into Encoder-Only Multi-Talker ASR with Talker-Count Routing

Cet article propose un cadre MT-ASR basé uniquement sur un encodeur qui distille les priors sémantiques d'un LLM pour améliorer la reconnaissance de la parole multi-parleurs avec un nombre variable d'interlocuteurs, en atteignant des performances compétitives avec une latence réduite par rapport aux systèmes utilisant des décodeurs LLM.

Hao Shi, Yusuke Fujita, Roman Koshkin, Mengjie Zhao, Yuan Gao, Lianbo Liu, Yui SudoThu, 12 Ma💻 cs

Geo-ATBench: A Benchmark for Geospatial Audio Tagging with Geospatial Semantic Context

Ce papier présente Geo-ATBench, un nouveau benchmark et une tâche d'étiquetage audio géospatial qui intègrent le contexte sémantique géographique pour améliorer la reconnaissance des événements sonores, en démontrant que cette approche réduit les ambiguïtés acoustiques et atteint des performances alignées avec l'écoute humaine.

Yuanbo Hou, Yanru Wu, Qiaoqiao Ren, Shengchen Li, Stephen Roberts, Dick BotteldoorenThu, 12 Ma⚡ eess

AlphaFlowTSE: One-Step Generative Target Speaker Extraction via Conditional AlphaFlow

Le papier présente AlphaFlowTSE, un modèle génératif conditionnel en une seule étape pour l'extraction de la parole cible, qui utilise une objective AlphaFlow sans produit Jacobien-vecteur pour améliorer la fidélité de la parole et la généralisation aux mélanges réels tout en réduisant la latence.

Duojia Li, Shuhan Zhang, Zihan Qian, Wenxuan Wu, Shuai Wang, Qingyang Hong, Lin Li, Haizhou LiThu, 12 Ma🤖 cs.AI

Probabilistic Verification of Voice Anti-Spoofing Models

Ce papier propose PV-VASM, un cadre probabiliste et agnostique au modèle permettant de vérifier formellement la robustesse des systèmes de détection de fausses voix face aux techniques de synthèse vocale et aux perturbations inconnues.

Evgeny Kushnir, Alexandr Kozodaev, Dmitrii Korzh, Mikhail Pautov, Oleg Kiriukhin, Oleg Y. RogovThu, 12 Ma🤖 cs.AI

Towards Robust Speech Deepfake Detection via Human-Inspired Reasoning

Cet article présente HIR-SDD, un cadre novateur de détection de deepfakes vocaux qui combine les grands modèles de langage audio et un raisonnement de type « chaîne de pensée » issu d'un jeu de données annoté par des humains pour améliorer la généralisation et l'interprétabilité des prédictions.

Artem Dvirniak, Evgeny Kushnir, Dmitrii Tarasov, Artem Iudin, Oleg Kiriukhin, Mikhail Pautov, Dmitrii Korzh, Oleg Y. RogovThu, 12 Ma🤖 cs.AI

Speaker Verification with Speech-Aware LLMs: Evaluation and Augmentation

Ce papier propose un protocole d'évaluation révélant la faible capacité de discrimination des locuteurs des LLMs conscients de la parole, et introduit une méthode d'augmentation légère intégrant des embeddings ECAPA-TDNN via des adaptateurs LoRA pour doter un LLM d'une capacité de vérification d'identité performante tout en conservant une interface en langage naturel.

Thomas Thebaud, Yuzhe Wang, Laureano Moro-Velazquez, Jesus Villalba-Lopez, Najim DehakThu, 12 Ma🤖 cs.AI

OSUM-Pangu: An Open-Source Multidimension Speech Understanding Foundation Model Built upon OpenPangu on Ascend NPUs

L'article présente OSUM-Pangu, un modèle fondamental de compréhension de la parole open-source entièrement développé sur la pile logicielle et matérielle non-CUDA des NPU Ascend, qui atteint des performances comparables aux modèles basés sur GPU tout en favorisant l'évolution indépendante de l'intelligence multimodale.

Yujie Liao, Xuelong Geng, Hongfei Xue, Shuiyuan Wang, Lei XieThu, 12 Ma💻 cs

VoxCare: Studying Natural Communication Behaviors of Hospital Caregivers through Wearable Sensing of Egocentric Audio

L'article présente VoxCare, un système portable scalable qui analyse en temps réel les comportements de communication naturelle des soignants hospitaliers via l'audio égo-centrique sans stocker les enregistrements bruts, afin d'évaluer leur charge de travail et d'améliorer la prestation de soins.

Tiantian Feng, Kleanthis Avramidis, Anfeng Xu, Deqi Wang, Brandon M Booth, Shrikanth NarayananThu, 12 Ma💻 cs

← Précédent Suivant →