eess.AS articles | Gist.Science

Robust Audio-Visual Target Speaker Extraction with Emotion-Aware Multiple Enrollment Fusion

Ce papier propose une méthode robuste d'extraction de locuteur cible audio-visuelle qui, en s'entraînant avec un taux élevé de données manquantes, maintient des performances stables même en cas de perte de modalités lors du test, démontrant notamment l'efficacité de la fusion d'une image de visage avec des caractéristiques labiales.

Zhan Jin, Bang Zeng, Peijun Yang, Jiarong Du, Wei Ju, Yao Tian, Juan Liu, Ming LiThu, 12 Ma⚡ eess

Trade-offs between structural richness and communication efficiency in music network representations

Cette étude démontre que le choix des encodages de caractéristiques dans les représentations en réseau de la musique crée un compromis fondamental entre la richesse structurelle et l'efficacité de la communication, où les représentations simples favorisent une incertitude globale élevée mais un faible erreur de modèle, tandis que les représentations complexes préservent des distinctions fines au prix d'une expansion de l'espace d'états et d'une erreur accrue, façonnant ainsi la plausibilité des attentes perceptives des auditeurs.

Lluc Bono Rosselló, Robert Jankowski, Hugues Bersini, Marián Boguñá, M. Ángeles SerranoThu, 12 Ma🧬 q-bio

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

Le papier propose HyWA, une méthode de détection d'activité vocale personnalisée qui utilise un hyper-réseau pour générer des poids adaptés à un locuteur cible, surpassant les techniques existantes en améliorant la précision moyenne et en facilitant le déploiement grâce à une architecture VAD réutilisable.

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi NiaThu, 12 Ma⚡ eess

Multi-View Based Audio Visual Target Speaker Extraction

Cet article propose le cadre Multi-View Tensor Fusion (MVTF), qui exploite les vidéos synchronisées de plusieurs angles pour apprendre des corrélations inter-visions et améliorer significativement l'extraction de la parole d'un locuteur cible, que le système soit utilisé en mode mono- ou multi-visions.

Peijun Yang, Zhan Jin, Juan Liu, Ming LiThu, 12 Ma⚡ eess

Calibration-Reasoning Framework for Descriptive Speech Quality Assessment

Cet article présente un nouveau cadre de post-entraînement pour les modèles linguistiques audio qui, en combinant une étape d'étalonnage et un apprentissage par renforcement avec GRPO, améliore considérablement l'évaluation descriptive de la qualité de la parole en permettant une analyse multidimensionnelle, une localisation temporelle précise des artefacts et une prédiction plus fiable des scores MOS.

Elizaveta Kostenok, Mathieu Salzmann, Milos CernakThu, 12 Ma⚡ eess

nlm: Real-Time Non-linear Modal Synthesis in Max

Le papier présente \texttt{nlm}, un ensemble d'externes Max open-source en C++ permettant la synthèse modale non linéaire en temps réel pour les cordes, les membranes et les plaques, offrant ainsi un contrôle interactif des paramètres physiques et une sortie multicanal pour faciliter l'exploration de cette technique par les créateurs sonores.

Rodrigo Diaz, Rodrigo Constanzo, Mark SandlerThu, 12 Ma⚡ eess

Speech Codec Probing from Semantic and Phonetic Perspectives

Cette étude révèle que les tokeniseurs de parole actuels capturent principalement des informations phonétiques plutôt que sémantiques, ce qui soulève des défis pour leur intégration dans les modèles de langage multimodaux et guide la conception de futures méthodes de tokenisation.

Xuan Shi, Chang Zeng, Tiantian Feng, Shih-Heng Wang, Jianbo Ma, Shrikanth NarayananThu, 12 Ma⚡ eess

FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

Ce papier présente FireRedASR2S, un système de reconnaissance automatique de la parole (ASR) industriel de pointe intégrant quatre modules unifiés (ASR, détection d'activité vocale, identification de langue parlée et prédiction de ponctuation) qui atteignent des performances state-of-the-art sur divers benchmarks multilingues et dialectaux.

Kaituo Xu, Yan Jia, Kai Huang, Junjie Chen, Wenpeng Li, Kun Liu, Feng-Long Xie, Xu Tang, Yao HuThu, 12 Ma⚡ eess

G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

Le papier présente G-STAR, un système de reconnaissance automatique de la parole attribué aux locuteurs de bout en bout qui couple un module de suivi temporel des locuteurs avec un modèle de langage pour assurer une cohérence des identités à l'échelle de la réunion tout en générant des transcriptions étiquetées et horodatées.

Jing Peng, Ziyi Chen, Haoyu Li, Yucheng Wang, Duo Ma, Mengtian Li, Yunfan Du, Dezhu Xu, Kai Yu, Shuai WangThu, 12 Ma⚡ eess

Geo-ATBench: A Benchmark for Geospatial Audio Tagging with Geospatial Semantic Context

Ce papier présente Geo-ATBench, un nouveau benchmark et une tâche d'étiquetage audio géospatial qui intègrent le contexte sémantique géographique pour améliorer la reconnaissance des événements sonores, en démontrant que cette approche réduit les ambiguïtés acoustiques et atteint des performances alignées avec l'écoute humaine.

Yuanbo Hou, Yanru Wu, Qiaoqiao Ren, Shengchen Li, Stephen Roberts, Dick BotteldoorenThu, 12 Ma⚡ eess

MOS-Bias: From Hidden Gender Bias to Gender-Aware Speech Quality Assessment

Cette étude révèle que le Mean Opinion Score (MOS) présente un biais systématique de genre où les hommes attribuent des scores plus élevés que les femmes, et propose un modèle sensible au genre apprenant des schémas d'évaluation spécifiques pour améliorer la précision et l'équité de l'évaluation de la qualité de la parole.

Wenze Ren, Yi-Cheng Lin, Wen-Chin Huang, Erica Cooper, Ryandhimas E. Zezario, Hsin-Min Wang, Hung-yi Lee, Yu TsaoThu, 12 Ma⚡ eess

Efficient Emotion and Speaker Adaptation in LLM-Based TTS via Characteristic-Specific Partial Fine-Tuning

Cet article propose CSP-FT, une stratégie de micro-ajustement partiel spécifique aux caractéristiques qui améliore l'adaptation des émotions et des locuteurs dans les modèles TTS basés sur les LLM en ne mettant à jour que 8 % des paramètres, tout en accélérant l'entraînement et en préservant la précision de la prononciation.

Tianrui Wang, Meng Ge, Cheng Gong, Chunyu Qiang, Haoyu Wang, Zikang Huang, Yu Jiang, Ye Ni, Yuheng Lu, Xiaobao Wang, Engsiong Chng, Xie Chen, Longbiao Wang, Jianwu DangMon, 09 Ma💻 cs

The trajectoRIR Database: Room Acoustic Recordings Along a Trajectory of Moving Microphones

Ce papier présente la base de données trajectoRIR, une collection unique de réponses impulsionnelles de salle et d'enregistrements audio dynamiques le long d'une trajectoire contrôlée, capturés par diverses configurations de microphones mobiles et stationnaires pour soutenir des tâches avancées de traitement du signal acoustique.

Stefano Damiano, Kathleen MacWilliam, Valerio Lorenzoni, Thomas Dietzen, Toon van WaterschootMon, 09 Ma⚡ eess

ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction

Ce papier présente ParaS2S, un cadre d'apprentissage par renforcement et un benchmark associés conçus pour optimiser les modèles de parole-à-parole afin qu'ils répondent de manière appropriée tant sur le fond que sur le style en intégrant les indices paralinguistiques, surpassant ainsi les méthodes d'ajustement supervisé traditionnel.

Shu-wen Yang, Ming Tu, Andy T. Liu, Xinghua Qu, Hung-yi Lee, Lu Lu, Yuxuan Wang, Yonghui WuMon, 09 Ma⚡ eess

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

Cet article propose un cadre de reconnaissance automatique de la parole audiovisuelle (AVSR) robuste au bruit qui, en éliminant les masques explicites et en utilisant une fusion de type Conformer assistée par la vidéo, améliore les performances de reconnaissance dans des environnements bruyants tout en préservant l'intégrité sémantique de la parole.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

The Cascade Equivalence Hypothesis: When Do Speech LLMs Behave Like ASR $\rightarrow$ LLM Pipelines?

Cette étude démontre que les modèles de langage vocaux actuels se comportent souvent comme des chaînes ASR-LLM coûteuses et moins performantes en présence de bruit, car leurs représentations internes révèlent une dépendance causale aux transcriptions textuelles plutôt qu'à l'audio brut.

Jayadev BillaMon, 09 Ma🤖 cs.AI

LMU-Based Sequential Learning and Posterior Ensemble Fusion for Cross-Domain Infant Cry Classification

Cet article propose un cadre acoustique compact combinant un encodeur CNN multi-branches, une unité de mémoire Legendre (LMU) pour la modélisation temporelle efficace et une fusion d'ensemble postérieure calibrée, afin d'améliorer la classification des cris de nourrissons dans des scénarios inter-domaines malgré les défis liés aux signaux non stationnaires et aux décalages de distribution.

Niloofar Jazaeri, Hilmi R. Dajani, Marco Janeczek, Martin BouchardMon, 09 Ma🤖 cs.LG

Whisper-RIR-Mega: A Paired Clean-Reverberant Speech Benchmark for ASR Robustness to Room Acoustics

Ce papier présente Whisper-RIR-Mega, un nouveau jeu de données apparié de parole propre et réverbérée basé sur LibriSpeech et le corpus RIR-Mega, conçu pour évaluer et améliorer la robustesse des modèles de reconnaissance automatique de la parole face aux acoustiques de salle.

Mandip GoswamiMon, 09 Ma🤖 cs.AI

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

Ce papier présente Omni-C, un encodeur Transformer dense unique qui compresse des modalités hétérogènes (images, audio, texte) en apprenant des représentations partagées via un pré-entraînement contrastif, permettant ainsi de réduire considérablement la complexité computationnelle et l'empreinte mémoire par rapport aux architectures multimodales traditionnelles.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de GusmãoMon, 09 Ma🤖 cs.AI

Activation Steering for Accent Adaptation in Speech Foundation Models

Cet article propose une méthode d'adaptation d'accent sans paramétrage pour les modèles de base de la parole, qui identifie et contrôle les variations d'accent en injectant des vecteurs de décalage dans une couche spécifique des représentations cachées, réduisant ainsi le taux d'erreur mot sur huit accents différents.

Jinuo Sun, Yang Xiao, Sung Kyun Chung, Qiuchi Hu, Gongping Huang, Eun-Jung Holden, Ting DangMon, 09 Ma⚡ eess

← Précédent Suivant →

eess.AS