[b]=[d]-[t]+[p]: Self-supervised Speech Models Discover Phonological Vector Arithmetic

Cette étude démontre que les modèles de parole auto-supervisés encodent l'information phonétique sous forme de vecteurs interprétables et compositionnels, permettant d'effectuer des opérations arithmétiques vectorielles pour modéliser les traits phonologiques et leurs réalisations acoustiques continues à travers 96 langues.

Kwanghee Choi, Eunjung Yeo, Cheol Jun Cho, David Harwath, David R. MortensenFri, 13 Ma⚡ eess

V2A-DPO: Omni-Preference Optimization for Video-to-Audio Generation

Ce papier présente V2A-DPO, un cadre d'optimisation directe des préférences innovant conçu pour aligner les modèles de génération vidéo-vers-audio sur les préférences humaines grâce à un système de notation AudioScore, une pipeline automatisée de données de préférence et une stratégie d'apprentissage par curriculum, surpassant ainsi les méthodes existantes sur le jeu de données VGGSound.

Nolan Chan, Timmy Gang, Yongqian Wang, Yuzhe Liang, Dingdong WangFri, 13 Ma⚡ eess

Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

Cet article propose un cadre basé sur les Transformers pour la reconnaissance des émotions audio-visuelles qui résout le décalage de fréquence d'acquisition entre les modalités grâce à l'utilisation d'encodages de position rotatifs temporellement alignés (TaRoPE) et d'une fonction de perte de correspondance inter-temporelle (CTM) pour améliorer l'alignement et la fusion des caractéristiques.

Inyong Koo, yeeun Seong, Minseok Son, Jaehyuk Jang, Changick KimFri, 13 Ma⚡ eess

Uni-ASR: Unified LLM-Based Architecture for Non-Streaming and Streaming Automatic Speech Recognition

Le papier présente Uni-ASR, un cadre unifié basé sur les grands modèles de langage qui intègre la reconnaissance automatique de la parole en flux et hors flux grâce à un entraînement conjoint et des stratégies de décodage adaptatives, permettant ainsi de maintenir une haute précision sans compromettre la latence dans les scénarios en temps réel.

Yinfeng Xia, Jian Tang, Junfeng Hou, Gaopeng Xu, Haitao YaoFri, 13 Ma💬 cs.CL

Huntington Disease Automatic Speech Recognition with Biomarker Supervision

Cette étude présente une approche systématique pour la reconnaissance automatique de la parole dans la maladie de Huntington, démontrant que l'adaptation spécifique à la pathologie et l'utilisation d'une supervision auxiliaire basée sur des biomarqueurs améliorent significativement les performances et modèlent les erreurs de manière dépendante de la sévérité de la maladie.

Charles L. Wang, Cady Chen, Ziwei Gong, Julia HirschbergFri, 13 Ma🤖 cs.LG

Can LLMs Help Localize Fake Words in Partially Fake Speech?

Cette étude explore l'utilisation d'un modèle de langage entraîné sur la parole pour localiser des mots falsifiés dans un discours partiellement truqué, révélant que le modèle s'appuie principalement sur des motifs d'édition spécifiques appris lors de l'entraînement, ce qui soulève des questions sur sa capacité à généraliser à des styles d'édition non vus.

Lin Zhang, Thomas Thebaud, Zexin Cai, Sanjeev Khudanpur, Daniel Povey, Leibny Paola García-Perera, Matthew Wiesner, Nicholas AndrewsFri, 13 Ma⚡ eess

Cough activity detection for automatic tuberculosis screening

Cette étude propose l'utilisation de modèles pré-entraînés, en particulier une configuration optimisée de XLS-R, pour détecter avec une grande précision les segments de toux dans des enregistrements audio provenant de patients suspects de tuberculose en Afrique, démontrant ainsi la faisabilité d'intégrer ces outils dans des applications de dépistage automatisé sur smartphone.

Joshua Jansen van Vüren, Devendra Singh Parihar, Daphne Naidoo, Kimsey Zajac, Willy Ssengooba, Grant Theron, Thomas NieslerFri, 13 Ma⚡ eess

AnimeScore: A Preference-Based Dataset and Framework for Evaluating Anime-Like Speech Style

Ce papier présente AnimeScore, un cadre d'évaluation basé sur les préférences et un jeu de données de 15 000 jugements par paires qui permettent d'automatiser l'évaluation du style vocal « anime » en identifiant que la perception de ce style repose sur la résonance, la continuité prosodique et l'articulation plutôt que sur la simple hauteur de voix, atteignant jusqu'à 90,8 % de précision avec des modèles de ranking basés sur l'apprentissage auto-supervisé.

Joonyong Park, Jerry LiFri, 13 Ma⚡ eess

SEMamba++: A General Speech Restoration Framework Leveraging Global, Local, and Periodic Spectral Patterns

Le papier présente SEMamba++, un cadre général de restauration de la parole qui améliore les performances tout en restant efficace sur le plan computationnel en intégrant des biais inductifs spécifiques à la parole, notamment via une extraction de caractéristiques fréquentielles (Frequency GLP) et un traitement dual temps-fréquence multi-résolution pour capturer les motifs spectraux globaux, locaux et périodiques.

Yongjoon Lee, Jung-Woo ChoiFri, 13 Ma⚡ eess

RAF: Relativistic Adversarial Feedback For Universal Speech Synthesis

Ce papier propose RAF (Relativistic Adversarial Feedback), une nouvelle fonction de objectif d'entraînement pour les vocodeurs GAN qui améliore la fidélité et la généralisation en exploitant des modèles d'apprentissage auto-supervisé de la parole et un appariement relativiste, permettant ainsi d'obtenir une qualité perceptuelle supérieure avec une fraction réduite de paramètres.

Yongjoon Lee, Jung-Woo ChoiFri, 13 Ma⚡ eess

Affect Decoding in Phonated and Silent Speech Production from Surface EMG

Cette étude présente un nouveau jeu de données et démontre que l'analyse de l'activité musculaire faciale et cervicale via l'EMG de surface permet de décoder avec fiabilité les états affectifs, notamment la frustration, tant dans la parole phonée que silencieuse, ouvrant ainsi la voie à des interfaces de parole silencieuse sensibles aux émotions.

Simon Pistrosch, Kleanthis Avramidis, Tiantian Feng, Jihwan Lee, Monica Gonzalez-Machorro, Shrikanth Narayanan, Björn W. SchullerFri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Cet article propose un protocole d'affinement fin nommé PE-FT, qui combine un affinage sélectif par couches et une tête de classification auxiliaire pour réactiver l'awareness des indices paralinguistiques dans les modèles de langage audio, surpassant ainsi les stratégies d'affinement traditionnelles sur l'ensemble des couches.

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition

Le papier présente Dr. SHAP-AV, un cadre basé sur les valeurs de Shapley qui révèle que, bien que les modèles de reconnaissance de la parole audiovisuelle augmentent leur dépendance visuelle en présence de bruit, ils conservent une forte contribution audio, soulignant ainsi la nécessité de mécanismes d'équilibrage des modalités et d'outils d'attribution diagnostiques.

Umberto Cappellazzo, Stavros Petridis, Maja PanticFri, 13 Ma⚡ eess

ExSampling: a system for the real-time ensemble performance of field-recorded environmental sounds

Cet article présente ExSampling, un système intégré combinant une application d'enregistrement et un environnement d'apprentissage profond pour permettre la performance musicale en temps réel de sons environnementaux, grâce à une cartographie automatisée vers Ableton Live qui favorise l'interaction entre enregistreurs, compositeurs et interprètes.

Atsuya Kobayashi, Reo Anzai, Nao Tokui2026-03-10⚡ eess