SEMamba++: A General Speech Restoration Framework Leveraging Global, Local, and Periodic Spectral Patterns

Le papier présente SEMamba++, un cadre général de restauration de la parole qui améliore les performances tout en restant efficace sur le plan computationnel en intégrant des biais inductifs spécifiques à la parole, notamment via une extraction de caractéristiques fréquentielles (Frequency GLP) et un traitement dual temps-fréquence multi-résolution pour capturer les motifs spectraux globaux, locaux et périodiques.

Yongjoon Lee, Jung-Woo ChoiFri, 13 Ma⚡ eess

RAF: Relativistic Adversarial Feedback For Universal Speech Synthesis

Ce papier propose RAF (Relativistic Adversarial Feedback), une nouvelle fonction de objectif d'entraînement pour les vocodeurs GAN qui améliore la fidélité et la généralisation en exploitant des modèles d'apprentissage auto-supervisé de la parole et un appariement relativiste, permettant ainsi d'obtenir une qualité perceptuelle supérieure avec une fraction réduite de paramètres.

Yongjoon Lee, Jung-Woo ChoiFri, 13 Ma⚡ eess

Affect Decoding in Phonated and Silent Speech Production from Surface EMG

Cette étude présente un nouveau jeu de données et démontre que l'analyse de l'activité musculaire faciale et cervicale via l'EMG de surface permet de décoder avec fiabilité les états affectifs, notamment la frustration, tant dans la parole phonée que silencieuse, ouvrant ainsi la voie à des interfaces de parole silencieuse sensibles aux émotions.

Simon Pistrosch, Kleanthis Avramidis, Tiantian Feng, Jihwan Lee, Monica Gonzalez-Machorro, Shrikanth Narayanan, Björn W. SchullerFri, 13 Ma⚡ eess

Silent Speech Interfaces in the Era of Large Language Models: A Comprehensive Taxonomy and Systematic Review

Cet article propose une revue systématique et une nouvelle taxonomie des interfaces de parole silencieuse, démontrant comment l'intégration des grands modèles de langage et de capteurs portables permet de surmonter les limitations des biosignaux pour atteindre une utilisabilité pratique tout en abordant les enjeux éthiques de la sécurité neuronale.

Kele Xu, Yifan Wang, Ming Feng, Qisheng Xu, Wuyang Chen, Yutao Dou, Cheng Yang, Huaimin WangFri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Cet article propose un protocole d'affinement fin nommé PE-FT, qui combine un affinage sélectif par couches et une tête de classification auxiliaire pour réactiver l'awareness des indices paralinguistiques dans les modèles de langage audio, surpassant ainsi les stratégies d'affinement traditionnelles sur l'ensemble des couches.

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition

Le papier présente Dr. SHAP-AV, un cadre basé sur les valeurs de Shapley qui révèle que, bien que les modèles de reconnaissance de la parole audiovisuelle augmentent leur dépendance visuelle en présence de bruit, ils conservent une forte contribution audio, soulignant ainsi la nécessité de mécanismes d'équilibrage des modalités et d'outils d'attribution diagnostiques.

Umberto Cappellazzo, Stavros Petridis, Maja PanticFri, 13 Ma⚡ eess

ExSampling: a system for the real-time ensemble performance of field-recorded environmental sounds

Cet article présente ExSampling, un système intégré combinant une application d'enregistrement et un environnement d'apprentissage profond pour permettre la performance musicale en temps réel de sons environnementaux, grâce à une cartographie automatisée vers Ableton Live qui favorise l'interaction entre enregistreurs, compositeurs et interprètes.

Atsuya Kobayashi, Reo Anzai, Nao Tokui2026-03-10⚡ eess

Relationship between objective and subjective perceptual measures of speech in individuals with head and neck cancer

Cette étude démontre que, chez les patients atteints de cancers de la tête et du cou, les mesures objectives et subjectives de l'intelligibilité sont fortement corrélées, suggérant qu'une seule mesure d'intelligibilité suffit pour le suivi clinique de ces patients traités par chimioradiothérapie concomitante.

Bence Mark Halpern, Thomas Tienkamp, Teja Rebernik + 4 more2026-03-10⚡ eess

A Large-Scale Probing Analysis of Speaker-Specific Attributes in Self-Supervised Speech Representations

Cette étude à grande échelle analyse comment 11 modèles d'apprentissage auto-supervisé du discours encodent les attributs spécifiques à l'orateur, révélant une hiérarchie des couches où les modèles plus grands récupèrent paradoxalement l'identité de l'orateur dans leurs couches profondes et où les représentations intermédiaires capturent mieux la prosodie dynamique que les embeddings spécialisés.

Aemon Yat Fei Chiu, Kei Ching Fung, Roger Tsz Yeung Li + 2 more2026-03-06💻 cs

Noise-to-Notes: Diffusion-based Generation and Refinement for Automatic Drum Transcription

Ce travail propose Noise-to-Notes (N2N), un cadre de transcription automatique de batterie basé sur la diffusion qui reformule la tâche comme un problème génératif conditionnel, intègre des modèles de fondation musicale pour améliorer la robustesse et utilise une nouvelle fonction de perte pour optimiser conjointement les onsets binaires et les vitesses continues, établissant ainsi un nouvel état de l'art sur plusieurs benchmarks.

Michael Yeung, Keisuke Toyama, Toya Teramoto + 2 more2026-03-06💻 cs