eess.AS articles | Gist.Science

SEMamba++: A General Speech Restoration Framework Leveraging Global, Local, and Periodic Spectral Patterns

Le papier présente SEMamba++, un cadre général de restauration de la parole qui améliore les performances tout en restant efficace sur le plan computationnel en intégrant des biais inductifs spécifiques à la parole, notamment via une extraction de caractéristiques fréquentielles (Frequency GLP) et un traitement dual temps-fréquence multi-résolution pour capturer les motifs spectraux globaux, locaux et périodiques.

Yongjoon Lee, Jung-Woo ChoiFri, 13 Ma⚡ eess

RAF: Relativistic Adversarial Feedback For Universal Speech Synthesis

Ce papier propose RAF (Relativistic Adversarial Feedback), une nouvelle fonction de objectif d'entraînement pour les vocodeurs GAN qui améliore la fidélité et la généralisation en exploitant des modèles d'apprentissage auto-supervisé de la parole et un appariement relativiste, permettant ainsi d'obtenir une qualité perceptuelle supérieure avec une fraction réduite de paramètres.

Yongjoon Lee, Jung-Woo ChoiFri, 13 Ma⚡ eess

Affect Decoding in Phonated and Silent Speech Production from Surface EMG

Cette étude présente un nouveau jeu de données et démontre que l'analyse de l'activité musculaire faciale et cervicale via l'EMG de surface permet de décoder avec fiabilité les états affectifs, notamment la frustration, tant dans la parole phonée que silencieuse, ouvrant ainsi la voie à des interfaces de parole silencieuse sensibles aux émotions.

Simon Pistrosch, Kleanthis Avramidis, Tiantian Feng, Jihwan Lee, Monica Gonzalez-Machorro, Shrikanth Narayanan, Björn W. SchullerFri, 13 Ma⚡ eess

ReDimNet2: Scaling Speaker Verification via Time-Pooled Dimension Reshaping

Le papier présente ReDimNet2, une architecture de réseau neuronal améliorée pour la vérification de locuteur qui intègre un regroupement temporel dans le traitement 1D pour permettre une mise à l'échelle plus agressive des canaux avec un coût de calcul réduit, surpassant ainsi les performances précédentes sur les benchmarks VoxCeleb1.

Ivan Yakovlev, Anton OkhotnikovFri, 13 Ma⚡ eess

Acoustic-to-Articulatory Inversion of Clean Speech Using an MRI-Trained Model

Cette étude démontre qu'un modèle d'inversion acoustique-articulatoire, entraîné sur des données d'IRMf débruitées, peut être efficacement appliqué à la parole enregistrée dans un environnement acoustique propre, atteignant une précision comparable (RMSE de 1,56 mm) sans nécessiter de bruit de scanner.

Sofiane Azzouz, Pierre-André Vuissoz, Yves LaprieFri, 13 Ma⚡ eess

Reconstruction of the Vocal Tract from Speech via Phonetic Representations Using MRI Data

Cette étude comparative démontre que la reconstruction de la géométrie du conduit vocal à partir du signal parole via des représentations phonétiques atteint ses meilleures performances, se rapprochant de la ligne de base MFCC, lorsque les segmentations phonétiques sont corrigées manuellement après alignement temporel.

Sofiane Azzouz, Pierre-André Vuissoz, Yves LaprieFri, 13 Ma⚡ eess

Silent Speech Interfaces in the Era of Large Language Models: A Comprehensive Taxonomy and Systematic Review

Cet article propose une revue systématique et une nouvelle taxonomie des interfaces de parole silencieuse, démontrant comment l'intégration des grands modèles de langage et de capteurs portables permet de surmonter les limitations des biosignaux pour atteindre une utilisabilité pratique tout en abordant les enjeux éthiques de la sécurité neuronale.

Kele Xu, Yifan Wang, Ming Feng, Qisheng Xu, Wuyang Chen, Yutao Dou, Cheng Yang, Huaimin WangFri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Cet article propose un protocole d'affinement fin nommé PE-FT, qui combine un affinage sélectif par couches et une tête de classification auxiliaire pour réactiver l'awareness des indices paralinguistiques dans les modèles de langage audio, surpassant ainsi les stratégies d'affinement traditionnelles sur l'ensemble des couches.

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition

Le papier présente Dr. SHAP-AV, un cadre basé sur les valeurs de Shapley qui révèle que, bien que les modèles de reconnaissance de la parole audiovisuelle augmentent leur dépendance visuelle en présence de bruit, ils conservent une forte contribution audio, soulignant ainsi la nécessité de mécanismes d'équilibrage des modalités et d'outils d'attribution diagnostiques.

Umberto Cappellazzo, Stavros Petridis, Maja PanticFri, 13 Ma⚡ eess

Controllable Dance Generation with Style-Guided Motion Diffusion

Cet article propose SGMD, une méthode de diffusion de mouvement guidée par le style qui intègre des caractéristiques musicales et des invites stylistiques pour générer des danses réalistes et contrôlables, tout en introduisant de nouveaux benchmarks pour des tâches de génération, d'interpolation et d'inpainting chorégraphiques.

Hongsong Wang, Ying Zhu, Xin Geng + 1 more2026-03-11⚡ eess

ExSampling: a system for the real-time ensemble performance of field-recorded environmental sounds

Cet article présente ExSampling, un système intégré combinant une application d'enregistrement et un environnement d'apprentissage profond pour permettre la performance musicale en temps réel de sons environnementaux, grâce à une cartographie automatisée vers Ableton Live qui favorise l'interaction entre enregistreurs, compositeurs et interprètes.

Atsuya Kobayashi, Reo Anzai, Nao Tokui2026-03-10⚡ eess

Relationship between objective and subjective perceptual measures of speech in individuals with head and neck cancer

Cette étude démontre que, chez les patients atteints de cancers de la tête et du cou, les mesures objectives et subjectives de l'intelligibilité sont fortement corrélées, suggérant qu'une seule mesure d'intelligibilité suffit pour le suivi clinique de ces patients traités par chimioradiothérapie concomitante.

Bence Mark Halpern, Thomas Tienkamp, Teja Rebernik + 4 more2026-03-10⚡ eess

A Large-Scale Probing Analysis of Speaker-Specific Attributes in Self-Supervised Speech Representations

Cette étude à grande échelle analyse comment 11 modèles d'apprentissage auto-supervisé du discours encodent les attributs spécifiques à l'orateur, révélant une hiérarchie des couches où les modèles plus grands récupèrent paradoxalement l'identité de l'orateur dans leurs couches profondes et où les représentations intermédiaires capturent mieux la prosodie dynamique que les embeddings spécialisés.

Aemon Yat Fei Chiu, Kei Ching Fung, Roger Tsz Yeung Li + 2 more2026-03-06💻 cs

TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

Ce papier présente TSPC, une architecture novatrice à deux étapes centrée sur les phonèmes qui améliore significativement la reconnaissance de la parole en code-switching vietnamien-anglais en atteignant un taux d'erreur de mots de 19,06 % avec des ressources de calcul réduites.

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam + 1 more2026-03-06💻 cs

BabyHuBERT: Multilingual Self-Supervised Learning for Segmenting Speakers in Child-Centered Long-Form Recordings

Cet article présente BabyHuBERT, un modèle d'apprentissage auto-supervisé multilingue entraîné sur 13 000 heures d'enregistrements d'enfants, qui surpasse les modèles existants pour la segmentation des locuteurs dans des contextes linguistiques diversifiés et sous-représentés.

Théo Charlot, Tarek Kunze, Maxime Poli + 3 more2026-03-06💻 cs

SAM: A Mamba-2 State-Space Audio-Language Model

Le papier présente SAM, un modèle audio-langage basé sur Mamba-2 qui, grâce à un réglage fin conjoint de l'encodeur audio et à une supervision par instructions, atteint des performances compétitives avec des modèles plus grands tout en établissant des principes de conception pour les modèles à espace d'état.

Taehan Lee, Jaehan Jung, Hyukjun Lee2026-03-06💻 cs

Conversational Speech Reveals Structural Robustness Failures in SpeechLLM Backbones

Cette étude révèle que les modèles de langage servant de base aux systèmes de parole peinent à gérer les disfluences de la conversation spontanée, privilégiant souvent l'abstraction sémantique au détriment de la fidélité structurelle, ce qui compromet leur robustesse malgré les performances prometteuses du fine-tuning.

Maria Teleki, Sai Janjur, Haoran Liu + 11 more2026-03-06💻 cs

Noise-to-Notes: Diffusion-based Generation and Refinement for Automatic Drum Transcription

Ce travail propose Noise-to-Notes (N2N), un cadre de transcription automatique de batterie basé sur la diffusion qui reformule la tâche comme un problème génératif conditionnel, intègre des modèles de fondation musicale pour améliorer la robustesse et utilise une nouvelle fonction de perte pour optimiser conjointement les onsets binaires et les vitesses continues, établissant ainsi un nouvel état de l'art sur plusieurs benchmarks.

Michael Yeung, Keisuke Toyama, Toya Teramoto + 2 more2026-03-06💻 cs

Schrödinger Bridge Mamba for One-Step Speech Enhancement

Cet article présente Schrödinger Bridge Mamba (SBM), un modèle novateur qui combine la théorie du pont de Schrödinger et l'architecture Mamba pour réaliser une amélioration de la parole en une seule étape, surpassant les méthodes existantes tout en garantissant une efficacité temps réel.

Jing Yang, Sirui Wang, Chao Wu + 2 more2026-03-06💻 cs

Multi-Loss Learning for Speech Emotion Recognition with Energy-Adaptive Mixup and Frame-Level Attention

Cet article propose un cadre d'apprentissage multi-pertes intégrant un mixup adaptatif à l'énergie et une attention au niveau des trames pour améliorer la reconnaissance des émotions dans la parole, atteignant ainsi des performances de pointe sur quatre jeux de données majeurs.

Cong Wang, Yizhong Geng, Yuhua Wen + 7 more2026-03-06💻 cs

← Précédent Suivant →