eess.AS articles | Gist.Science

RA-QA: A Benchmarking System for Respiratory Audio Question Answering Under Real-World Heterogeneity

Cet article présente RA-QA, un nouveau système d'évaluation standardisé qui harmonise des données publiques pour créer un ensemble de 9 millions de paires question-réponse multimodales, permettant de mesurer les performances et les limites des modèles d'IA dans le contexte hétérogène du monde réel du diagnostic respiratoire.

Gaia A. Bertolino, Yuwei Zhang, Tong Xia + 2 more2026-03-06💻 cs

Fine-grained Soundscape Control for Augmented Hearing

Ce papier présente Aurchestra, le premier système permettant un contrôle fin et en temps réel des paysages sonores sur des appareils auditifs contraints, grâce à une interface dynamique et un réseau d'extraction multi-sorties qui génère des flux audio séparés pour jusqu'à cinq sources sonores simultanées afin de permettre un mélange personnalisé de l'environnement acoustique.

Seunghyun Oh, Malek Itani, Aseem Gauri + 1 more2026-03-06💻 cs

VoxKnesset: A Large-Scale Longitudinal Hebrew Speech Dataset for Aging Speaker Modeling

Cet article présente VoxKnesset, un ensemble de données ouvert et longitudinal de 2 300 heures de discours parlementaire hébreu couvrant 15 ans, conçu pour modéliser les changements vocaux liés au vieillissement et évaluer la robustesse des systèmes de reconnaissance vocale face au vieillissement des locuteurs.

Yanir Marmor, Arad Zulti, David Krongauz + 4 more2026-03-06💻 cs

Benchmarking Speech Systems for Frontline Health Conversations: The DISPLACE-M Challenge

Le défi DISPLACE-M présente un nouveau benchmark pour l'analyse de dialogues médicaux réels et bruyants entre agents de santé et patients, en proposant un jeu de données, des systèmes de référence et une évaluation sur quatre tâches clés de traitement de la parole.

Dhanya E, Ankita Meena, Manas Nanivadekar + 11 more2026-03-06⚡ eess

The PARLO Dementia Corpus: A German Multi-Center Resource for Alzheimer's Disease

Ce papier présente le corpus PARLO, une nouvelle ressource publique allemande multi-centres contenant des enregistrements vocaux, des transcriptions et des données cliniques de patients atteints de troubles cognitifs liés à la maladie d'Alzheimer, conçue pour faciliter le développement d'outils de détection non invasive basés sur la parole.

Franziska Braun, Christopher Witzl, Florian Hönig + 3 more2026-03-06⚡ eess

Temporal Pooling Strategies for Training-Free Anomalous Sound Detection with Self-Supervised Audio Embeddings

Cet article propose une évaluation systématique des stratégies de regroupement temporel pour la détection de sons anormaux sans entraînement, introduisant une méthode hybride innovante qui surpasse les performances des systèmes existants sur plusieurs jeux de données de référence.

Kevin Wilkinghoff, Sarthak Yadav, Zheng-Hua Tan2026-03-06💻 cs

An Approach to Simultaneous Acquisition of Real-Time MRI Video, EEG, and Surface EMG for Articulatory, Brain, and Muscle Activity During Speech Production

Cet article présente une approche innovante permettant l'acquisition simultanée de l'IRM dynamique, de l'EEG et de l'EMG de surface pour étudier la production de la parole, en surmontant les interférences techniques grâce à un pipeline de suppression d'artefacts dédié.

Jihwan Lee, Parsa Razmara, Kevin Huang + 16 more2026-03-06🤖 cs.AI

Voice Timbre Attribute Detection with Compact and Interpretable Training-Free Acoustic Parameters

Cet article présente une méthode de détection des attributs de timbre vocal utilisant un ensemble compact de paramètres acoustiques interprétables et sans apprentissage, qui rivalise avec les modèles d'apprentissage profond tout en offrant une analyse physique claire et un coût computationnel négligeable.

Aemon Yat Fei Chiu, Yujia Xiao, Qiuqiang Kong + 1 more2026-03-06⚡ eess

PolyBench: A Benchmark for Compositional Reasoning in Polyphonic Audio

Ce papier présente PolyBench, un benchmark conçu pour évaluer le raisonnement compositionnel des grands modèles linguistiques audio dans des environnements polyphoniques, révélant ainsi une dégradation systématique de leurs performances face à la coexistence de multiples événements sonores.

Yuanjian Chen, Yang Xiao, Han Yin + 3 more2026-03-06💻 cs

BabAR: from phoneme recognition to developmental measures of young children's speech production

En s'appuyant sur le corpus TinyVox de plus d'un demi-million de vocalisations d'enfants, les auteurs présentent BabAR, un système de reconnaissance phonétique multilingue qui, grâce à un préentraînement sur des enregistrements quotidiens et un contexte audio étendu, permet d'obtenir des mesures automatiques de la maturité de la parole infantile alignées sur les estimations développementales de la littérature.

Marvin Lavechin, Elika Bergelson, Roger Levy2026-03-06⚡ eess

Visual-Informed Speech Enhancement Using Attention-Based Beamforming

Cet article propose le VI-NBFNet, un réseau de formation de faisceaux neuronal multimodal qui intègre des indices visuels extraits par reconnaissance de la parole visuelle pour améliorer la robustesse et la performance de l'amélioration de la parole dans des environnements complexes et réverbérants.

Chihyun Liu, Jiaxuan Fan, Mingtung Sun + 3 more2026-03-06🤖 cs.AI

Exploring the potential and limitations of Model Merging for Multi-Domain Adaptation in ASR

Cette étude évalue onze algorithmes de fusion de modèles pour l'adaptation multi-domaine en reconnaissance automatique de la parole en portugais européen, en proposant une nouvelle méthode, BoostedTSV-M, qui surpasse le fine-tuning complet tout en préservant la généralisation hors distribution.

Carlos Carvalho, Francisco Teixeira, Thomas Rolland + 1 more2026-03-06💬 cs.CL

Hierarchical Decoding for Discrete Speech Synthesis with Multi-Resolution Spoof Detection

L'article présente MSpoof-TTS, un cadre d'inférence sans entraînement qui améliore la synthèse vocale discrète en intégrant une détection de falsification multi-résolution dans une stratégie de décodage hiérarchique pour éliminer les artefacts et réévaluer les hypothèses sans modifier les paramètres du modèle.

Junchuan Zhao, Minh Duc Vu, Ye Wang2026-03-06💻 cs

Knowing When to Quit: Probabilistic Early Exits for Speech Separation

Cet article présente une architecture de réseau neuronal pour la séparation et l'amélioration de la parole dotée d'une sortie précoce probabiliste et incertaine, permettant d'économiser des ressources de calcul sur des appareils embarqués sans compromettre la qualité de reconstruction.

Kenny Falkær Olsen, Mads Østergaard, Karl Ulbæk + 4 more2026-03-05🤖 cs.LG

LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection

Ce papier présente LadderSym, un nouveau modèle Transformer multimodal qui améliore considérablement la détection des erreurs de pratique musicale en remplaçant la fusion tardive par un encodeur à deux flux alignés et en intégrant des représentations symboliques comme prompts pour réduire l'ambiguïté spectrale.

Benjamin Shiue-Hal Chou, Purvish Jajal, Nick John Eliopoulos + 4 more2026-03-05🤖 cs.AI

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Ce papier présente CMI-RewardBench, un écosystème complet incluant des jeux de données, un benchmark et des modèles de récompense conçus pour évaluer et aligner les modèles de génération musicale sur des instructions multimodales composées.

Yinghao Ma, Haiwen Xia, Hewei Gao + 9 more2026-03-05🤖 cs.AI

Escaping the BLEU Trap: A Signal-Grounded Framework with Decoupled Semantic Guidance for EEG-to-Text Decoding

Le papier présente SemKey, un cadre novateur qui découple les objectifs sémantiques et réoriente l'attention des modèles vers les signaux EEG pour surmonter les biais sémantiques et le piège de la métrique BLEU dans le décodage cerveau-langage.

Yuchen Wang, Haonan Wang, Yu Guo + 2 more2026-03-05🤖 cs.AI

Automated Measurement of Geniohyoid Muscle Thickness During Speech Using Deep Learning and Ultrasound

Cette étude présente SMMA, un cadre d'apprentissage profond automatisé permettant une mesure précise et évolutive de l'épaisseur du muscle géniohyoïdien lors de la parole, validée par une forte corrélation avec l'annotation manuelle et révélant des variations systématiques liées aux voyelles et au sexe.

Alisher Myrgyyassov, Bruce Xiao Wang, Yu Sun + 4 more2026-03-05🤖 cs.LG

ACES: Accent Subspaces for Coupling, Explanations, and Stress-Testing in Automatic Speech Recognition

Le papier présente ACES, une méthode d'audit centrée sur les représentations qui identifie des sous-espaces discriminants d'accents dans les systèmes de reconnaissance vocale, révélant que ces caractéristiques sont profondément entrelacées avec les indices de reconnaissance essentiels, ce qui les rend utiles pour le diagnostic mais inefficaces pour réduire les disparités par simple atténuation.

Swapnil Parekh2026-03-05🤖 cs.AI

Multi-Stage Music Source Restoration with BandSplit-RoFormer Separation and HiFi++ GAN

Ce rapport technique présente le système de l'équipe CP-JKU pour le défi MSR ICASSP 2025, qui restaure les sources musicales en combinant une séparation multi-étapes par BandSplit-RoFormer et une restauration de forme d'onde par un GAN HiFi++ spécialisé.

Tobias Morocutti, Emmanouil Karystinaios, Jonathan Greif + 1 more2026-03-05🤖 cs.LG

← Précédent Suivant →