RA-QA: A Benchmarking System for Respiratory Audio Question Answering Under Real-World Heterogeneity

Cet article présente RA-QA, un nouveau système d'évaluation standardisé qui harmonise des données publiques pour créer un ensemble de 9 millions de paires question-réponse multimodales, permettant de mesurer les performances et les limites des modèles d'IA dans le contexte hétérogène du monde réel du diagnostic respiratoire.

Gaia A. Bertolino, Yuwei Zhang, Tong Xia + 2 more2026-03-06💻 cs

Fine-grained Soundscape Control for Augmented Hearing

Ce papier présente Aurchestra, le premier système permettant un contrôle fin et en temps réel des paysages sonores sur des appareils auditifs contraints, grâce à une interface dynamique et un réseau d'extraction multi-sorties qui génère des flux audio séparés pour jusqu'à cinq sources sonores simultanées afin de permettre un mélange personnalisé de l'environnement acoustique.

Seunghyun Oh, Malek Itani, Aseem Gauri + 1 more2026-03-06💻 cs

The PARLO Dementia Corpus: A German Multi-Center Resource for Alzheimer's Disease

Ce papier présente le corpus PARLO, une nouvelle ressource publique allemande multi-centres contenant des enregistrements vocaux, des transcriptions et des données cliniques de patients atteints de troubles cognitifs liés à la maladie d'Alzheimer, conçue pour faciliter le développement d'outils de détection non invasive basés sur la parole.

Franziska Braun, Christopher Witzl, Florian Hönig + 3 more2026-03-06⚡ eess

BabAR: from phoneme recognition to developmental measures of young children's speech production

En s'appuyant sur le corpus TinyVox de plus d'un demi-million de vocalisations d'enfants, les auteurs présentent BabAR, un système de reconnaissance phonétique multilingue qui, grâce à un préentraînement sur des enregistrements quotidiens et un contexte audio étendu, permet d'obtenir des mesures automatiques de la maturité de la parole infantile alignées sur les estimations développementales de la littérature.

Marvin Lavechin, Elika Bergelson, Roger Levy2026-03-06⚡ eess

ACES: Accent Subspaces for Coupling, Explanations, and Stress-Testing in Automatic Speech Recognition

Le papier présente ACES, une méthode d'audit centrée sur les représentations qui identifie des sous-espaces discriminants d'accents dans les systèmes de reconnaissance vocale, révélant que ces caractéristiques sont profondément entrelacées avec les indices de reconnaissance essentiels, ce qui les rend utiles pour le diagnostic mais inefficaces pour réduire les disparités par simple atténuation.

Swapnil Parekh2026-03-05🤖 cs.AI