Relationship between objective and subjective perceptual measures of speech in individuals with head and neck cancer

Cette étude démontre que, chez les patients atteints de cancers de la tête et du cou, les mesures objectives et subjectives de l'intelligibilité sont fortement corrélées, suggérant qu'une seule mesure d'intelligibilité suffit pour le suivi clinique de ces patients traités par chimioradiothérapie concomitante.

Bence Mark Halpern, Thomas Tienkamp, Teja Rebernik + 4 more2026-03-10⚡ eess

A Large-Scale Probing Analysis of Speaker-Specific Attributes in Self-Supervised Speech Representations

Cette étude à grande échelle analyse comment 11 modèles d'apprentissage auto-supervisé du discours encodent les attributs spécifiques à l'orateur, révélant une hiérarchie des couches où les modèles plus grands récupèrent paradoxalement l'identité de l'orateur dans leurs couches profondes et où les représentations intermédiaires capturent mieux la prosodie dynamique que les embeddings spécialisés.

Aemon Yat Fei Chiu, Kei Ching Fung, Roger Tsz Yeung Li + 2 more2026-03-06💻 cs

Vevo2: A Unified and Controllable Framework for Speech and Singing Voice Generation

Le papier présente Vevo2, un cadre unifié et contrôlable pour la génération de voix parlée et chantée qui surmonte le manque de données annotées grâce à deux tokenizeurs audio innovants et des stratégies d'apprentissage combinées, permettant ainsi une maîtrise flexible de la prosodie, du style et du timbre pour diverses tâches de synthèse et d'édition.

Xueyao Zhang, Junan Zhang, Yuancheng Wang + 5 more2026-03-06💻 cs

Noise-to-Notes: Diffusion-based Generation and Refinement for Automatic Drum Transcription

Ce travail propose Noise-to-Notes (N2N), un cadre de transcription automatique de batterie basé sur la diffusion qui reformule la tâche comme un problème génératif conditionnel, intègre des modèles de fondation musicale pour améliorer la robustesse et utilise une nouvelle fonction de perte pour optimiser conjointement les onsets binaires et les vitesses continues, établissant ainsi un nouvel état de l'art sur plusieurs benchmarks.

Michael Yeung, Keisuke Toyama, Toya Teramoto + 2 more2026-03-06💻 cs

RA-QA: A Benchmarking System for Respiratory Audio Question Answering Under Real-World Heterogeneity

Cet article présente RA-QA, un nouveau système d'évaluation standardisé qui harmonise des données publiques pour créer un ensemble de 9 millions de paires question-réponse multimodales, permettant de mesurer les performances et les limites des modèles d'IA dans le contexte hétérogène du monde réel du diagnostic respiratoire.

Gaia A. Bertolino, Yuwei Zhang, Tong Xia + 2 more2026-03-06💻 cs

Fine-grained Soundscape Control for Augmented Hearing

Ce papier présente Aurchestra, le premier système permettant un contrôle fin et en temps réel des paysages sonores sur des appareils auditifs contraints, grâce à une interface dynamique et un réseau d'extraction multi-sorties qui génère des flux audio séparés pour jusqu'à cinq sources sonores simultanées afin de permettre un mélange personnalisé de l'environnement acoustique.

Seunghyun Oh, Malek Itani, Aseem Gauri + 1 more2026-03-06💻 cs

When Denoising Hinders: Revisiting Zero-Shot ASR with SAM-Audio and Whisper

Cette étude démontre que l'utilisation de SAM-Audio pour débruiter la parole avant la transcription par Whisper, bien qu'améliorant la qualité acoustique, dégrade systématiquement les performances de reconnaissance automatique de la parole en mode zéro-shot, révélant ainsi un décalage fondamental entre la clarté perceptive pour l'humain et la robustesse pour la machine.

Akif Islam, Raufun Nahar, Md. Ekramul Hamid2026-03-06💻 cs

The First Environmental Sound Deepfake Detection Challenge: Benchmarking Robustness, Evaluation, and Insights

Ce papier présente les résultats de la première édition du défi de détection de deepfakes de sons environnementaux, en détaillant la construction du jeu de données, les protocoles d'évaluation, les systèmes de référence et les enseignements clés tirés des 1 748 soumissions de 97 équipes pour orienter les recherches futures dans ce domaine.

Han Yin, Yang Xiao, Rohan Kumar Das + 2 more2026-03-06💻 cs