cs.SD articles | Gist.Science

Wave-like behaviour in (0,1) binary sequences

Cet article présente une étude approfondie des séquences binaires (0,1) sous l'angle de la théorie quantique, en étendant le modèle GenomeBits pour révéler des caractéristiques ondulatoires dans les séquences génomiques via une fonction d'onde complexe.

E. Canessa2026-03-10🔬 physics

Relationship between objective and subjective perceptual measures of speech in individuals with head and neck cancer

Cette étude démontre que, chez les patients atteints de cancers de la tête et du cou, les mesures objectives et subjectives de l'intelligibilité sont fortement corrélées, suggérant qu'une seule mesure d'intelligibilité suffit pour le suivi clinique de ces patients traités par chimioradiothérapie concomitante.

Bence Mark Halpern, Thomas Tienkamp, Teja Rebernik + 4 more2026-03-10⚡ eess

A Large-Scale Probing Analysis of Speaker-Specific Attributes in Self-Supervised Speech Representations

Cette étude à grande échelle analyse comment 11 modèles d'apprentissage auto-supervisé du discours encodent les attributs spécifiques à l'orateur, révélant une hiérarchie des couches où les modèles plus grands récupèrent paradoxalement l'identité de l'orateur dans leurs couches profondes et où les représentations intermédiaires capturent mieux la prosodie dynamique que les embeddings spécialisés.

Aemon Yat Fei Chiu, Kei Ching Fung, Roger Tsz Yeung Li + 2 more2026-03-06💻 cs

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

L'article présente InterActHuman, un cadre novateur permettant l'animation humaine multi-concepts avec des interactions riches en générant des vidéos alignées spatialement grâce à une liaison conditionnelle spécifique aux régions et à l'injection de conditions audio locales.

Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang + 7 more2026-03-06💻 cs

Vevo2: A Unified and Controllable Framework for Speech and Singing Voice Generation

Le papier présente Vevo2, un cadre unifié et contrôlable pour la génération de voix parlée et chantée qui surmonte le manque de données annotées grâce à deux tokenizeurs audio innovants et des stratégies d'apprentissage combinées, permettant ainsi une maîtrise flexible de la prosodie, du style et du timbre pour diverses tâches de synthèse et d'édition.

Xueyao Zhang, Junan Zhang, Yuancheng Wang + 5 more2026-03-06💻 cs

TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

Ce papier présente TSPC, une architecture novatrice à deux étapes centrée sur les phonèmes qui améliore significativement la reconnaissance de la parole en code-switching vietnamien-anglais en atteignant un taux d'erreur de mots de 19,06 % avec des ressources de calcul réduites.

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam + 1 more2026-03-06💻 cs

BabyHuBERT: Multilingual Self-Supervised Learning for Segmenting Speakers in Child-Centered Long-Form Recordings

Cet article présente BabyHuBERT, un modèle d'apprentissage auto-supervisé multilingue entraîné sur 13 000 heures d'enregistrements d'enfants, qui surpasse les modèles existants pour la segmentation des locuteurs dans des contextes linguistiques diversifiés et sous-représentés.

Théo Charlot, Tarek Kunze, Maxime Poli + 3 more2026-03-06💻 cs

SAM: A Mamba-2 State-Space Audio-Language Model

Le papier présente SAM, un modèle audio-langage basé sur Mamba-2 qui, grâce à un réglage fin conjoint de l'encodeur audio et à une supervision par instructions, atteint des performances compétitives avec des modèles plus grands tout en établissant des principes de conception pour les modèles à espace d'état.

Taehan Lee, Jaehan Jung, Hyukjun Lee2026-03-06💻 cs

Noise-to-Notes: Diffusion-based Generation and Refinement for Automatic Drum Transcription

Ce travail propose Noise-to-Notes (N2N), un cadre de transcription automatique de batterie basé sur la diffusion qui reformule la tâche comme un problème génératif conditionnel, intègre des modèles de fondation musicale pour améliorer la robustesse et utilise une nouvelle fonction de perte pour optimiser conjointement les onsets binaires et les vitesses continues, établissant ainsi un nouvel état de l'art sur plusieurs benchmarks.

Michael Yeung, Keisuke Toyama, Toya Teramoto + 2 more2026-03-06💻 cs

Schrödinger Bridge Mamba for One-Step Speech Enhancement

Cet article présente Schrödinger Bridge Mamba (SBM), un modèle novateur qui combine la théorie du pont de Schrödinger et l'architecture Mamba pour réaliser une amélioration de la parole en une seule étape, surpassant les méthodes existantes tout en garantissant une efficacité temps réel.

Jing Yang, Sirui Wang, Chao Wu + 2 more2026-03-06💻 cs

Multi-Loss Learning for Speech Emotion Recognition with Energy-Adaptive Mixup and Frame-Level Attention

Cet article propose un cadre d'apprentissage multi-pertes intégrant un mixup adaptatif à l'énergie et une attention au niveau des trames pour améliorer la reconnaissance des émotions dans la parole, atteignant ainsi des performances de pointe sur quatre jeux de données majeurs.

Cong Wang, Yizhong Geng, Yuhua Wen + 7 more2026-03-06💻 cs

MultiAPI Spoof: A Multi-API Dataset and Local-Attention Network for Speech Anti-spoofing Detection

Ce papier présente MultiAPI Spoof, un nouveau jeu de données audio anti-spoofing basé sur 30 API distinctes, ainsi que le modèle Nes2Net-LA qui améliore la détection et l'attribution fine des fausses voix grâce à une attention locale.

Xueping Zhang, Zhenshan Zhang, Yechen Wang + 3 more2026-03-06💻 cs

RA-QA: A Benchmarking System for Respiratory Audio Question Answering Under Real-World Heterogeneity

Cet article présente RA-QA, un nouveau système d'évaluation standardisé qui harmonise des données publiques pour créer un ensemble de 9 millions de paires question-réponse multimodales, permettant de mesurer les performances et les limites des modèles d'IA dans le contexte hétérogène du monde réel du diagnostic respiratoire.

Gaia A. Bertolino, Yuwei Zhang, Tong Xia + 2 more2026-03-06💻 cs

Fine-grained Soundscape Control for Augmented Hearing

Ce papier présente Aurchestra, le premier système permettant un contrôle fin et en temps réel des paysages sonores sur des appareils auditifs contraints, grâce à une interface dynamique et un réseau d'extraction multi-sorties qui génère des flux audio séparés pour jusqu'à cinq sources sonores simultanées afin de permettre un mélange personnalisé de l'environnement acoustique.

Seunghyun Oh, Malek Itani, Aseem Gauri + 1 more2026-03-06💻 cs

VoxKnesset: A Large-Scale Longitudinal Hebrew Speech Dataset for Aging Speaker Modeling

Cet article présente VoxKnesset, un ensemble de données ouvert et longitudinal de 2 300 heures de discours parlementaire hébreu couvrant 15 ans, conçu pour modéliser les changements vocaux liés au vieillissement et évaluer la robustesse des systèmes de reconnaissance vocale face au vieillissement des locuteurs.

Yanir Marmor, Arad Zulti, David Krongauz + 4 more2026-03-06💻 cs

Temporal Pooling Strategies for Training-Free Anomalous Sound Detection with Self-Supervised Audio Embeddings

Cet article propose une évaluation systématique des stratégies de regroupement temporel pour la détection de sons anormaux sans entraînement, introduisant une méthode hybride innovante qui surpasse les performances des systèmes existants sur plusieurs jeux de données de référence.

Kevin Wilkinghoff, Sarthak Yadav, Zheng-Hua Tan2026-03-06💻 cs

When Denoising Hinders: Revisiting Zero-Shot ASR with SAM-Audio and Whisper

Cette étude démontre que l'utilisation de SAM-Audio pour débruiter la parole avant la transcription par Whisper, bien qu'améliorant la qualité acoustique, dégrade systématiquement les performances de reconnaissance automatique de la parole en mode zéro-shot, révélant ainsi un décalage fondamental entre la clarté perceptive pour l'humain et la robustesse pour la machine.

Akif Islam, Raufun Nahar, Md. Ekramul Hamid2026-03-06💻 cs

WhisperAlign: Word-Boundary-Aware ASR and WhisperX-Anchored Pyannote Diarization for Long-Form Bengali Speech

Ce papier présente WhisperAlign, une solution combinant un découpage audio basé sur WhisperX et un affinage spécifique du domaine de Pyannote, pour améliorer la reconnaissance automatique de la parole et la diarisation dans des enregistrements bengalis longs et multi-locuteurs.

Aurchi Chowdhury, Rubaiyat -E-Zaman, Sk. Ashrafuzzaman Nafees2026-03-06💻 cs

Focus Then Listen: Exploring Plug-and-Play Audio Enhancer for Noise-Robust Large Audio Language Models

L'article présente Focus-Then-Listen (FTL), un enhanceur audio plug-and-play qui améliore la robustesse au bruit des grands modèles de langage audio en séparant la parole du bruit et en fusionnant les modalités de manière adaptative sans nécessiter de réentraînement.

Han Yin, Yang Xiao, Younghoo Kwon + 2 more2026-03-06💻 cs

The First Environmental Sound Deepfake Detection Challenge: Benchmarking Robustness, Evaluation, and Insights

Ce papier présente les résultats de la première édition du défi de détection de deepfakes de sons environnementaux, en détaillant la construction du jeu de données, les protocoles d'évaluation, les systèmes de référence et les enseignements clés tirés des 1 748 soumissions de 97 équipes pour orienter les recherches futures dans ce domaine.

Han Yin, Yang Xiao, Rohan Kumar Das + 2 more2026-03-06💻 cs

← Précédent Suivant →