cs.SD articles | Gist.Science

Training Dynamics-Aware Multi-Factor Curriculum Learning for Target Speaker Extraction

Cet article propose une méthode d'apprentissage par curriculum multi-facteurs dynamique pour l'extraction de locuteur cible, qui utilise le cadre de visualisation TSE-Datamap pour adapter l'entraînement aux dynamiques observées du modèle et améliorer les performances dans des scénarios complexes.

Yun Liu, Xuechen Liu, Xiaoxiao Miao + 1 more2026-03-06💻 cs

TW-Sound580K: A Regional Audio-Text Dataset with Verification-Guided Curation for Localized Audio-Language Modeling

Ce papier présente TW-Sound580K, un jeu de données audio-texte taïwanais curé via un protocole de vérification et d'expansion, qui permet d'entraîner le modèle Tai-LALM à atteindre des performances significativement améliorées sur les tâches de langage audio localisé grâce à une stratégie d'arbitrage dynamique.

Hao-Hui Xie, Ho-Lam Chung, Yi-Cheng Lin + 4 more2026-03-06💻 cs

PolyBench: A Benchmark for Compositional Reasoning in Polyphonic Audio

Ce papier présente PolyBench, un benchmark conçu pour évaluer le raisonnement compositionnel des grands modèles linguistiques audio dans des environnements polyphoniques, révélant ainsi une dégradation systématique de leurs performances face à la coexistence de multiples événements sonores.

Yuanjian Chen, Yang Xiao, Han Yin + 3 more2026-03-06💻 cs

Boosting ASR Robustness via Test-Time Reinforcement Learning with Audio-Text Semantic Rewards

Ce papier présente ASR-TRA, un cadre d'adaptation test-temps par apprentissage par renforcement qui améliore la robustesse des systèmes de reconnaissance vocale face aux bruits et accents grâce à des récompenses sémantiques audio-texte, évitant ainsi les biais de confirmation des méthodes existantes.

Linghan Fang, Tianxin Xie, Li Liu2026-03-06🤖 cs.AI

SarcasmMiner: A Dual-Track Post-Training Framework for Robust Audio-Visual Sarcasm Reasoning

SarcasmMiner est un cadre d'entraînement postérieur basé sur l'apprentissage par renforcement qui améliore la détection de la sarcasme audio-visuelle en reformulant la tâche comme un raisonnement structuré et en utilisant une stratégie de distillation à double piste avec un modèle de récompense génératif pour optimiser à la fois la précision et la qualité du raisonnement.

Zhu Li, Yongjian Chen, Huiyuan Lai + 3 more2026-03-06💬 cs.CL

WavSLM: Single-Stream Speech Language Modeling via WavLM Distillation

Ce papier présente WavSLM, un modèle de langage vocal qui, grâce à la distillation de WavLM et à une prédiction autoregressive sur un seul flux de tokens, parvient à générer de la parole cohérente en modélisant conjointement les informations sémantiques et acoustiques sans aucune supervision textuelle.

Luca Della Libera, Cem Subakan, Mirco Ravanelli2026-03-06🤖 cs.AI

SLICE: Speech Enhancement via Layer-wise Injection of Conditioning Embeddings

Ce papier propose SLICE, une méthode d'amélioration de la parole qui injecte des embeddings de conditionnement liés aux dégradations à chaque couche d'un modèle de diffusion plutôt qu'au seul niveau d'entrée, permettant ainsi de surmonter les limitations des approches précédentes face aux corruptions composées et d'obtenir des performances supérieures sur des enregistrements réels.

Seokhoon Moon, Kyudan Jung, Jaegul Choo2026-03-06💻 cs

Latent-Mark: An Audio Watermark Robust to Neural Resynthesis

Latent-Mark est un nouveau cadre de tatouage audio zéro-bit qui garantit une robustesse inédite face à la resynthèse neuronale en intégrant le filigrane dans l'espace latent invariant des codecs, tout en préservant l'inaudibilité grâce à une optimisation conjointe sur plusieurs codecs.

Yen-Shan Chen, Shih-Yu Lai, Ying-Jung Tsou + 5 more2026-03-06🤖 cs.AI

Hierarchical Decoding for Discrete Speech Synthesis with Multi-Resolution Spoof Detection

L'article présente MSpoof-TTS, un cadre d'inférence sans entraînement qui améliore la synthèse vocale discrète en intégrant une détection de falsification multi-résolution dans une stratégie de décodage hiérarchique pour éliminer les artefacts et réévaluer les hypothèses sans modifier les paramètres du modèle.

Junchuan Zhao, Minh Duc Vu, Ye Wang2026-03-06💻 cs

Building Enterprise Realtime Voice Agents from Scratch: A Technical Tutorial

Ce tutoriel technique explique comment construire un agent vocal en temps réel de niveau entreprise en adoptant une architecture en cascade (STT $\rightarrow$ LLM $\rightarrow$ TTS) avec des flux de données continus plutôt que des modèles natifs de parole à parole, permettant ainsi d'atteindre une latence de premier audio inférieure à une seconde tout en fournissant un code complet et fonctionnel.

Jielin Qiu, Zixiang Chen, Liangwei Yang + 11 more2026-03-06💻 cs

Knowing When to Quit: Probabilistic Early Exits for Speech Separation

Cet article présente une architecture de réseau neuronal pour la séparation et l'amélioration de la parole dotée d'une sortie précoce probabiliste et incertaine, permettant d'économiser des ressources de calcul sur des appareils embarqués sans compromettre la qualité de reconstruction.

Kenny Falkær Olsen, Mads Østergaard, Karl Ulbæk + 4 more2026-03-05🤖 cs.LG

MeanFlowSE: one-step generative speech enhancement via conditional mean flow

Le papier présente MeanFlowSE, un modèle génératif conditionnel pour l'amélioration de la parole qui apprend le déplacement moyen sur des intervalles finis afin de permettre une génération en une seule étape, surmontant ainsi les goulots d'étranglement de calcul des méthodes multisteps tout en maintenant une haute qualité perceptuelle.

Duojia Li, Shenghui Lu, Hongchen Pan + 3 more2026-03-05🤖 cs.AI

LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection

Ce papier présente LadderSym, un nouveau modèle Transformer multimodal qui améliore considérablement la détection des erreurs de pratique musicale en remplaçant la fusion tardive par un encodeur à deux flux alignés et en intégrant des représentations symboliques comme prompts pour réduire l'ambiguïté spectrale.

Benjamin Shiue-Hal Chou, Purvish Jajal, Nick John Eliopoulos + 4 more2026-03-05🤖 cs.AI

Better audio representations are more brain-like: linking model-brain alignment with performance in downstream auditory tasks

Cette étude démontre que les modèles audio auto-supervisés performants dans des tâches de perception auditive développent des représentations internes plus proches de l'activité cérébrale humaine, suggérant que cette similarité biologique émerge naturellement de l'apprentissage de la reconstruction de données audio.

Leonardo Pepino, Pablo Riera, Juan Kamienkowski + 1 more2026-03-05🤖 cs.LG

OASI: Objective-Aware Surrogate Initialization for Multi-Objective Bayesian Optimization in TinyML Keyword Spotting

Ce papier présente OASI, une méthode d'initialisation de surrogate consciente des objectifs qui améliore l'optimisation bayésienne multi-objectif pour le repérage de mots-clés sur microcontrôleurs en générant des solutions initiales biaisées vers le compromis précision-mémoire, garantissant ainsi des modèles déployables sans violer les contraintes de ressources.

Soumen Garai, Danilo Pau, Suman Samui2026-03-05🤖 cs.LG

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Ce papier présente CMI-RewardBench, un écosystème complet incluant des jeux de données, un benchmark et des modèles de récompense conçus pour évaluer et aligner les modèles de génération musicale sur des instructions multimodales composées.

Yinghao Ma, Haiwen Xia, Hewei Gao + 9 more2026-03-05🤖 cs.AI

Automated Measurement of Geniohyoid Muscle Thickness During Speech Using Deep Learning and Ultrasound

Cette étude présente SMMA, un cadre d'apprentissage profond automatisé permettant une mesure précise et évolutive de l'épaisseur du muscle géniohyoïdien lors de la parole, validée par une forte corrélation avec l'annotation manuelle et révélant des variations systématiques liées aux voyelles et au sexe.

Alisher Myrgyyassov, Bruce Xiao Wang, Yu Sun + 4 more2026-03-05🤖 cs.LG

ACES: Accent Subspaces for Coupling, Explanations, and Stress-Testing in Automatic Speech Recognition

Le papier présente ACES, une méthode d'audit centrée sur les représentations qui identifie des sous-espaces discriminants d'accents dans les systèmes de reconnaissance vocale, révélant que ces caractéristiques sont profondément entrelacées avec les indices de reconnaissance essentiels, ce qui les rend utiles pour le diagnostic mais inefficaces pour réduire les disparités par simple atténuation.

Swapnil Parekh2026-03-05🤖 cs.AI

Multi-Stage Music Source Restoration with BandSplit-RoFormer Separation and HiFi++ GAN

Ce rapport technique présente le système de l'équipe CP-JKU pour le défi MSR ICASSP 2025, qui restaure les sources musicales en combinant une séparation multi-étapes par BandSplit-RoFormer et une restauration de forme d'onde par un GAN HiFi++ spécialisé.

Tobias Morocutti, Emmanouil Karystinaios, Jonathan Greif + 1 more2026-03-05🤖 cs.LG

FastWave: Optimized Diffusion Model for Audio Super-Resolution

Le papier présente FastWave, un modèle de diffusion optimisé et léger pour la super-résolution audio jusqu'à 48 kHz, qui surpasse NU-Wave 2 tout en réduisant considérablement les coûts computationnels et les temps d'entraînement par rapport aux solutions existantes.

Nikita Kuznetsov, Maksim Kaledin2026-03-05🤖 cs.LG

← Précédent Suivant →