TW-Sound580K: A Regional Audio-Text Dataset with Verification-Guided Curation for Localized Audio-Language Modeling

Ce papier présente TW-Sound580K, un jeu de données audio-texte taïwanais curé via un protocole de vérification et d'expansion, qui permet d'entraîner le modèle Tai-LALM à atteindre des performances significativement améliorées sur les tâches de langage audio localisé grâce à une stratégie d'arbitrage dynamique.

Hao-Hui Xie, Ho-Lam Chung, Yi-Cheng Lin + 4 more2026-03-06💻 cs

SarcasmMiner: A Dual-Track Post-Training Framework for Robust Audio-Visual Sarcasm Reasoning

SarcasmMiner est un cadre d'entraînement postérieur basé sur l'apprentissage par renforcement qui améliore la détection de la sarcasme audio-visuelle en reformulant la tâche comme un raisonnement structuré et en utilisant une stratégie de distillation à double piste avec un modèle de récompense génératif pour optimiser à la fois la précision et la qualité du raisonnement.

Zhu Li, Yongjian Chen, Huiyuan Lai + 3 more2026-03-06💬 cs.CL

SLICE: Speech Enhancement via Layer-wise Injection of Conditioning Embeddings

Ce papier propose SLICE, une méthode d'amélioration de la parole qui injecte des embeddings de conditionnement liés aux dégradations à chaque couche d'un modèle de diffusion plutôt qu'au seul niveau d'entrée, permettant ainsi de surmonter les limitations des approches précédentes face aux corruptions composées et d'obtenir des performances supérieures sur des enregistrements réels.

Seokhoon Moon, Kyudan Jung, Jaegul Choo2026-03-06💻 cs

Building Enterprise Realtime Voice Agents from Scratch: A Technical Tutorial

Ce tutoriel technique explique comment construire un agent vocal en temps réel de niveau entreprise en adoptant une architecture en cascade (STT \rightarrow LLM \rightarrow TTS) avec des flux de données continus plutôt que des modèles natifs de parole à parole, permettant ainsi d'atteindre une latence de premier audio inférieure à une seconde tout en fournissant un code complet et fonctionnel.

Jielin Qiu, Zixiang Chen, Liangwei Yang + 11 more2026-03-06💻 cs

Better audio representations are more brain-like: linking model-brain alignment with performance in downstream auditory tasks

Cette étude démontre que les modèles audio auto-supervisés performants dans des tâches de perception auditive développent des représentations internes plus proches de l'activité cérébrale humaine, suggérant que cette similarité biologique émerge naturellement de l'apprentissage de la reconstruction de données audio.

Leonardo Pepino, Pablo Riera, Juan Kamienkowski + 1 more2026-03-05🤖 cs.LG

OASI: Objective-Aware Surrogate Initialization for Multi-Objective Bayesian Optimization in TinyML Keyword Spotting

Ce papier présente OASI, une méthode d'initialisation de surrogate consciente des objectifs qui améliore l'optimisation bayésienne multi-objectif pour le repérage de mots-clés sur microcontrôleurs en générant des solutions initiales biaisées vers le compromis précision-mémoire, garantissant ainsi des modèles déployables sans violer les contraintes de ressources.

Soumen Garai, Danilo Pau, Suman Samui2026-03-05🤖 cs.LG

ACES: Accent Subspaces for Coupling, Explanations, and Stress-Testing in Automatic Speech Recognition

Le papier présente ACES, une méthode d'audit centrée sur les représentations qui identifie des sous-espaces discriminants d'accents dans les systèmes de reconnaissance vocale, révélant que ces caractéristiques sont profondément entrelacées avec les indices de reconnaissance essentiels, ce qui les rend utiles pour le diagnostic mais inefficaces pour réduire les disparités par simple atténuation.

Swapnil Parekh2026-03-05🤖 cs.AI