Nw\=ach\=a Mun\=a: A Devanagari Speech Corpus and Proximal Transfer Benchmark for Nepal Bhasha ASR

Cet article présente Nwāchā Munā, un corpus de parole de 5,39 heures en écriture devanagari pour la langue népalaise (Newari), et démontre que l'adaptation fine d'un modèle à partir du népalais voisin permet d'atteindre des performances de reconnaissance automatique de la parole comparables à celles des grands modèles multilingues, offrant ainsi une solution efficace pour cette langue en danger.

Rishikesh Kumar Sharma, Safal Narshing Shrestha, Jenny Poudel, Rupak Tiwari, Arju Shrestha, Rupak Raj Ghimire, Bal Krishna BalTue, 10 Ma💬 cs.CL

Unsupervised Domain Adaptation for Audio Deepfake Detection with Modular Statistical Transformations

Ce papier présente un pipeline modulaire d'adaptation de domaine non supervisé, combinant des embeddings Wav2Vec 2.0 pré-entraînés à des transformations statistiques pour améliorer la détection de deepfakes audio entre différents domaines sans données étiquetées cibles, tout en garantissant l'interprétabilité des décisions.

Urawee Thani, Gagandeep Singh, Priyanka SinghTue, 10 Ma💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

Cet article présente MambaDance, une nouvelle méthode de génération de danse qui remplace les Transformers par un modèle de diffusion basé sur Mamba et utilise une représentation des battements musicaux pour produire des mouvements synchronisés et expressifs, surpassant les approches existantes sur des séquences de toutes durées.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon JooTue, 10 Ma💻 cs

WhispEar: A Bi-directional Framework for Scaling Whispered Speech Conversion via Pseudo-Parallel Whisper Generation

L'article présente WhispEar, un cadre bidirectionnel qui améliore la conversion de la parole chuchotée en parole normale en exploitant des représentations sémantiques unifiées et en générant des données parallèles pseudo-issues de la parole normale pour surmonter le manque de données d'entraînement.

Zihao Fang, Yingda Shen, Zifan Guan, Tongtong Song, Zhenyi Liu, Zhizheng WuTue, 10 Ma💻 cs

Soundscapes in Spectrograms: Pioneering Multilabel Classification for South Asian Sounds

Cette étude présente une méthode novatrice de classification multietiquette des sons sud-asiatiques basée sur les spectrogrammes et les réseaux de neurones convolutifs, qui surpasse les techniques traditionnelles utilisant les coefficients MFCC en termes de précision sur les ensembles de données SAS-KIIT et UrbanSound8K.

Sudip Chakrabarty, Pappu Bishwas, Rajdeep Chatterjee, Tathagata Bandyopadhyay, Digonto Biswas, Bibek HowladerTue, 10 Ma💻 cs

DualTurn: Learning Turn-Taking from Dual-Channel Generative Speech Pretraining

Le papier présente DualTurn, un modèle préentraîné sur des conversations audio à double canal qui génère de manière autonome les futures paroles des deux interlocuteurs pour apprendre implicitement la dynamique conversationnelle et prédire avec précision les signaux de prise de parole, surpassant ainsi les approches existantes en réduisant les interruptions et en anticipant plus tôt les transitions.

Shangeth RajaaTue, 10 Ma💬 cs.CL

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

Cet article présente une étude systématique sur le raisonnement des modèles audio-langage face aux émotions ambiguës, en reformulant la reconnaissance comme un problème de distribution et en proposant un cadre d'apprentissage combinant un objectif aligné sur les perceptions humaines et une supervision structurée par chaîne de pensée, ce qui améliore les performances sur les jeux de données IEMOCAP et CREMA-D.

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting DangTue, 10 Ma💻 cs

Robust Audio-Visual Target Speaker Extraction with Emotion-Aware Multiple Enrollment Fusion

Ce papier propose une méthode robuste d'extraction de locuteur cible audio-visuelle qui, en s'entraînant avec un taux élevé de données manquantes, maintient des performances stables même en cas de perte de modalités lors du test, démontrant notamment l'efficacité de la fusion d'une image de visage avec des caractéristiques labiales.

Zhan Jin, Bang Zeng, Peijun Yang, Jiarong Du, Wei Ju, Yao Tian, Juan Liu, Ming LiThu, 12 Ma⚡ eess