V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

Le papier présente V2M-Zero, une méthode de génération de musique à partir de vidéo sans données appariées qui assure un alignement temporel en exploitant les structures de changement communes entre les modalités via des courbes d'événements intra-modales, surpassant ainsi les approches basées sur des données appariées.

Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. BryanThu, 12 Ma🤖 cs.AI

Efficient Emotion and Speaker Adaptation in LLM-Based TTS via Characteristic-Specific Partial Fine-Tuning

Cet article propose CSP-FT, une stratégie de micro-ajustement partiel spécifique aux caractéristiques qui améliore l'adaptation des émotions et des locuteurs dans les modèles TTS basés sur les LLM en ne mettant à jour que 8 % des paramètres, tout en accélérant l'entraînement et en préservant la précision de la prononciation.

Tianrui Wang, Meng Ge, Cheng Gong, Chunyu Qiang, Haoyu Wang, Zikang Huang, Yu Jiang, Ye Ni, Yuheng Lu, Xiaobao Wang, Engsiong Chng, Xie Chen, Longbiao Wang, Jianwu DangMon, 09 Ma💻 cs

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

Cet article propose un cadre de reconnaissance automatique de la parole audiovisuelle (AVSR) robuste au bruit qui, en éliminant les masques explicites et en utilisant une fusion de type Conformer assistée par la vidéo, améliore les performances de reconnaissance dans des environnements bruyants tout en préservant l'intégrité sémantique de la parole.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

LMU-Based Sequential Learning and Posterior Ensemble Fusion for Cross-Domain Infant Cry Classification

Cet article propose un cadre acoustique compact combinant un encodeur CNN multi-branches, une unité de mémoire Legendre (LMU) pour la modélisation temporelle efficace et une fusion d'ensemble postérieure calibrée, afin d'améliorer la classification des cris de nourrissons dans des scénarios inter-domaines malgré les défis liés aux signaux non stationnaires et aux décalages de distribution.

Niloofar Jazaeri, Hilmi R. Dajani, Marco Janeczek, Martin BouchardMon, 09 Ma🤖 cs.LG

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

Ce papier présente Omni-C, un encodeur Transformer dense unique qui compresse des modalités hétérogènes (images, audio, texte) en apprenant des représentations partagées via un pré-entraînement contrastif, permettant ainsi de réduire considérablement la complexité computationnelle et l'empreinte mémoire par rapport aux architectures multimodales traditionnelles.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de GusmãoMon, 09 Ma🤖 cs.AI

Koopman Regularized Deep Speech Disentanglement for Speaker Verification

Cet article propose le DKSD-AE, un autoencodeur structuré combinant un opérateur de Koopman et une normalisation d'instance pour apprendre des représentations de locuteur décorrélées du contenu linguistique sans supervision textuelle, tout en surpassant ou égalant les performances des méthodes de l'état de l'art avec moins de paramètres.

Nikos Chazaridis, Mohammad Belal, Rafael Mestre, Timothy J. Norman, Christine EversMon, 09 Ma🤖 cs.LG

Which Data Matter? Embedding-Based Data Selection for Speech Recognition

Cette étude propose une méthode de sélection de données basée sur des embeddings pour l'ASR, démontrant qu'un sous-ensemble stratégique de 5 % des données, choisi selon l'identité du locuteur, le contenu phonétique et le sens sémantique, peut réduire le taux d'erreur de mots relatif de 36,8 % sur des domaines cibles par rapport à l'entraînement sur l'ensemble complet des données.

Zakaria Aldeneh, Skyler Seto, Maureen de Seyssel, Jie Chi, Zijin Gu, Takuya Higuchi, Jee-weon Jung, Shinji Watanabe, David Grangier, Barry-John Theobald, Tatiana LikhomanenkoMon, 09 Ma💻 cs

How Well Do Current Speech Deepfake Detection Methods Generalize to the Real World?

Ce papier présente le jeu de données multilingue ML-ITW et démontre que les méthodes actuelles de détection de deepfakes vocaux souffrent d'une forte dégradation des performances lorsqu'elles sont confrontées à des conditions acoustiques réalistes et à une diversité linguistique, révélant ainsi leurs limites de généralisation.

Daixian Li, Jun Xue, Yanzhen Ren, Zhuolin Yi, Yihuan Huang, Guanxiang Feng, Yi ChaiMon, 09 Ma💻 cs

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

Ce papier présente TempoSyncDiff, un cadre de diffusion latente conditionné par la référence qui utilise une distillation enseignant-élève pour générer des têtes parlantes pilotées par l'audio avec une faible latence et une stabilité temporelle accrue, visant ainsi à rendre cette technologie viable pour un déploiement sur des dispositifs aux ressources limitées.

Soumya Mazumdar, Vineet Kumar RakeshMon, 09 Ma🤖 cs.AI

Do Compact SSL Backbones Matter for Audio Deepfake Detection? A Controlled Study with RAPTOR

L'étude RAPTOR démontre que la trajectoire de pré-entraînement en apprentissage auto-supervisé, et non l'échelle du modèle, est le facteur déterminant pour la robustesse et l'étalonnage des détecteurs de deepfakes audio, permettant à des modèles compacts multilingues de rivaliser avec des systèmes commerciaux plus volumineux.

Ajinkya Kulkarni, Sandipana Dowerah, Atharva Kulkarni, Tanel Alumäe, Mathew Magimai DossMon, 09 Ma🤖 cs.AI

Whisper-CD: Accurate Long-Form Speech Recognition using Multi-Negative Contrastive Decoding

Le papier présente Whisper-CD, un cadre de décodage contrastif sans entraînement qui élimine les hallucinations et les boucles de répétition dans la reconnaissance vocale longue en comparant les logits d'audio propre à ceux générés par des perturbations acoustiques négatives, réduisant ainsi le taux d'erreur de 24,3 points tout en accélérant la génération de 48 %.

Hoseong Ahn, Jeongyun Chae, Yoonji Park, Kyuhong ShimMon, 09 Ma🤖 cs.AI

Continual Adaptation for Pacific Indigenous Speech Recognition

Cette étude empirique démontre que l'adaptation des modèles de reconnaissance vocale aux langues autochtones du Pacifique, bien que cruciale pour pallier le manque de données, se heurte à un dilemme entre plasticité et stabilité, où des méthodes comme LoRA échouent à éviter l'oubli catastrophique lors de l'apprentissage continu de multiples langues.

Yang Xiao, Aso Mahmudi, Nick Thieberger, Eliathamby Ambikairajah, Eun-Jung Holden, Ting DangMon, 09 Ma💬 cs.CL

Prosodic Boundary-Aware Streaming Generation for LLM-Based TTS with Streaming Text Input

Ce papier propose une stratégie d'adaptation post-entraînement pour les modèles TTS basés sur les LLM, permettant une génération fluide et expressive à partir de texte en flux continu grâce à une détection proactive des frontières prosodiques et un contexte glissant, surclassant ainsi les méthodes existantes tant sur les textes courts que longs.

Changsong Liu, Tianrui Wang, Ye Ni, Yizhou Peng, Eng Siong ChngMon, 09 Ma🤖 cs.AI

RAMoEA-QA: Hierarchical Specialization for Robust Respiratory Audio Question Answering

Le papier présente RAMoEA-QA, un modèle génératif hiérarchique utilisant un routage conditionnel à deux étapes (experts audio et adaptateurs de langage) pour surmonter l'hétérogénéité des données respiratoires et améliorer la précision ainsi que la généralisation des systèmes de réponse aux questions sur l'audio médical.

Gaia A. Bertolino, Yuwei Zhang, Tong Xia, Domenico Talia, Cecilia MascoloMon, 09 Ma🤖 cs.AI

Text-only adaptation in LLM-based ASR through text denoising

Cet article propose une méthode d'adaptation légère et sans modification architecturale des systèmes de reconnaissance automatique de la parole basés sur les grands modèles de langage à de nouveaux domaines en utilisant uniquement des données textuelles, en formulant l'adaptation comme une tâche de débruitage de texte qui préserve l'alignement intermodal tout en surpassant les méthodes actuelles.

Andrés Carofilis, Sergio Burdisso, Esaú Villatoro-Tello, Shashi Kumar, Kadri Hacioglu, Srikanth Madikeri, Pradeep Rangappa, Manjunath K E, Petr Motlicek, Shankar Venkatesan, Andreas StolckeFri, 13 Ma⚡ eess