Training-Free Multi-Step Inference for Target Speaker Extraction

Este artículo propone un método de inferencia multi-paso sin entrenamiento para la extracción de hablantes objetivo que, utilizando un modelo preentrenado congelado, refina iterativamente la estimación mediante interpolación y selección de candidatos, optimizando métricas intrusivas o no intrusivas (o una combinación de ambas) para lograr mejoras consistentes y un control adaptable en el despliegue práctico.

Zhenghai You, Ying Shi, Lantian Li, Dong WangThu, 12 Ma💻 cs

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

El paper presenta V2M-Zero, un enfoque de generación de música a partir de video sin pares de datos que logra una alineación temporal precisa al extraer y transferir estructuras de cambio temporal independientes dentro de cada modalidad mediante curvas de eventos, superando significativamente a los métodos basados en datos pareados.

Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. BryanThu, 12 Ma🤖 cs.AI

Efficient Emotion and Speaker Adaptation in LLM-Based TTS via Characteristic-Specific Partial Fine-Tuning

El artículo propone CSP-FT, una estrategia de ajuste fino parcial específica de características que, al seleccionar dinámicamente solo dos capas de un modelo TTS basado en LLM, logra una fidelidad emocional y de voz comparable al ajuste completo con el 8% de parámetros actualizados, acelerando el entrenamiento y mitigando el olvido catastrófico.

Tianrui Wang, Meng Ge, Cheng Gong, Chunyu Qiang, Haoyu Wang, Zikang Huang, Yu Jiang, Ye Ni, Yuheng Lu, Xiaobao Wang, Engsiong Chng, Xie Chen, Longbiao Wang, Jianwu DangMon, 09 Ma💻 cs

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

Este trabajo propone un marco de reconocimiento de habla audiovisual (AVSR) robusto y sin máscaras que integra un módulo de fusión basado en Conformer para refinar implícitamente las características de audio ruidosas mediante asistencia visual, preservando la integridad semántica y superando a los métodos basados en máscaras en el benchmark LRS3.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

LMU-Based Sequential Learning and Posterior Ensemble Fusion for Cross-Domain Infant Cry Classification

Este trabajo propone un marco acústico compacto que fusiona características multirrama y una unidad de memoria Legendre (LMU) con una fusión de ensamble posterior calibrada para mejorar la clasificación de llantos infantiles en escenarios de dominio cruzado, logrando una generalización superior y una implementación eficiente en dispositivos.

Niloofar Jazaeri, Hilmi R. Dajani, Marco Janeczek, Martin BouchardMon, 09 Ma🤖 cs.LG

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

El artículo presenta Omni-C, un único codificador Transformer denso que comprime modalidades heterogéneas en representaciones compartidas mediante preentrenamiento contrastivo, logrando un rendimiento competitivo y una mayor eficiencia de memoria al eliminar la necesidad de arquitecturas complejas como la de expertos múltiples (MoE) o supervisiones emparejadas.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de GusmãoMon, 09 Ma🤖 cs.AI

Koopman Regularized Deep Speech Disentanglement for Speaker Verification

El artículo presenta DKSD-AE, un autoencoder estructurado que utiliza un operador de Koopman y normalización de instancia para desentrelazar dinámicamente las características del hablante del contenido lingüístico, logrando una verificación de voz competitiva y escalable sin necesidad de supervisión textual ni grandes modelos preentrenados.

Nikos Chazaridis, Mohammad Belal, Rafael Mestre, Timothy J. Norman, Christine EversMon, 09 Ma🤖 cs.LG

Which Data Matter? Embedding-Based Data Selection for Speech Recognition

Este trabajo demuestra que la selección estratégica de un subconjunto de datos basado en incrustaciones que capturan atributos del hablante, contenido fonético y significado semántico permite que los modelos de reconocimiento automático del habla especializados superen significativamente a los entrenados con el conjunto completo de datos en dominios objetivo.

Zakaria Aldeneh, Skyler Seto, Maureen de Seyssel, Jie Chi, Zijin Gu, Takuya Higuchi, Jee-weon Jung, Shinji Watanabe, David Grangier, Barry-John Theobald, Tatiana LikhomanenkoMon, 09 Ma💻 cs

How Well Do Current Speech Deepfake Detection Methods Generalize to the Real World?

Este artículo presenta ML-ITW, un nuevo conjunto de datos multilingüe y de condiciones reales diseñado para evaluar la capacidad de generalización de los detectores de deepfakes de voz, revelando que los métodos actuales sufren un rendimiento significativo al enfrentarse a diversos idiomas y entornos acústicos del mundo real.

Daixian Li, Jun Xue, Yanzhen Ren, Zhuolin Yi, Yihuan Huang, Guanxiang Feng, Yi ChaiMon, 09 Ma💻 cs

Do Compact SSL Backbones Matter for Audio Deepfake Detection? A Controlled Study with RAPTOR

El estudio RAPTOR demuestra que la trayectoria de pre-entrenamiento multilingüe de modelos compactos como HuBERT es más determinante para la detección robusta de deepfakes de audio que la escala del modelo, logrando un rendimiento comparable a sistemas comerciales mediante un detector unificado y una nueva evaluación de incertidumbre.

Ajinkya Kulkarni, Sandipana Dowerah, Atharva Kulkarni, Tanel Alumäe, Mathew Magimai DossMon, 09 Ma🤖 cs.AI

Continual Adaptation for Pacific Indigenous Speech Recognition

Este estudio empírico demuestra que, aunque técnicas como LoRA permiten la adaptación inicial de modelos de reconocimiento de voz a lenguas indígenas del Pacífico, estas estrategias enfrentan un grave olvido catastrófico y una deriva representacional durante el aprendizaje continuo, lo que subraya la necesidad urgente de desarrollar métodos de adaptación más robustos para estas lenguas de recursos limitados.

Yang Xiao, Aso Mahmudi, Nick Thieberger, Eliathamby Ambikairajah, Eun-Jung Holden, Ting DangMon, 09 Ma💬 cs.CL

RAMoEA-QA: Hierarchical Specialization for Robust Respiratory Audio Question Answering

El artículo presenta RAMoEA-QA, un modelo generativo jerárquico que utiliza mecanismos de especialización condicional mediante expertos y adaptadores para unificar la comprensión de audio respiratorio heterogéneo y la generación de respuestas clínicas, logrando un rendimiento superior y una mayor generalización en comparación con los sistemas monolíticos existentes.

Gaia A. Bertolino, Yuwei Zhang, Tong Xia, Domenico Talia, Cecilia MascoloMon, 09 Ma🤖 cs.AI

Text-only adaptation in LLM-based ASR through text denoising

Este artículo presenta un método ligero de adaptación solo con texto para sistemas de reconocimiento automático de habla basados en modelos de lenguaje grande, que formula el proceso como una tarea de eliminación de ruido para adaptar el modelo a nuevos dominios sin alterar la alineación entre modalidades.

Andrés Carofilis, Sergio Burdisso, Esaú Villatoro-Tello, Shashi Kumar, Kadri Hacioglu, Srikanth Madikeri, Pradeep Rangappa, Manjunath K E, Petr Motlicek, Shankar Venkatesan, Andreas StolckeFri, 13 Ma⚡ eess