cs.SD artículos | Gist.Science

When Fine-Tuning Fails and when it Generalises: Role of Data Diversity and Mixed Training in LLM-based TTS

Este trabajo demuestra que el ajuste fino con LoRA de modelos de lenguaje grandes compactos para sistemas de síntesis de voz mejora significativamente la calidad perceptiva, la fidelidad del hablante y la relación señal-ruido, siempre que se utilice un conjunto de datos de entrenamiento suficientemente diverso.

Anupam Purwar, Aditya ChoudharyThu, 12 Ma🤖 cs.AI

Training-Free Multi-Step Inference for Target Speaker Extraction

Este artículo propone un método de inferencia multi-paso sin entrenamiento para la extracción de hablantes objetivo que, utilizando un modelo preentrenado congelado, refina iterativamente la estimación mediante interpolación y selección de candidatos, optimizando métricas intrusivas o no intrusivas (o una combinación de ambas) para lograr mejoras consistentes y un control adaptable en el despliegue práctico.

Zhenghai You, Ying Shi, Lantian Li, Dong WangThu, 12 Ma💻 cs

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

El paper presenta V2M-Zero, un enfoque de generación de música a partir de video sin pares de datos que logra una alineación temporal precisa al extraer y transferir estructuras de cambio temporal independientes dentro de cada modalidad mediante curvas de eventos, superando significativamente a los métodos basados en datos pareados.

Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. BryanThu, 12 Ma🤖 cs.AI

Efficient Emotion and Speaker Adaptation in LLM-Based TTS via Characteristic-Specific Partial Fine-Tuning

El artículo propone CSP-FT, una estrategia de ajuste fino parcial específica de características que, al seleccionar dinámicamente solo dos capas de un modelo TTS basado en LLM, logra una fidelidad emocional y de voz comparable al ajuste completo con el 8% de parámetros actualizados, acelerando el entrenamiento y mitigando el olvido catastrófico.

Tianrui Wang, Meng Ge, Cheng Gong, Chunyu Qiang, Haoyu Wang, Zikang Huang, Yu Jiang, Ye Ni, Yuheng Lu, Xiaobao Wang, Engsiong Chng, Xie Chen, Longbiao Wang, Jianwu DangMon, 09 Ma💻 cs

HVAC-EAR: Eavesdropping Human Speech Using HVAC Systems

El artículo presenta HVAC-EAR, un sistema que reconstruye el habla inteligible a partir de datos de presión ruidosos de sistemas HVAC utilizando un conformador de valor complejo, demostrando por primera vez que esto es posible a una distancia de 1,2 metros y planteando nuevas preocupaciones sobre la privacidad.

Tarikul Islam Tamiti, Biraj Joshi, Rida Hasan, Anomadarshi BaruaMon, 09 Ma💻 cs

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

Este trabajo propone un marco de reconocimiento de habla audiovisual (AVSR) robusto y sin máscaras que integra un módulo de fusión basado en Conformer para refinar implícitamente las características de audio ruidosas mediante asistencia visual, preservando la integridad semántica y superando a los métodos basados en máscaras en el benchmark LRS3.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

LMU-Based Sequential Learning and Posterior Ensemble Fusion for Cross-Domain Infant Cry Classification

Este trabajo propone un marco acústico compacto que fusiona características multirrama y una unidad de memoria Legendre (LMU) con una fusión de ensamble posterior calibrada para mejorar la clasificación de llantos infantiles en escenarios de dominio cruzado, logrando una generalización superior y una implementación eficiente en dispositivos.

Niloofar Jazaeri, Hilmi R. Dajani, Marco Janeczek, Martin BouchardMon, 09 Ma🤖 cs.LG

Whisper-RIR-Mega: A Paired Clean-Reverberant Speech Benchmark for ASR Robustness to Room Acoustics

Este trabajo presenta Whisper-RIR-Mega, un nuevo conjunto de datos de referencia que empareja grabaciones de habla limpias con sus versiones reverberantes utilizando respuestas de impulso reales, diseñado para evaluar y mejorar la robustez de los modelos de reconocimiento automático de voz frente a las condiciones acústicas de las habitaciones.

Mandip GoswamiMon, 09 Ma🤖 cs.AI

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

El artículo presenta Omni-C, un único codificador Transformer denso que comprime modalidades heterogéneas en representaciones compartidas mediante preentrenamiento contrastivo, logrando un rendimiento competitivo y una mayor eficiencia de memoria al eliminar la necesidad de arquitecturas complejas como la de expertos múltiples (MoE) o supervisiones emparejadas.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de GusmãoMon, 09 Ma🤖 cs.AI

Koopman Regularized Deep Speech Disentanglement for Speaker Verification

El artículo presenta DKSD-AE, un autoencoder estructurado que utiliza un operador de Koopman y normalización de instancia para desentrelazar dinámicamente las características del hablante del contenido lingüístico, logrando una verificación de voz competitiva y escalable sin necesidad de supervisión textual ni grandes modelos preentrenados.

Nikos Chazaridis, Mohammad Belal, Rafael Mestre, Timothy J. Norman, Christine EversMon, 09 Ma🤖 cs.LG

Which Data Matter? Embedding-Based Data Selection for Speech Recognition

Este trabajo demuestra que la selección estratégica de un subconjunto de datos basado en incrustaciones que capturan atributos del hablante, contenido fonético y significado semántico permite que los modelos de reconocimiento automático del habla especializados superen significativamente a los entrenados con el conjunto completo de datos en dominios objetivo.

Zakaria Aldeneh, Skyler Seto, Maureen de Seyssel, Jie Chi, Zijin Gu, Takuya Higuchi, Jee-weon Jung, Shinji Watanabe, David Grangier, Barry-John Theobald, Tatiana LikhomanenkoMon, 09 Ma💻 cs

How Well Do Current Speech Deepfake Detection Methods Generalize to the Real World?

Este artículo presenta ML-ITW, un nuevo conjunto de datos multilingüe y de condiciones reales diseñado para evaluar la capacidad de generalización de los detectores de deepfakes de voz, revelando que los métodos actuales sufren un rendimiento significativo al enfrentarse a diversos idiomas y entornos acústicos del mundo real.

Daixian Li, Jun Xue, Yanzhen Ren, Zhuolin Yi, Yihuan Huang, Guanxiang Feng, Yi ChaiMon, 09 Ma💻 cs

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

El artículo presenta TempoSyncDiff, un marco de difusión latente basado en destilación que genera cabezas parlantes impulsadas por audio con baja latencia y alta consistencia temporal, mitigando problemas como el parpadeo y la deriva de identidad mediante un enfoque maestro-alumno y condicionamiento basado en visemas.

Soumya Mazumdar, Vineet Kumar RakeshMon, 09 Ma🤖 cs.AI

Do Compact SSL Backbones Matter for Audio Deepfake Detection? A Controlled Study with RAPTOR

El estudio RAPTOR demuestra que la trayectoria de pre-entrenamiento multilingüe de modelos compactos como HuBERT es más determinante para la detección robusta de deepfakes de audio que la escala del modelo, logrando un rendimiento comparable a sistemas comerciales mediante un detector unificado y una nueva evaluación de incertidumbre.

Ajinkya Kulkarni, Sandipana Dowerah, Atharva Kulkarni, Tanel Alumäe, Mathew Magimai DossMon, 09 Ma🤖 cs.AI

Whisper-CD: Accurate Long-Form Speech Recognition using Multi-Negative Contrastive Decoding

El artículo presenta Whisper-CD, un marco de decodificación contrastiva sin entrenamiento que reduce las alucinaciones y mejora la velocidad en la transcripción de audio largo al comparar las probabilidades del modelo frente a perturbaciones acústicas negativas durante la inferencia.

Hoseong Ahn, Jeongyun Chae, Yoonji Park, Kyuhong ShimMon, 09 Ma🤖 cs.AI

Continual Adaptation for Pacific Indigenous Speech Recognition

Este estudio empírico demuestra que, aunque técnicas como LoRA permiten la adaptación inicial de modelos de reconocimiento de voz a lenguas indígenas del Pacífico, estas estrategias enfrentan un grave olvido catastrófico y una deriva representacional durante el aprendizaje continuo, lo que subraya la necesidad urgente de desarrollar métodos de adaptación más robustos para estas lenguas de recursos limitados.

Yang Xiao, Aso Mahmudi, Nick Thieberger, Eliathamby Ambikairajah, Eun-Jung Holden, Ting DangMon, 09 Ma💬 cs.CL

Prosodic Boundary-Aware Streaming Generation for LLM-Based TTS with Streaming Text Input

Este artículo presenta una estrategia de post-entrenamiento que adapta modelos de TTS basados en LLM para la generación en streaming con entrada de texto incremental, logrando una prosodia más natural y evitando el colapso en textos largos mediante el aprendizaje de límites prosódicos y el uso de una ventana deslizante.

Changsong Liu, Tianrui Wang, Ye Ni, Yizhou Peng, Eng Siong ChngMon, 09 Ma🤖 cs.AI

RAMoEA-QA: Hierarchical Specialization for Robust Respiratory Audio Question Answering

El artículo presenta RAMoEA-QA, un modelo generativo jerárquico que utiliza mecanismos de especialización condicional mediante expertos y adaptadores para unificar la comprensión de audio respiratorio heterogéneo y la generación de respuestas clínicas, logrando un rendimiento superior y una mayor generalización en comparación con los sistemas monolíticos existentes.

Gaia A. Bertolino, Yuwei Zhang, Tong Xia, Domenico Talia, Cecilia MascoloMon, 09 Ma🤖 cs.AI

Audio-Language Models for Audio-Centric Tasks: A Systematic Survey

Este artículo presenta la primera revisión sistemática de los modelos de audio-idioma, ofreciendo una cobertura exhaustiva, una taxonomía unificada y un panorama de investigación que analiza sus fundamentos, limitaciones y direcciones futuras para el procesamiento de contenido multimodal centrado en el audio.

Yi Su, Jisheng Bai, Qisheng Xu, Kele Xu, Yong DouFri, 13 Ma⚡ eess

Text-only adaptation in LLM-based ASR through text denoising

Este artículo presenta un método ligero de adaptación solo con texto para sistemas de reconocimiento automático de habla basados en modelos de lenguaje grande, que formula el proceso como una tarea de eliminación de ruido para adaptar el modelo a nuevos dominios sin alterar la alineación entre modalidades.

Andrés Carofilis, Sergio Burdisso, Esaú Villatoro-Tello, Shashi Kumar, Kadri Hacioglu, Srikanth Madikeri, Pradeep Rangappa, Manjunath K E, Petr Motlicek, Shankar Venkatesan, Andreas StolckeFri, 13 Ma⚡ eess

← Anterior Siguiente →