V2A-DPO: Omni-Preference Optimization for Video-to-Audio Generation

El artículo presenta V2A-DPO, un marco de optimización directa de preferencias diseñado para modelos de generación de audio a partir de video basados en flujo, que integra un sistema de puntuación alineado con preferencias humanas, una tubería automatizada para datos de preferencia y una estrategia de aprendizaje curricular, logrando un rendimiento superior al estado del arte en el conjunto de datos VGGSound.

Nolan Chan, Timmy Gang, Yongqian Wang, Yuzhe Liang, Dingdong WangFri, 13 Ma⚡ eess

Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

Este artículo propone un marco basado en Transformers para el reconocimiento de emociones audio-visuales que aborda la desincronización temporal entre modalidades mediante un codificador de autoatención multimodal, embebimientos posicionales rotatorios alineados temporalmente (TaRoPE) y una función de pérdida de coincidencia cruzada temporal (CTM), logrando mejoras consistentes en los conjuntos de datos CREMA-D y RAVDESS.

Inyong Koo, yeeun Seong, Minseok Son, Jaehyuk Jang, Changick KimFri, 13 Ma⚡ eess

Uni-ASR: Unified LLM-Based Architecture for Non-Streaming and Streaming Automatic Speech Recognition

El artículo presenta Uni-ASR, un marco unificado basado en grandes modelos de lenguaje que integra capacidades de reconocimiento de voz tanto no en streaming como en streaming mediante un paradigma de entrenamiento conjunto y una estrategia de decodificación de respaldo, logrando un alto rendimiento en escenarios de baja latencia sin sacrificar la precisión ni requerir modificaciones arquitectónicas.

Yinfeng Xia, Jian Tang, Junfeng Hou, Gaopeng Xu, Haitao YaoFri, 13 Ma💬 cs.CL

Huntington Disease Automatic Speech Recognition with Biomarker Supervision

Este estudio presenta un sistema de reconocimiento automático de habla (ASR) optimizado para la enfermedad de Huntington que, mediante un corpus clínico de alta fidelidad y supervisión auxiliar basada en biomarcadores, logra reducir la tasa de error de palabras y analizar patrones de errores específicos de la patología, superando a los modelos baselines tradicionales.

Charles L. Wang, Cady Chen, Ziwei Gong, Julia HirschbergFri, 13 Ma🤖 cs.LG

Can LLMs Help Localize Fake Words in Partially Fake Speech?

El estudio investiga si un modelo de lenguaje entrenado en texto puede localizar palabras falsas en audio manipulado mediante predicción de tokens, descubriendo que, aunque efectivo en escenarios específicos al detectar patrones de edición aprendidos, el modelo tiene dificultades para generalizar a estilos de edición no vistos debido a su dependencia excesiva de esos patrones particulares.

Lin Zhang, Thomas Thebaud, Zexin Cai, Sanjeev Khudanpur, Daniel Povey, Leibny Paola García-Perera, Matthew Wiesner, Nicholas AndrewsFri, 13 Ma⚡ eess

Cough activity detection for automatic tuberculosis screening

Este artículo presenta un sistema de detección de actividad de tos basado en el modelo preentrenado XLS-R que logra una alta precisión en la identificación de segmentos de tos para el cribado automático de tuberculosis, superando a otros modelos y demostrando viabilidad para su implementación en dispositivos móviles.

Joshua Jansen van Vüren, Devendra Singh Parihar, Daphne Naidoo, Kimsey Zajac, Willy Ssengooba, Grant Theron, Thomas NieslerFri, 13 Ma⚡ eess

Continued Pretraining for Low-Resource Swahili ASR: Achieving State-of-the-Art Performance with Minimal Labeled Data

Este artículo presenta un enfoque de preentrenamiento continuo que combina datos no etiquetados con un conjunto limitado de datos etiquetados para adaptar el modelo wav2vec2-bert-2.0 al reconocimiento automático de voz en swahili, logrando un rendimiento de vanguardia con una reducción del 82% en la tasa de error de palabras en comparación con la línea base y superando significativamente a los sistemas académicos anteriores.

Hillary Mutisya, John MuganeFri, 13 Ma⚡ eess

AnimeScore: A Preference-Based Dataset and Framework for Evaluating Anime-Like Speech Style

El artículo presenta AnimeScore, un marco de evaluación basado en preferencias que supera las limitaciones de las métricas subjetivas tradicionales para medir el estilo de voz "tipo anime", demostrando que los modelos de aprendizaje automático logran una precisión superior al 90% al identificar que este estilo depende de la resonancia controlada y la continuidad prosódica en lugar de simplemente de un tono alto.

Joonyong Park, Jerry LiFri, 13 Ma⚡ eess

SEMamba++: A General Speech Restoration Framework Leveraging Global, Local, and Periodic Spectral Patterns

El artículo presenta SEMamba++, un marco general de restauración de voz que mejora el estado del arte al incorporar sesgos inductivos específicos del habla, como el bloque de extracción de características de frecuencia GLP y un bloque de procesamiento dual tiempo-frecuencia multirresolución, logrando un rendimiento superior con eficiencia computacional.

Yongjoon Lee, Jung-Woo ChoiFri, 13 Ma⚡ eess

Causal Prosody Mediation for Text-to-Speech:Counterfactual Training of Duration, Pitch, and Energy in FastSpeech2

Este artículo propone un marco novedoso de mediación causal de prosodia para la síntesis de voz (TTS) que, al integrar un modelo causal estructural y objetivos de entrenamiento contrafactual en la arquitectura FastSpeech2, logra disociar la emoción del contenido lingüístico para mejorar la expresividad, la manipulación controlada de la prosodia y la consistencia del hablante sin comprometer la inteligibilidad.

Suvendu Sekhar MohantyFri, 13 Ma🤖 cs.AI

Affect Decoding in Phonated and Silent Speech Production from Surface EMG

Este estudio presenta un nuevo conjunto de datos y demuestra que la electromiografía de superficie (sEMG) puede decodificar con fiabilidad la frustración tanto en el habla fonada como en la silenciosa, revelando que las señales afectivas persisten en la actividad motora facial incluso sin vocalización.

Simon Pistrosch, Kleanthis Avramidis, Tiantian Feng, Jihwan Lee, Monica Gonzalez-Machorro, Shrikanth Narayanan, Björn W. SchullerFri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Este trabajo propone un protocolo de ajuste fino mejorado con paralingüística (PE-FT) que, mediante análisis de capas y componentes específicos, capacita a los Modelos de Lenguaje Audio Grandes (LALMs) para reconocer y responder a las señales paralingüísticas, superando así las estrategias de ajuste fino tradicionales centradas únicamente en el contenido.

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition

El artículo presenta Dr. SHAP-AV, un marco basado en valores de Shapley que analiza las contribuciones de las modalidades en la reconocimiento de habla audiovisual, revelando un sesgo persistente hacia el audio y proponiendo la atribución de Shapley como un estándar diagnóstico para entender el equilibrio modal bajo ruido.

Umberto Cappellazzo, Stavros Petridis, Maja PanticFri, 13 Ma⚡ eess