cs.SD artículos | Gist.Science

[b]=[d]-[t]+[p]: Self-supervised Speech Models Discover Phonological Vector Arithmetic

Este estudio demuestra que los modelos de habla auto-supervisados codifican información fonética mediante vectores composicionales interpretables que permiten realizar operaciones aritméticas lineales para representar y manipular rasgos fonológicos de forma continua en múltiples idiomas.

Kwanghee Choi, Eunjung Yeo, Cheol Jun Cho, David Harwath, David R. MortensenFri, 13 Ma⚡ eess

V2A-DPO: Omni-Preference Optimization for Video-to-Audio Generation

El artículo presenta V2A-DPO, un marco de optimización directa de preferencias diseñado para modelos de generación de audio a partir de video basados en flujo, que integra un sistema de puntuación alineado con preferencias humanas, una tubería automatizada para datos de preferencia y una estrategia de aprendizaje curricular, logrando un rendimiento superior al estado del arte en el conjunto de datos VGGSound.

Nolan Chan, Timmy Gang, Yongqian Wang, Yuzhe Liang, Dingdong WangFri, 13 Ma⚡ eess

Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

Este artículo propone un marco basado en Transformers para el reconocimiento de emociones audio-visuales que aborda la desincronización temporal entre modalidades mediante un codificador de autoatención multimodal, embebimientos posicionales rotatorios alineados temporalmente (TaRoPE) y una función de pérdida de coincidencia cruzada temporal (CTM), logrando mejoras consistentes en los conjuntos de datos CREMA-D y RAVDESS.

Inyong Koo, yeeun Seong, Minseok Son, Jaehyuk Jang, Changick KimFri, 13 Ma⚡ eess

Uni-ASR: Unified LLM-Based Architecture for Non-Streaming and Streaming Automatic Speech Recognition

El artículo presenta Uni-ASR, un marco unificado basado en grandes modelos de lenguaje que integra capacidades de reconocimiento de voz tanto no en streaming como en streaming mediante un paradigma de entrenamiento conjunto y una estrategia de decodificación de respaldo, logrando un alto rendimiento en escenarios de baja latencia sin sacrificar la precisión ni requerir modificaciones arquitectónicas.

Yinfeng Xia, Jian Tang, Junfeng Hou, Gaopeng Xu, Haitao YaoFri, 13 Ma💬 cs.CL

Huntington Disease Automatic Speech Recognition with Biomarker Supervision

Este estudio presenta un sistema de reconocimiento automático de habla (ASR) optimizado para la enfermedad de Huntington que, mediante un corpus clínico de alta fidelidad y supervisión auxiliar basada en biomarcadores, logra reducir la tasa de error de palabras y analizar patrones de errores específicos de la patología, superando a los modelos baselines tradicionales.

Charles L. Wang, Cady Chen, Ziwei Gong, Julia HirschbergFri, 13 Ma🤖 cs.LG

Can LLMs Help Localize Fake Words in Partially Fake Speech?

El estudio investiga si un modelo de lenguaje entrenado en texto puede localizar palabras falsas en audio manipulado mediante predicción de tokens, descubriendo que, aunque efectivo en escenarios específicos al detectar patrones de edición aprendidos, el modelo tiene dificultades para generalizar a estilos de edición no vistos debido a su dependencia excesiva de esos patrones particulares.

Lin Zhang, Thomas Thebaud, Zexin Cai, Sanjeev Khudanpur, Daniel Povey, Leibny Paola García-Perera, Matthew Wiesner, Nicholas AndrewsFri, 13 Ma⚡ eess

Cough activity detection for automatic tuberculosis screening

Este artículo presenta un sistema de detección de actividad de tos basado en el modelo preentrenado XLS-R que logra una alta precisión en la identificación de segmentos de tos para el cribado automático de tuberculosis, superando a otros modelos y demostrando viabilidad para su implementación en dispositivos móviles.

Joshua Jansen van Vüren, Devendra Singh Parihar, Daphne Naidoo, Kimsey Zajac, Willy Ssengooba, Grant Theron, Thomas NieslerFri, 13 Ma⚡ eess

Fair-Gate: Fairness-Aware Interpretable Risk Gating for Sex-Fair Voice Biometrics

El artículo presenta Fair-Gate, un marco interpretable de control de riesgo que aborda el aprendizaje de atajos demográficos y la entrelazación de características para mejorar la equidad de género en los sistemas biométricos de voz sin sacrificar la precisión.

Yangyang Qu, Todisco Massimiliano, Galdi Chiara, Evans NicholasFri, 13 Ma⚡ eess

Continued Pretraining for Low-Resource Swahili ASR: Achieving State-of-the-Art Performance with Minimal Labeled Data

Este artículo presenta un enfoque de preentrenamiento continuo que combina datos no etiquetados con un conjunto limitado de datos etiquetados para adaptar el modelo wav2vec2-bert-2.0 al reconocimiento automático de voz en swahili, logrando un rendimiento de vanguardia con una reducción del 82% en la tasa de error de palabras en comparación con la línea base y superando significativamente a los sistemas académicos anteriores.

Hillary Mutisya, John MuganeFri, 13 Ma⚡ eess

Stage-Adaptive Reliability Modeling for Continuous Valence-Arousal Estimation

El artículo presenta SAGE, un marco de modelado de fiabilidad adaptativo a las etapas que mejora la estimación continua de valencia y excitación al calibrar dinámicamente la confianza de las modalidades auditivas y visuales según su informatividad en cada fase de interacción, logrando así un rendimiento superior en entornos ruidosos y variables.

Yubeen Lee, Sangeun Lee, Junyeop Cha, Eunil ParkFri, 13 Ma🤖 cs.AI

AnimeScore: A Preference-Based Dataset and Framework for Evaluating Anime-Like Speech Style

El artículo presenta AnimeScore, un marco de evaluación basado en preferencias que supera las limitaciones de las métricas subjetivas tradicionales para medir el estilo de voz "tipo anime", demostrando que los modelos de aprendizaje automático logran una precisión superior al 90% al identificar que este estilo depende de la resonancia controlada y la continuidad prosódica en lugar de simplemente de un tono alto.

Joonyong Park, Jerry LiFri, 13 Ma⚡ eess

Toward Complex-Valued Neural Networks for Waveform Generation

El artículo presenta ComVo, un vocodador neuronal complejo que utiliza aritmética nativa de números complejos, cuantización de fase y un esquema de cálculo matricial por bloques para generar formas de onda de audio de mayor calidad y con un 25% menos de tiempo de entrenamiento en comparación con los métodos basados en valores reales.

Hyung-Seok Oh, Deok-Hyeon Cho, Seung-Bin Kim, Seong-Whan LeeFri, 13 Ma🤖 cs.AI

SEMamba++: A General Speech Restoration Framework Leveraging Global, Local, and Periodic Spectral Patterns

El artículo presenta SEMamba++, un marco general de restauración de voz que mejora el estado del arte al incorporar sesgos inductivos específicos del habla, como el bloque de extracción de características de frecuencia GLP y un bloque de procesamiento dual tiempo-frecuencia multirresolución, logrando un rendimiento superior con eficiencia computacional.

Yongjoon Lee, Jung-Woo ChoiFri, 13 Ma⚡ eess

RAF: Relativistic Adversarial Feedback For Universal Speech Synthesis

El artículo propone RAF (Retroalimentación Adversarial Relativista), un nuevo objetivo de entrenamiento para vocoders GAN que mejora la fidelidad y la generalización al utilizar modelos de aprendizaje auto-supervisado y emparejamiento relativista, logrando una calidad perceptual superior con BigVGAN-base usando solo el 12% de los parámetros en comparación con LSGAN.

Yongjoon Lee, Jung-Woo ChoiFri, 13 Ma⚡ eess

Causal Prosody Mediation for Text-to-Speech:Counterfactual Training of Duration, Pitch, and Energy in FastSpeech2

Este artículo propone un marco novedoso de mediación causal de prosodia para la síntesis de voz (TTS) que, al integrar un modelo causal estructural y objetivos de entrenamiento contrafactual en la arquitectura FastSpeech2, logra disociar la emoción del contenido lingüístico para mejorar la expresividad, la manipulación controlada de la prosodia y la consistencia del hablante sin comprometer la inteligibilidad.

Suvendu Sekhar MohantyFri, 13 Ma🤖 cs.AI

Affect Decoding in Phonated and Silent Speech Production from Surface EMG

Este estudio presenta un nuevo conjunto de datos y demuestra que la electromiografía de superficie (sEMG) puede decodificar con fiabilidad la frustración tanto en el habla fonada como en la silenciosa, revelando que las señales afectivas persisten en la actividad motora facial incluso sin vocalización.

Simon Pistrosch, Kleanthis Avramidis, Tiantian Feng, Jihwan Lee, Monica Gonzalez-Machorro, Shrikanth Narayanan, Björn W. SchullerFri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Este trabajo propone un protocolo de ajuste fino mejorado con paralingüística (PE-FT) que, mediante análisis de capas y componentes específicos, capacita a los Modelos de Lenguaje Audio Grandes (LALMs) para reconocer y responder a las señales paralingüísticas, superando así las estrategias de ajuste fino tradicionales centradas únicamente en el contenido.

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition

El artículo presenta Dr. SHAP-AV, un marco basado en valores de Shapley que analiza las contribuciones de las modalidades en la reconocimiento de habla audiovisual, revelando un sesgo persistente hacia el audio y proponiendo la atribución de Shapley como un estándar diagnóstico para entender el equilibrio modal bajo ruido.

Umberto Cappellazzo, Stavros Petridis, Maja PanticFri, 13 Ma⚡ eess

Controllable Dance Generation with Style-Guided Motion Diffusion

El artículo presenta SGMD, un modelo de difusión de movimiento guiado por estilo que integra características musicales y prompts de estilo para generar secuencias de danza realistas, coherentes y controlables mediante mecanismos de enmascaramiento espacio-temporal.

Hongsong Wang, Ying Zhu, Xin Geng + 1 more2026-03-11⚡ eess

ExSampling: a system for the real-time ensemble performance of field-recorded environmental sounds

El artículo presenta ExSampling, un sistema integrado que utiliza aprendizaje profundo para mapear automáticamente grabaciones de campo a pistas de Ableton Live, permitiendo la interpretación musical en tiempo real y la interacción entre grabadores, compositores y músicos.

Atsuya Kobayashi, Reo Anzai, Nao Tokui2026-03-10⚡ eess

← Anterior Siguiente →