Robust Audio-Visual Target Speaker Extraction with Emotion-Aware Multiple Enrollment Fusion

Este artículo presenta un método robusto para la extracción de hablantes objetivo audio-visuales que, mediante el entrenamiento con altas tasas de ausencia de modalidades, mantiene un rendimiento estable al fusionar características de labios y una única imagen facial incluso ante la pérdida intermitente de señales en escenarios reales.

Zhan Jin, Bang Zeng, Peijun Yang, Jiarong Du, Wei Ju, Yao Tian, Juan Liu, Ming LiThu, 12 Ma⚡ eess

Trade-offs between structural richness and communication efficiency in music network representations

Este estudio demuestra que la elección de la codificación de características en las representaciones en red de la música genera una compensación fundamental entre la riqueza estructural y la eficiencia comunicativa, determinando cómo se distribuye la incertidumbre y la viabilidad de que dicha incertidumbre sirva como un proxy plausible para las expectativas perceptuales humanas.

Lluc Bono Rosselló, Robert Jankowski, Hugues Bersini, Marián Boguñá, M. Ángeles SerranoThu, 12 Ma🧬 q-bio

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

El artículo presenta HyWA, un enfoque de detección de actividad vocal personalizada que utiliza una hiperred para generar pesos adaptados a un hablante específico en capas seleccionadas de un modelo estándar, logrando mejoras consistentes en el rendimiento y facilitando el despliegue al reutilizar la misma arquitectura.

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi NiaThu, 12 Ma⚡ eess

Calibration-Reasoning Framework for Descriptive Speech Quality Assessment

Este artículo presenta un marco de calibración y razonamiento que, mediante un ajuste post-entrenamiento con aprendizaje por refuerzo (GRPO), adapta modelos de lenguaje de audio grandes para superar las puntuaciones de opinión media y lograr un estado del arte en la evaluación descriptiva multidimensional, la localización temporal y la clasificación de artefactos en el habla.

Elizaveta Kostenok, Mathieu Salzmann, Milos CernakThu, 12 Ma⚡ eess

Speech Codec Probing from Semantic and Phonetic Perspectives

Este artículo demuestra mediante análisis sistemáticos que los tokenizadores de voz actuales capturan principalmente información fonética en lugar de semántica léxica, revelando una discrepancia crítica con la semántica basada en texto que afecta el rendimiento de los modelos de lenguaje multimodales y proponiendo implicaciones para el diseño de futuros tokenizadores.

Xuan Shi, Chang Zeng, Tiantian Feng, Shih-Heng Wang, Jianbo Ma, Shrikanth NarayananThu, 12 Ma⚡ eess

FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

El artículo presenta FireRedASR2S, un sistema industrial de reconocimiento automático del habla de última generación que integra módulos unificados de detección de actividad vocal, identificación de lenguaje hablado, predicción de puntuación y transcripción de habla y canto en múltiples idiomas y dialectos, superando el estado del arte en diversos benchmarks.

Kaituo Xu, Yan Jia, Kai Huang, Junjie Chen, Wenpeng Li, Kun Liu, Feng-Long Xie, Xu Tang, Yao HuThu, 12 Ma⚡ eess

G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

El artículo presenta G-STAR, un sistema de reconocimiento automático de habla (ASR) con atribución de hablantes de extremo a extremo que combina un módulo de seguimiento temporal con un modelo de lenguaje grande (Speech-LLM) para generar transcripciones etiquetadas por hablante con consistencia global en conversaciones largas y superpuestas.

Jing Peng, Ziyi Chen, Haoyu Li, Yucheng Wang, Duo Ma, Mengtian Li, Yunfan Du, Dezhu Xu, Kai Yu, Shuai WangThu, 12 Ma⚡ eess

Geo-ATBench: A Benchmark for Geospatial Audio Tagging with Geospatial Semantic Context

El artículo presenta Geo-ATBench, un nuevo conjunto de datos y marco de referencia para la etiquetado de audio geoespacial que demuestra cómo integrar el contexto semántico geográfico mejora la precisión en la identificación de eventos sonoros, especialmente cuando la información acústica por sí sola es ambigua.

Yuanbo Hou, Yanru Wu, Qiaoqiao Ren, Shengchen Li, Stephen Roberts, Dick BotteldoorenThu, 12 Ma⚡ eess

MOS-Bias: From Hidden Gender Bias to Gender-Aware Speech Quality Assessment

Este estudio revela un sesgo de género sistemático en las puntuaciones de opinión media (MOS) donde los oyentes masculinos otorgan calificaciones más altas que las femeninas, especialmente en audio de baja calidad, y propone un modelo consciente del género que aprende patrones de puntuación específicos para mejorar la equidad y precisión en la evaluación de la calidad del habla.

Wenze Ren, Yi-Cheng Lin, Wen-Chin Huang, Erica Cooper, Ryandhimas E. Zezario, Hsin-Min Wang, Hung-yi Lee, Yu TsaoThu, 12 Ma⚡ eess

Efficient Emotion and Speaker Adaptation in LLM-Based TTS via Characteristic-Specific Partial Fine-Tuning

El artículo propone CSP-FT, una estrategia de ajuste fino parcial específica de características que, al seleccionar dinámicamente solo dos capas de un modelo TTS basado en LLM, logra una fidelidad emocional y de voz comparable al ajuste completo con el 8% de parámetros actualizados, acelerando el entrenamiento y mitigando el olvido catastrófico.

Tianrui Wang, Meng Ge, Cheng Gong, Chunyu Qiang, Haoyu Wang, Zikang Huang, Yu Jiang, Ye Ni, Yuheng Lu, Xiaobao Wang, Engsiong Chng, Xie Chen, Longbiao Wang, Jianwu DangMon, 09 Ma💻 cs

The trajectoRIR Database: Room Acoustic Recordings Along a Trajectory of Moving Microphones

Este artículo presenta la base de datos trajectoRIR, una colección única de grabaciones acústicas estáticas y en movimiento a lo largo de una trayectoria controlada en una habitación, diseñada para apoyar tareas avanzadas de procesamiento de señales como la localización de fuentes sonoras y la reconstrucción de campos sonoros dinámicos.

Stefano Damiano, Kathleen MacWilliam, Valerio Lorenzoni, Thomas Dietzen, Toon van WaterschootMon, 09 Ma⚡ eess

ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction

El artículo presenta ParaS2S, un nuevo marco de aprendizaje por refuerzo y un benchmark (ParaS2SBench) que optimizan la capacidad de los modelos de voz a voz para responder adecuadamente tanto en contenido como en estilo paralingüístico, superando a los enfoques anteriores con menos datos de entrenamiento.

Shu-wen Yang, Ming Tu, Andy T. Liu, Xinghua Qu, Hung-yi Lee, Lu Lu, Yuxuan Wang, Yonghui WuMon, 09 Ma⚡ eess

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

Este trabajo propone un marco de reconocimiento de habla audiovisual (AVSR) robusto y sin máscaras que integra un módulo de fusión basado en Conformer para refinar implícitamente las características de audio ruidosas mediante asistencia visual, preservando la integridad semántica y superando a los métodos basados en máscaras en el benchmark LRS3.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

LMU-Based Sequential Learning and Posterior Ensemble Fusion for Cross-Domain Infant Cry Classification

Este trabajo propone un marco acústico compacto que fusiona características multirrama y una unidad de memoria Legendre (LMU) con una fusión de ensamble posterior calibrada para mejorar la clasificación de llantos infantiles en escenarios de dominio cruzado, logrando una generalización superior y una implementación eficiente en dispositivos.

Niloofar Jazaeri, Hilmi R. Dajani, Marco Janeczek, Martin BouchardMon, 09 Ma🤖 cs.LG

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

El artículo presenta Omni-C, un único codificador Transformer denso que comprime modalidades heterogéneas en representaciones compartidas mediante preentrenamiento contrastivo, logrando un rendimiento competitivo y una mayor eficiencia de memoria al eliminar la necesidad de arquitecturas complejas como la de expertos múltiples (MoE) o supervisiones emparejadas.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de GusmãoMon, 09 Ma🤖 cs.AI

Activation Steering for Accent Adaptation in Speech Foundation Models

Este artículo propone un método de adaptación de acento sin parámetros para modelos de fundamentación de voz que identifica y controla la variación de acento como un subespacio interpretable en las activaciones ocultas, logrando reducir consistentemente la tasa de error de palabras al inyectar direcciones de desplazamiento en una banda estrecha de capas intermedias durante la inferencia.

Jinuo Sun, Yang Xiao, Sung Kyun Chung, Qiuchi Hu, Gongping Huang, Eun-Jung Holden, Ting DangMon, 09 Ma⚡ eess