Boosting ASR Robustness via Test-Time Reinforcement Learning with Audio-Text Semantic Rewards

Este trabajo presenta ASR-TRA, un marco de adaptación en tiempo de prueba basado en aprendizaje por refuerzo que mejora la robustez de los sistemas de reconocimiento automático de voz frente a ruido y acentos diversos mediante la optimización de la alineación semántica audio-texto, superando así los sesgos de confirmación de los métodos existentes.

Linghan Fang, Tianxin Xie, Li Liu2026-03-06🤖 cs.AI

Building Enterprise Realtime Voice Agents from Scratch: A Technical Tutorial

Este tutorial técnico demuestra que la clave para construir agentes de voz en tiempo real de nivel empresarial no reside en modelos nativos de voz a voz, sino en una arquitectura en cascada y con transmisión de datos (STT \rightarrow LLM \rightarrow TTS) que logra una latencia de menos de un segundo mediante la integración de componentes como Deepgram, vLLM y ElevenLabs.

Jielin Qiu, Zixiang Chen, Liangwei Yang + 11 more2026-03-06💻 cs

LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection

El artículo presenta LadderSym, un modelo Transformer multimodal que mejora significativamente la detección de errores en la práctica musical al utilizar un codificador de doble flujo con alineación entre corrientes y representaciones simbólicas como prompts, superando así las limitaciones de los métodos anteriores en conjuntos de datos como MAESTRO-E y CocoChorales-E.

Benjamin Shiue-Hal Chou, Purvish Jajal, Nick John Eliopoulos + 4 more2026-03-05🤖 cs.AI

Better audio representations are more brain-like: linking model-brain alignment with performance in downstream auditory tasks

El estudio demuestra que los modelos de audio auto-supervisados con alto rendimiento en tareas auditivas diversas generan representaciones internas más similares a la actividad cerebral, revelando una fuerte correlación positiva entre el rendimiento en tareas y la alineación con el cerebro, lo que sugiere que las representaciones cerebrales pueden emerger como subproducto del aprendizaje para reconstruir información en datos de audio natural.

Leonardo Pepino, Pablo Riera, Juan Kamienkowski + 1 more2026-03-05🤖 cs.LG

OASI: Objective-Aware Surrogate Initialization for Multi-Objective Bayesian Optimization in TinyML Keyword Spotting

Este artículo presenta OASI, un método de inicialización de sustitutos consciente de los objetivos que mejora la optimización bayesiana multiobjetivo para modelos de detección de palabras clave en TinyML, logrando un mejor equilibrio entre precisión y restricciones de memoria mediante soluciones de arranque en caliente generadas por recocido simulado.

Soumen Garai, Danilo Pau, Suman Samui2026-03-05🤖 cs.LG

ACES: Accent Subspaces for Coupling, Explanations, and Stress-Testing in Automatic Speech Recognition

El artículo presenta ACES, un método de auditoría basado en representaciones que identifica subespacios de acento de baja dimensión en modelos de reconocimiento automático de voz como herramientas diagnósticas esenciales, revelando que la información del acento está profundamente entrelazada con las señales críticas para el reconocimiento y que su supresión lineal no mejora la equidad.

Swapnil Parekh2026-03-05🤖 cs.AI

Multi-Stage Music Source Restoration with BandSplit-RoFormer Separation and HiFi++ GAN

Este informe técnico presenta el sistema del equipo CP-JKU para el Desafío MSR de ICASSP 2025, que aborda la restauración de fuentes musicales mediante un enfoque de dos etapas: primero, un separador BandSplit-RoFormer que predice ocho stems mediante un entrenamiento curricular en tres fases, y segundo, un restaurador de ondas HiFi++ GAN especializado en expertos específicos para cada instrumento.

Tobias Morocutti, Emmanouil Karystinaios, Jonathan Greif + 1 more2026-03-05🤖 cs.LG