Temporal Pooling Strategies for Training-Free Anomalous Sound Detection with Self-Supervised Audio Embeddings

Este artículo presenta una evaluación sistemática de estrategias de agrupamiento temporal para la detección de sonidos anómalos sin entrenamiento, proponiendo el agrupamiento por desviación relativa (RDP) y una estrategia híbrida que superan el rendimiento de los métodos existentes y alcanzan el estado del arte en múltiples conjuntos de datos de referencia.

Kevin Wilkinghoff, Sarthak Yadav, Zheng-Hua Tan2026-03-06💻 cs

An Approach to Simultaneous Acquisition of Real-Time MRI Video, EEG, and Surface EMG for Articulatory, Brain, and Muscle Activity During Speech Production

Este artículo presenta un enfoque pionero para la adquisición simultánea de video de resonancia magnética en tiempo real, EEG y EMG superficial, junto con un pipeline de supresión de artefactos, con el fin de capturar integralmente la actividad cerebral, muscular y articular durante la producción del habla.

Jihwan Lee, Parsa Razmara, Kevin Huang + 16 more2026-03-06🤖 cs.AI

Voice Timbre Attribute Detection with Compact and Interpretable Training-Free Acoustic Parameters

Este trabajo propone un conjunto de parámetros acústicos compactos, interpretables y sin entrenamiento para la detección de atributos de timbre vocal, los cuales superan a las características cepstrales convencionales y a las incrustaciones de redes neuronales supervisadas, acercándose al rendimiento de los modelos auto-supervisados más avanzados.

Aemon Yat Fei Chiu, Yujia Xiao, Qiuqiang Kong + 1 more2026-03-06⚡ eess

LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection

El artículo presenta LadderSym, un modelo Transformer multimodal que mejora significativamente la detección de errores en la práctica musical al utilizar un codificador de doble flujo con alineación entre corrientes y representaciones simbólicas como prompts, superando así las limitaciones de los métodos anteriores en conjuntos de datos como MAESTRO-E y CocoChorales-E.

Benjamin Shiue-Hal Chou, Purvish Jajal, Nick John Eliopoulos + 4 more2026-03-05🤖 cs.AI

Escaping the BLEU Trap: A Signal-Grounded Framework with Decoupled Semantic Guidance for EEG-to-Text Decoding

El artículo presenta SemKey, un marco innovador que supera las limitaciones actuales en la decodificación de EEG a texto mediante la guía semántica desacoplada y la alineación estricta con señales neurales, logrando así una generación libre de alucinaciones y una evaluación más robusta que las métricas tradicionales como BLEU.

Yuchen Wang, Haonan Wang, Yu Guo + 2 more2026-03-05🤖 cs.AI

ACES: Accent Subspaces for Coupling, Explanations, and Stress-Testing in Automatic Speech Recognition

El artículo presenta ACES, un método de auditoría basado en representaciones que identifica subespacios de acento de baja dimensión en modelos de reconocimiento automático de voz como herramientas diagnósticas esenciales, revelando que la información del acento está profundamente entrelazada con las señales críticas para el reconocimiento y que su supresión lineal no mejora la equidad.

Swapnil Parekh2026-03-05🤖 cs.AI

Multi-Stage Music Source Restoration with BandSplit-RoFormer Separation and HiFi++ GAN

Este informe técnico presenta el sistema del equipo CP-JKU para el Desafío MSR de ICASSP 2025, que aborda la restauración de fuentes musicales mediante un enfoque de dos etapas: primero, un separador BandSplit-RoFormer que predice ocho stems mediante un entrenamiento curricular en tres fases, y segundo, un restaurador de ondas HiFi++ GAN especializado en expertos específicos para cada instrumento.

Tobias Morocutti, Emmanouil Karystinaios, Jonathan Greif + 1 more2026-03-05🤖 cs.LG