Relationship between objective and subjective perceptual measures of speech in individuals with head and neck cancer

Este estudio demuestra que existe una fuerte correlación entre las evaluaciones perceptuales subjetivas y las medidas acústicas objetivas de la habla en pacientes con cáncer de cabeza y cuello, sugiriendo que una única medida de inteligibilidad puede ser suficiente para el monitoreo clínico de estos pacientes.

Bence Mark Halpern, Thomas Tienkamp, Teja Rebernik + 4 more2026-03-10⚡ eess

A Large-Scale Probing Analysis of Speaker-Specific Attributes in Self-Supervised Speech Representations

Este estudio realiza un análisis de sondeo a gran escala en 11 modelos de aprendizaje auto-supervisado de habla, revelando que las capas finales de los modelos más grandes recuperan inesperadamente la identidad del hablante y que sus representaciones intermedias capturan mejor la prosodia dinámica que los embeddings especializados, desafiando así la noción de que las capas finales solo contienen contenido lingüístico abstracto.

Aemon Yat Fei Chiu, Kei Ching Fung, Roger Tsz Yeung Li + 2 more2026-03-06💻 cs

TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

Este artículo presenta TSPC, una arquitectura de dos etapas centrada en fonemas que utiliza un conjunto de fonomas vietnamitas extendido como representación intermedia para mejorar el reconocimiento de habla con cambio de código entre vietnamita e inglés, logrando una tasa de error de palabra significativamente menor que los modelos existentes incluso con recursos computacionales limitados.

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam + 1 more2026-03-06💻 cs

SAM: A Mamba-2 State-Space Audio-Language Model

El artículo presenta SAM, un modelo de audio-idioma basado en Mamba-2 que, al integrar un codificador de audio con un backprop de Mamba-2, iguala o supera el rendimiento de modelos transformadores más grandes con menos parámetros y establece principios de diseño clave sobre la importancia del ajuste fino conjunto, la densidad de información de los tokens y la supervisión de seguimiento de instrucciones.

Taehan Lee, Jaehan Jung, Hyukjun Lee2026-03-06💻 cs

Noise-to-Notes: Diffusion-based Generation and Refinement for Automatic Drum Transcription

Este trabajo presenta Noise-to-Notes (N2N), un nuevo enfoque generativo basado en difusión que redefine la transcripción automática de batería como una tarea de generación condicional, logrando un nuevo estado del arte mediante el uso de una pérdida pseudo-Huber recocida para la optimización conjunta y la integración de características de modelos fundacionales de música para mejorar la robustez.

Michael Yeung, Keisuke Toyama, Toya Teramoto + 2 more2026-03-06💻 cs

Temporal Pooling Strategies for Training-Free Anomalous Sound Detection with Self-Supervised Audio Embeddings

Este artículo presenta una evaluación sistemática de estrategias de agrupamiento temporal para la detección de sonidos anómalos sin entrenamiento, proponiendo el agrupamiento por desviación relativa (RDP) y una estrategia híbrida que superan el rendimiento de los métodos existentes y alcanzan el estado del arte en múltiples conjuntos de datos de referencia.

Kevin Wilkinghoff, Sarthak Yadav, Zheng-Hua Tan2026-03-06💻 cs

When Denoising Hinders: Revisiting Zero-Shot ASR with SAM-Audio and Whisper

Este estudio demuestra que, contrariamente a la intuición común, utilizar el modelo de mejora de audio SAM-Audio como paso previo en sistemas de reconocimiento de voz cero-shot con Whisper degrada sistemáticamente la precisión de la transcripción en lugar de mejorarla, revelando una desconexión fundamental entre la calidad acústica perceptual y la robustez para el reconocimiento automático.

Akif Islam, Raufun Nahar, Md. Ekramul Hamid2026-03-06💻 cs

WhisperAlign: Word-Boundary-Aware ASR and WhisperX-Anchored Pyannote Diarization for Long-Form Bengali Speech

Este artículo presenta la solución WhisperAlign para el DL Sprint 4.0, que aborda el reconocimiento de voz y la diarización en audio largo en bengalí mediante una estrategia de fragmentación basada en WhisperX y el ajuste fino específico del dominio del modelo de segmentación de Pyannote para mejorar la precisión en entornos de bajos recursos.

Aurchi Chowdhury, Rubaiyat -E-Zaman, Sk. Ashrafuzzaman Nafees2026-03-06💻 cs

Focus Then Listen: Exploring Plug-and-Play Audio Enhancer for Noise-Robust Large Audio Language Models

El artículo presenta Focus-Then-Listen (FTL), un potenciador de audio plug-and-play que mejora la robustez al ruido de los grandes modelos de lenguaje de audio separando la señal, seleccionando el modo objetivo según la instrucción del usuario y fusionando la información para optimizar la percepción y el razonamiento sin necesidad de reentrenamiento.

Han Yin, Yang Xiao, Younghoo Kwon + 2 more2026-03-06💻 cs