SEMamba++: A General Speech Restoration Framework Leveraging Global, Local, and Periodic Spectral Patterns

El artículo presenta SEMamba++, un marco general de restauración de voz que mejora el estado del arte al incorporar sesgos inductivos específicos del habla, como el bloque de extracción de características de frecuencia GLP y un bloque de procesamiento dual tiempo-frecuencia multirresolución, logrando un rendimiento superior con eficiencia computacional.

Yongjoon Lee, Jung-Woo ChoiFri, 13 Ma⚡ eess

Affect Decoding in Phonated and Silent Speech Production from Surface EMG

Este estudio presenta un nuevo conjunto de datos y demuestra que la electromiografía de superficie (sEMG) puede decodificar con fiabilidad la frustración tanto en el habla fonada como en la silenciosa, revelando que las señales afectivas persisten en la actividad motora facial incluso sin vocalización.

Simon Pistrosch, Kleanthis Avramidis, Tiantian Feng, Jihwan Lee, Monica Gonzalez-Machorro, Shrikanth Narayanan, Björn W. SchullerFri, 13 Ma⚡ eess

ReDimNet2: Scaling Speaker Verification via Time-Pooled Dimension Reshaping

El artículo presenta ReDimNet2, una arquitectura neuronal mejorada para la verificación de hablantes que introduce un agrupamiento temporal en su vía de procesamiento 1D para permitir una escalabilidad más agresiva de la dimensión de canales sin aumentar proporcionalmente el coste computacional, logrando así un rendimiento superior en las pruebas de VoxCeleb1 en comparación con su predecesora.

Ivan Yakovlev, Anton OkhotnikovFri, 13 Ma⚡ eess

Reconstruction of the Vocal Tract from Speech via Phonetic Representations Using MRI Data

Este estudio compara cómo diferentes niveles de precisión en la segmentación fonética, desde transcripciones automáticas hasta correcciones manuales, influyen en la reconstrucción de la geometría del tracto vocal a partir de señales de voz, demostrando que la corrección manual posterior al alineamiento ofrece el mejor rendimiento, acercándose al de la línea base basada en coeficientes cepstrales.

Sofiane Azzouz, Pierre-André Vuissoz, Yves LaprieFri, 13 Ma⚡ eess

Silent Speech Interfaces in the Era of Large Language Models: A Comprehensive Taxonomy and Systematic Review

Esta revisión exhaustiva presenta una taxonomía holística de las Interfaces de Habla Silenciosa (SSI) que, al integrar sensores multimodales con modelos de lenguaje grandes, supera las limitaciones tradicionales de ruido y privacidad para alcanzar la viabilidad en dispositivos portátiles, abordando simultáneamente los desafíos de la dependencia del usuario y la seguridad neurológica.

Kele Xu, Yifan Wang, Ming Feng, Qisheng Xu, Wuyang Chen, Yutao Dou, Cheng Yang, Huaimin WangFri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Este trabajo propone un protocolo de ajuste fino mejorado con paralingüística (PE-FT) que, mediante análisis de capas y componentes específicos, capacita a los Modelos de Lenguaje Audio Grandes (LALMs) para reconocer y responder a las señales paralingüísticas, superando así las estrategias de ajuste fino tradicionales centradas únicamente en el contenido.

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition

El artículo presenta Dr. SHAP-AV, un marco basado en valores de Shapley que analiza las contribuciones de las modalidades en la reconocimiento de habla audiovisual, revelando un sesgo persistente hacia el audio y proponiendo la atribución de Shapley como un estándar diagnóstico para entender el equilibrio modal bajo ruido.

Umberto Cappellazzo, Stavros Petridis, Maja PanticFri, 13 Ma⚡ eess

Relationship between objective and subjective perceptual measures of speech in individuals with head and neck cancer

Este estudio demuestra que existe una fuerte correlación entre las evaluaciones perceptuales subjetivas y las medidas acústicas objetivas de la habla en pacientes con cáncer de cabeza y cuello, sugiriendo que una única medida de inteligibilidad puede ser suficiente para el monitoreo clínico de estos pacientes.

Bence Mark Halpern, Thomas Tienkamp, Teja Rebernik + 4 more2026-03-10⚡ eess

A Large-Scale Probing Analysis of Speaker-Specific Attributes in Self-Supervised Speech Representations

Este estudio realiza un análisis de sondeo a gran escala en 11 modelos de aprendizaje auto-supervisado de habla, revelando que las capas finales de los modelos más grandes recuperan inesperadamente la identidad del hablante y que sus representaciones intermedias capturan mejor la prosodia dinámica que los embeddings especializados, desafiando así la noción de que las capas finales solo contienen contenido lingüístico abstracto.

Aemon Yat Fei Chiu, Kei Ching Fung, Roger Tsz Yeung Li + 2 more2026-03-06💻 cs

TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

Este artículo presenta TSPC, una arquitectura de dos etapas centrada en fonemas que utiliza un conjunto de fonomas vietnamitas extendido como representación intermedia para mejorar el reconocimiento de habla con cambio de código entre vietnamita e inglés, logrando una tasa de error de palabra significativamente menor que los modelos existentes incluso con recursos computacionales limitados.

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam + 1 more2026-03-06💻 cs

SAM: A Mamba-2 State-Space Audio-Language Model

El artículo presenta SAM, un modelo de audio-idioma basado en Mamba-2 que, al integrar un codificador de audio con un backprop de Mamba-2, iguala o supera el rendimiento de modelos transformadores más grandes con menos parámetros y establece principios de diseño clave sobre la importancia del ajuste fino conjunto, la densidad de información de los tokens y la supervisión de seguimiento de instrucciones.

Taehan Lee, Jaehan Jung, Hyukjun Lee2026-03-06💻 cs

Conversational Speech Reveals Structural Robustness Failures in SpeechLLM Backbones

El estudio revela que los modelos de lenguaje en SpeechLLMs presentan fallos de robustez estructural al procesar el habla conversacional, mostrando una tendencia a la sobreeliminación de contenido fluido y una generalización limitada tras el ajuste fino, lo que demuestra que la capacidad de manejar el habla depende de objetivos de entrenamiento específicos.

Maria Teleki, Sai Janjur, Haoran Liu + 11 more2026-03-06💻 cs

Noise-to-Notes: Diffusion-based Generation and Refinement for Automatic Drum Transcription

Este trabajo presenta Noise-to-Notes (N2N), un nuevo enfoque generativo basado en difusión que redefine la transcripción automática de batería como una tarea de generación condicional, logrando un nuevo estado del arte mediante el uso de una pérdida pseudo-Huber recocida para la optimización conjunta y la integración de características de modelos fundacionales de música para mejorar la robustez.

Michael Yeung, Keisuke Toyama, Toya Teramoto + 2 more2026-03-06💻 cs