eess.AS artículos | Gist.Science

SEMamba++: A General Speech Restoration Framework Leveraging Global, Local, and Periodic Spectral Patterns

El artículo presenta SEMamba++, un marco general de restauración de voz que mejora el estado del arte al incorporar sesgos inductivos específicos del habla, como el bloque de extracción de características de frecuencia GLP y un bloque de procesamiento dual tiempo-frecuencia multirresolución, logrando un rendimiento superior con eficiencia computacional.

Yongjoon Lee, Jung-Woo ChoiFri, 13 Ma⚡ eess

RAF: Relativistic Adversarial Feedback For Universal Speech Synthesis

El artículo propone RAF (Retroalimentación Adversarial Relativista), un nuevo objetivo de entrenamiento para vocoders GAN que mejora la fidelidad y la generalización al utilizar modelos de aprendizaje auto-supervisado y emparejamiento relativista, logrando una calidad perceptual superior con BigVGAN-base usando solo el 12% de los parámetros en comparación con LSGAN.

Yongjoon Lee, Jung-Woo ChoiFri, 13 Ma⚡ eess

Affect Decoding in Phonated and Silent Speech Production from Surface EMG

Este estudio presenta un nuevo conjunto de datos y demuestra que la electromiografía de superficie (sEMG) puede decodificar con fiabilidad la frustración tanto en el habla fonada como en la silenciosa, revelando que las señales afectivas persisten en la actividad motora facial incluso sin vocalización.

Simon Pistrosch, Kleanthis Avramidis, Tiantian Feng, Jihwan Lee, Monica Gonzalez-Machorro, Shrikanth Narayanan, Björn W. SchullerFri, 13 Ma⚡ eess

ReDimNet2: Scaling Speaker Verification via Time-Pooled Dimension Reshaping

El artículo presenta ReDimNet2, una arquitectura neuronal mejorada para la verificación de hablantes que introduce un agrupamiento temporal en su vía de procesamiento 1D para permitir una escalabilidad más agresiva de la dimensión de canales sin aumentar proporcionalmente el coste computacional, logrando así un rendimiento superior en las pruebas de VoxCeleb1 en comparación con su predecesora.

Ivan Yakovlev, Anton OkhotnikovFri, 13 Ma⚡ eess

Acoustic-to-Articulatory Inversion of Clean Speech Using an MRI-Trained Model

Este estudio demuestra que es posible realizar una inversión acústico-articulatoria efectiva utilizando únicamente habla grabada en un entorno acústico limpio, logrando un rendimiento (RMSE de 1.56 mm) comparable al de los modelos entrenados con datos de resonancia magnética nuclear (MRI) denoised.

Sofiane Azzouz, Pierre-André Vuissoz, Yves LaprieFri, 13 Ma⚡ eess

Reconstruction of the Vocal Tract from Speech via Phonetic Representations Using MRI Data

Este estudio compara cómo diferentes niveles de precisión en la segmentación fonética, desde transcripciones automáticas hasta correcciones manuales, influyen en la reconstrucción de la geometría del tracto vocal a partir de señales de voz, demostrando que la corrección manual posterior al alineamiento ofrece el mejor rendimiento, acercándose al de la línea base basada en coeficientes cepstrales.

Sofiane Azzouz, Pierre-André Vuissoz, Yves LaprieFri, 13 Ma⚡ eess

Silent Speech Interfaces in the Era of Large Language Models: A Comprehensive Taxonomy and Systematic Review

Esta revisión exhaustiva presenta una taxonomía holística de las Interfaces de Habla Silenciosa (SSI) que, al integrar sensores multimodales con modelos de lenguaje grandes, supera las limitaciones tradicionales de ruido y privacidad para alcanzar la viabilidad en dispositivos portátiles, abordando simultáneamente los desafíos de la dependencia del usuario y la seguridad neurológica.

Kele Xu, Yifan Wang, Ming Feng, Qisheng Xu, Wuyang Chen, Yutao Dou, Cheng Yang, Huaimin WangFri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Este trabajo propone un protocolo de ajuste fino mejorado con paralingüística (PE-FT) que, mediante análisis de capas y componentes específicos, capacita a los Modelos de Lenguaje Audio Grandes (LALMs) para reconocer y responder a las señales paralingüísticas, superando así las estrategias de ajuste fino tradicionales centradas únicamente en el contenido.

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition

El artículo presenta Dr. SHAP-AV, un marco basado en valores de Shapley que analiza las contribuciones de las modalidades en la reconocimiento de habla audiovisual, revelando un sesgo persistente hacia el audio y proponiendo la atribución de Shapley como un estándar diagnóstico para entender el equilibrio modal bajo ruido.

Umberto Cappellazzo, Stavros Petridis, Maja PanticFri, 13 Ma⚡ eess

Controllable Dance Generation with Style-Guided Motion Diffusion

El artículo presenta SGMD, un modelo de difusión de movimiento guiado por estilo que integra características musicales y prompts de estilo para generar secuencias de danza realistas, coherentes y controlables mediante mecanismos de enmascaramiento espacio-temporal.

Hongsong Wang, Ying Zhu, Xin Geng + 1 more2026-03-11⚡ eess

ExSampling: a system for the real-time ensemble performance of field-recorded environmental sounds

El artículo presenta ExSampling, un sistema integrado que utiliza aprendizaje profundo para mapear automáticamente grabaciones de campo a pistas de Ableton Live, permitiendo la interpretación musical en tiempo real y la interacción entre grabadores, compositores y músicos.

Atsuya Kobayashi, Reo Anzai, Nao Tokui2026-03-10⚡ eess

Relationship between objective and subjective perceptual measures of speech in individuals with head and neck cancer

Este estudio demuestra que existe una fuerte correlación entre las evaluaciones perceptuales subjetivas y las medidas acústicas objetivas de la habla en pacientes con cáncer de cabeza y cuello, sugiriendo que una única medida de inteligibilidad puede ser suficiente para el monitoreo clínico de estos pacientes.

Bence Mark Halpern, Thomas Tienkamp, Teja Rebernik + 4 more2026-03-10⚡ eess

A Large-Scale Probing Analysis of Speaker-Specific Attributes in Self-Supervised Speech Representations

Este estudio realiza un análisis de sondeo a gran escala en 11 modelos de aprendizaje auto-supervisado de habla, revelando que las capas finales de los modelos más grandes recuperan inesperadamente la identidad del hablante y que sus representaciones intermedias capturan mejor la prosodia dinámica que los embeddings especializados, desafiando así la noción de que las capas finales solo contienen contenido lingüístico abstracto.

Aemon Yat Fei Chiu, Kei Ching Fung, Roger Tsz Yeung Li + 2 more2026-03-06💻 cs

TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

Este artículo presenta TSPC, una arquitectura de dos etapas centrada en fonemas que utiliza un conjunto de fonomas vietnamitas extendido como representación intermedia para mejorar el reconocimiento de habla con cambio de código entre vietnamita e inglés, logrando una tasa de error de palabra significativamente menor que los modelos existentes incluso con recursos computacionales limitados.

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam + 1 more2026-03-06💻 cs

BabyHuBERT: Multilingual Self-Supervised Learning for Segmenting Speakers in Child-Centered Long-Form Recordings

El artículo presenta BabyHuBERT, un modelo de aprendizaje auto-supervisado entrenado con 13.000 horas de grabaciones multilingües de niños que supera a los modelos existentes en la clasificación de tipos de voz en contextos de desarrollo lingüístico infantil, especialmente en lenguas subrepresentadas.

Théo Charlot, Tarek Kunze, Maxime Poli + 3 more2026-03-06💻 cs

SAM: A Mamba-2 State-Space Audio-Language Model

El artículo presenta SAM, un modelo de audio-idioma basado en Mamba-2 que, al integrar un codificador de audio con un backprop de Mamba-2, iguala o supera el rendimiento de modelos transformadores más grandes con menos parámetros y establece principios de diseño clave sobre la importancia del ajuste fino conjunto, la densidad de información de los tokens y la supervisión de seguimiento de instrucciones.

Taehan Lee, Jaehan Jung, Hyukjun Lee2026-03-06💻 cs

Conversational Speech Reveals Structural Robustness Failures in SpeechLLM Backbones

El estudio revela que los modelos de lenguaje en SpeechLLMs presentan fallos de robustez estructural al procesar el habla conversacional, mostrando una tendencia a la sobreeliminación de contenido fluido y una generalización limitada tras el ajuste fino, lo que demuestra que la capacidad de manejar el habla depende de objetivos de entrenamiento específicos.

Maria Teleki, Sai Janjur, Haoran Liu + 11 more2026-03-06💻 cs

Noise-to-Notes: Diffusion-based Generation and Refinement for Automatic Drum Transcription

Este trabajo presenta Noise-to-Notes (N2N), un nuevo enfoque generativo basado en difusión que redefine la transcripción automática de batería como una tarea de generación condicional, logrando un nuevo estado del arte mediante el uso de una pérdida pseudo-Huber recocida para la optimización conjunta y la integración de características de modelos fundacionales de música para mejorar la robustez.

Michael Yeung, Keisuke Toyama, Toya Teramoto + 2 more2026-03-06💻 cs

Schrödinger Bridge Mamba for One-Step Speech Enhancement

El artículo presenta Schrödinger Bridge Mamba (SBM), un modelo innovador que combina el paradigma de puente de Schrödinger con la arquitectura Mamba para lograr una mejora de voz de alta calidad en un solo paso de inferencia, superando a los métodos existentes en tareas de eliminación de ruido y reverberación con alta eficiencia en tiempo real.

Jing Yang, Sirui Wang, Chao Wu + 2 more2026-03-06💻 cs

Multi-Loss Learning for Speech Emotion Recognition with Energy-Adaptive Mixup and Frame-Level Attention

Este artículo propone un marco de aprendizaje multi-pérdida que integra una mezcla adaptativa a la energía y un módulo de atención a nivel de cuadro para mejorar el reconocimiento de emociones en el habla, logrando un rendimiento superior en cuatro conjuntos de datos estándar.

Cong Wang, Yizhong Geng, Yuhua Wen + 7 more2026-03-06💻 cs

← Anterior Siguiente →