Towards Lightweight Adaptation of Speech Enhancement Models in Real-World Environments

Este trabajo propone un marco de adaptación ligero que, mediante el uso de adaptadores de bajo rango actualizados con aprendizaje auto-supervisado sobre una base congelada, mejora la robustez de los modelos de mejora de voz en entornos acústicos dinámicos con menos del 1% de parámetros actualizados y una rápida convergencia, facilitando su implementación en dispositivos.

Longbiao Cheng, Shih-Chii LiuTue, 10 Ma🤖 cs.LG

Evaluating Parkinson's Disease Detection in Anonymized Speech: A Performance and Acoustic Analysis

Este estudio demuestra que es viable detectar la enfermedad de Parkinson en habla anonimizada preservando la información patológica mediante el uso de kNN-VC, el cual mantiene características macroprosódicas clave y logra puntuaciones F1 cercanas a las del habla original, a diferencia de los sistemas STT-TTS que eliminan dicha información al priorizar la privacidad.

Carlos Franzreb, Francisco Teixeira, Ben Luks, Sebastian Möller, Alberto AbadTue, 10 Ma💻 cs

Targeted Speaker Poisoning Framework in Zero-Shot Text-to-Speech

Este trabajo introduce un marco de envenenamiento de hablantes dirigido para modelos de texto a voz de cero disparos, formalizando el problema de la supresión de identidades específicas y evaluando su eficacia en términos de equilibrio entre privacidad y utilidad, demostrando resultados sólidos hasta 15 hablantes pero limitaciones de escalabilidad a 100 debido al solapamiento de identidades.

Thanapat Trachu, Thanathai Lertpetchpun, Sai Praneeth Karimireddy, Shrikanth NarayananTue, 10 Ma💻 cs

Nw\=ach\=a Mun\=a: A Devanagari Speech Corpus and Proximal Transfer Benchmark for Nepal Bhasha ASR

Este trabajo presenta Nwāchā Munā, un corpus de voz en devanagari de 5,39 horas para el nepalí (Newari), y demuestra que la transferencia proximal desde el nepalí es una alternativa computacionalmente eficiente a los modelos multilingües masivos para el reconocimiento automático de voz en esta lengua en peligro.

Rishikesh Kumar Sharma, Safal Narshing Shrestha, Jenny Poudel, Rupak Tiwari, Arju Shrestha, Rupak Raj Ghimire, Bal Krishna BalTue, 10 Ma💬 cs.CL

Unsupervised Domain Adaptation for Audio Deepfake Detection with Modular Statistical Transformations

Este artículo presenta una tubería modular de adaptación de dominio no supervisada que combina transformaciones estadísticas y alineación de covarianza (CORAL) sobre embeddings de Wav2Vec 2.0 para mejorar la generalización cruzada en la detección de deepfakes de audio sin datos etiquetados del objetivo, logrando un aumento del 10,7% en la precisión frente a la línea base.

Urawee Thani, Gagandeep Singh, Priyanka SinghTue, 10 Ma💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

Este artículo presenta MambaDance, un nuevo enfoque de generación de danza que sustituye a los transformadores por un modelo de difusión basado en Mamba e incorpora una representación de ritmo basada en Gaussianas para producir movimientos sincronizados con la música que capturan eficazmente las características secuenciales y rítmicas del baile.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon JooTue, 10 Ma💻 cs

WhispEar: A Bi-directional Framework for Scaling Whispered Speech Conversion via Pseudo-Parallel Whisper Generation

El artículo presenta WhispEar, un marco bidireccional que utiliza la generación de susurros pseudo-paralelos a partir de habla normal para escalar la conversión de susurros a habla normal, superando las limitaciones de datos y logrando un rendimiento superior en un corpus bilingüe recién creado.

Zihao Fang, Yingda Shen, Zifan Guan, Tongtong Song, Zhenyi Liu, Zhizheng WuTue, 10 Ma💻 cs

Soundscapes in Spectrograms: Pioneering Multilabel Classification for South Asian Sounds

Este estudio presenta un método innovador basado en espectrogramas y redes neuronales convolucionales que supera a las técnicas tradicionales de coeficientes cepstrales en frecuencia mel para la clasificación multietiqueta de sonidos ambientales en entornos complejos de Asia del Sur, demostrando su superioridad mediante validación en los conjuntos de datos SAS-KIIT y UrbanSound8K.

Sudip Chakrabarty, Pappu Bishwas, Rajdeep Chatterjee, Tathagata Bandyopadhyay, Digonto Biswas, Bibek HowladerTue, 10 Ma💻 cs

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

Este trabajo presenta un marco innovador para el reconocimiento de emociones ambiguas en modelos grandes de audio-idioma, reformulando la tarea como un problema de razonamiento distribucional mediante un objetivo consciente de la ambigüedad y una supervisión estructurada de pensamiento en cadena que alinea las predicciones con las distribuciones perceptuales humanas.

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting DangTue, 10 Ma💻 cs

Robust Audio-Visual Target Speaker Extraction with Emotion-Aware Multiple Enrollment Fusion

Este artículo presenta un método robusto para la extracción de hablantes objetivo audio-visuales que, mediante el entrenamiento con altas tasas de ausencia de modalidades, mantiene un rendimiento estable al fusionar características de labios y una única imagen facial incluso ante la pérdida intermitente de señales en escenarios reales.

Zhan Jin, Bang Zeng, Peijun Yang, Jiarong Du, Wei Ju, Yao Tian, Juan Liu, Ming LiThu, 12 Ma⚡ eess