cs.SD artículos | Gist.Science

Towards Lightweight Adaptation of Speech Enhancement Models in Real-World Environments

Este trabajo propone un marco de adaptación ligero que, mediante el uso de adaptadores de bajo rango actualizados con aprendizaje auto-supervisado sobre una base congelada, mejora la robustez de los modelos de mejora de voz en entornos acústicos dinámicos con menos del 1% de parámetros actualizados y una rápida convergencia, facilitando su implementación en dispositivos.

Longbiao Cheng, Shih-Chii LiuTue, 10 Ma🤖 cs.LG

Evaluating Parkinson's Disease Detection in Anonymized Speech: A Performance and Acoustic Analysis

Este estudio demuestra que es viable detectar la enfermedad de Parkinson en habla anonimizada preservando la información patológica mediante el uso de kNN-VC, el cual mantiene características macroprosódicas clave y logra puntuaciones F1 cercanas a las del habla original, a diferencia de los sistemas STT-TTS que eliminan dicha información al priorizar la privacidad.

Carlos Franzreb, Francisco Teixeira, Ben Luks, Sebastian Möller, Alberto AbadTue, 10 Ma💻 cs

Targeted Speaker Poisoning Framework in Zero-Shot Text-to-Speech

Este trabajo introduce un marco de envenenamiento de hablantes dirigido para modelos de texto a voz de cero disparos, formalizando el problema de la supresión de identidades específicas y evaluando su eficacia en términos de equilibrio entre privacidad y utilidad, demostrando resultados sólidos hasta 15 hablantes pero limitaciones de escalabilidad a 100 debido al solapamiento de identidades.

Thanapat Trachu, Thanathai Lertpetchpun, Sai Praneeth Karimireddy, Shrikanth NarayananTue, 10 Ma💻 cs

Nw\=ach\=a Mun\=a: A Devanagari Speech Corpus and Proximal Transfer Benchmark for Nepal Bhasha ASR

Este trabajo presenta Nwāchā Munā, un corpus de voz en devanagari de 5,39 horas para el nepalí (Newari), y demuestra que la transferencia proximal desde el nepalí es una alternativa computacionalmente eficiente a los modelos multilingües masivos para el reconocimiento automático de voz en esta lengua en peligro.

Rishikesh Kumar Sharma, Safal Narshing Shrestha, Jenny Poudel, Rupak Tiwari, Arju Shrestha, Rupak Raj Ghimire, Bal Krishna BalTue, 10 Ma💬 cs.CL

Analysis-Driven Procedural Generation of an Engine Sound Dataset with Embedded Control Annotations

Este artículo presenta un marco de generación procedural de audio de motores que extrae estructuras armónicas de grabaciones reales para sintetizar un nuevo conjunto de datos de 19 horas con anotaciones precisas de RPM y par de torsión, validado para su uso en investigación de modelado acústico y síntesis basada en aprendizaje.

Robin Doerfler, Lonce WyseTue, 10 Ma🤖 cs.LG

VoiceSHIELD-Small: Real-Time Malicious Speech Detection and Transcription

El artículo presenta VoiceSHIELD-Small, un modelo ligero y de tiempo real basado en Whisper-small que transcribe y detecta simultáneamente comandos de voz maliciosos con una precisión del 99,16%, ofreciendo una solución eficiente para la seguridad en interfaces de voz.

Sumit Ranjan, Sugandha Sharma, Ubaid Abbas, Puneeth N AilTue, 10 Ma💻 cs

SoundWeaver: Semantic Warm-Starting for Text-to-Audio Diffusion Serving

SoundWeaver es un sistema de servicio sin entrenamiento y agnóstico al modelo que acelera la generación de audio texto-audio mediante el inicio en caliente con audio semánticamente similar almacenado en caché, logrando una reducción de latencia de 1,8 a 3,0 veces sin comprometer la calidad perceptual.

Ayush Barik, Sofia Stoica, Nikhil Sarda, Arnav Kethana, Abhinav Khanduja, Muchen Xu, Fan LaiTue, 10 Ma💻 cs

Unsupervised Domain Adaptation for Audio Deepfake Detection with Modular Statistical Transformations

Este artículo presenta una tubería modular de adaptación de dominio no supervisada que combina transformaciones estadísticas y alineación de covarianza (CORAL) sobre embeddings de Wav2Vec 2.0 para mejorar la generalización cruzada en la detección de deepfakes de audio sin datos etiquetados del objetivo, logrando un aumento del 10,7% en la precisión frente a la línea base.

Urawee Thani, Gagandeep Singh, Priyanka SinghTue, 10 Ma💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

Este artículo presenta MambaDance, un nuevo enfoque de generación de danza que sustituye a los transformadores por un modelo de difusión basado en Mamba e incorpora una representación de ritmo basada en Gaussianas para producir movimientos sincronizados con la música que capturan eficazmente las características secuenciales y rítmicas del baile.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon JooTue, 10 Ma💻 cs

WhispEar: A Bi-directional Framework for Scaling Whispered Speech Conversion via Pseudo-Parallel Whisper Generation

El artículo presenta WhispEar, un marco bidireccional que utiliza la generación de susurros pseudo-paralelos a partir de habla normal para escalar la conversión de susurros a habla normal, superando las limitaciones de datos y logrando un rendimiento superior en un corpus bilingüe recién creado.

Zihao Fang, Yingda Shen, Zifan Guan, Tongtong Song, Zhenyi Liu, Zhizheng WuTue, 10 Ma💻 cs

PathBench: Speech Intelligibility Benchmark for Automatic Pathological Speech Assessment

El artículo presenta PathBench, un nuevo benchmark unificado que utiliza conjuntos de datos públicos para evaluar sistemáticamente la inteligibilidad del habla patológica mediante múltiples protocolos y métodos, destacando la propuesta DArtP como la técnica de referencia libre con mayor correlación.

Bence Mark Halpern, Thomas Tienkamp, Defne Abur, Tomoki TodaTue, 10 Ma💻 cs

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

El artículo presenta FoleyFlow, un método que mejora la generación coordinada de audio a partir de video mediante un entrenamiento de alineación multimodal enmascarada y un flujo condicional dinámico, logrando una sincronización semántica y rítmica superior a las técnicas anteriores.

Shentong Mo, Yibing SongTue, 10 Ma🤖 cs.LG

Soundscapes in Spectrograms: Pioneering Multilabel Classification for South Asian Sounds

Este estudio presenta un método innovador basado en espectrogramas y redes neuronales convolucionales que supera a las técnicas tradicionales de coeficientes cepstrales en frecuencia mel para la clasificación multietiqueta de sonidos ambientales en entornos complejos de Asia del Sur, demostrando su superioridad mediante validación en los conjuntos de datos SAS-KIIT y UrbanSound8K.

Sudip Chakrabarty, Pappu Bishwas, Rajdeep Chatterjee, Tathagata Bandyopadhyay, Digonto Biswas, Bibek HowladerTue, 10 Ma💻 cs

Evolution Strategy-Based Calibration for Low-Bit Quantization of Speech Models

El artículo presenta ESC, un método de calibración basado en estrategias evolutivas que optimiza la escala de las activaciones para lograr una cuantización casi sin pérdida en modelos de voz de 4 y 8 bits, superando las limitaciones de las técnicas estándar diseñadas para visión y procesamiento de lenguaje natural.

Lucas RakotoarivonyTue, 10 Ma💻 cs

DualTurn: Learning Turn-Taking from Dual-Channel Generative Speech Pretraining

El modelo DualTurn cierra la brecha entre los sistemas de voz naturales y las capacidades de razonamiento mediante un preentrenamiento generativo en audio de doble canal que aprende dinámicas conversacionales implícitas para predecir turnos de habla y acciones de agente con mayor precisión y anticipación que los enfoques anteriores.

Shangeth RajaaTue, 10 Ma💬 cs.CL

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

Este trabajo presenta un marco innovador para el reconocimiento de emociones ambiguas en modelos grandes de audio-idioma, reformulando la tarea como un problema de razonamiento distribucional mediante un objetivo consciente de la ambigüedad y una supervisión estructurada de pensamiento en cadena que alinea las predicciones con las distribuciones perceptuales humanas.

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting DangTue, 10 Ma💻 cs

Scalable Neural Vocoder from Range-Null Space Decomposition

Este artículo presenta RNDVoC, un nuevo vocorador neuronal escalable en el dominio tiempo-frecuencia que integra la descomposición rango-nulo con una arquitectura de doble vía para lograr un rendimiento de vanguardia, una estructura ligera y una adaptación flexible a diferentes configuraciones mediante aumento de datos.

Andong Li, Tong Lei, Zhihang Sun, Rilin Chen, Xiaodong Li, Dong Yu, Chengshi ZhengTue, 10 Ma💻 cs

Benchmarking Language Modeling for Lossless Compression of Full-Fidelity Audio

El artículo presenta Trilobyte, un esquema de tokenización a nivel de byte que hace viable la compresión sin pérdidas de audio de 24 bits mediante modelos de lenguaje autoregresivos, demostrando que, aunque superan a FLAC en audio de 8 y 16 bits, sus ventajas de compresión se vuelven más modestas a medida que aumenta la profundidad de bits.

Phillip Long, Zachary Novack, Chris DonahueTue, 10 Ma🤖 cs.LG

Are Deep Speech Denoising Models Robust to Adversarial Noise?

El estudio demuestra que cuatro modelos recientes de supresión de ruido profundo pueden ser engañados mediante ruido adversario psicoacústicamente oculto para generar salida ininteligible, revelando vulnerabilidades críticas que requieren contramedidas antes de su uso en aplicaciones de seguridad.

Will Schwarzer, Neel Chaudhari, Philip S. Thomas, Andrea Fanelli, Xiaoyu LiuThu, 12 Ma⚡ eess

Robust Audio-Visual Target Speaker Extraction with Emotion-Aware Multiple Enrollment Fusion

Este artículo presenta un método robusto para la extracción de hablantes objetivo audio-visuales que, mediante el entrenamiento con altas tasas de ausencia de modalidades, mantiene un rendimiento estable al fusionar características de labios y una única imagen facial incluso ante la pérdida intermitente de señales en escenarios reales.

Zhan Jin, Bang Zeng, Peijun Yang, Jiarong Du, Wei Ju, Yao Tian, Juan Liu, Ming LiThu, 12 Ma⚡ eess

← Anterior Siguiente →