eess.AS artículos | Gist.Science

Acoustic and Semantic Modeling of Emotion in Spoken Language

Esta tesis propone un marco integral que modela conjuntamente la información acústica y semántica para mejorar la comprensión y síntesis de emociones en el habla, abarcando desde el aprendizaje de representaciones mediante pre-entrenamiento y el reconocimiento en conversaciones hasta la transferencia de estilo emocional sin texto.

Soumya DuttaWed, 11 Ma⚡ eess

SPAR-K: Scheduled Periodic Alternating Early Exit for Spoken Language Models

El documento presenta SPAR-K, un marco de salida temprana periódica y alterna que acelera la inferencia de modelos de lenguaje hablado intercalados reduciendo la profundidad de decodificación sin comprometer la calidad perceptual ni la precisión, demostrando además que las estrategias de salida temprana basadas en confianza son subóptimas para este tipo de modelos.

Hsiao-Ying Huang, Cheng-Han Chiang, Hung-yi LeeWed, 11 Ma💬 cs.CL

How Contrastive Decoding Enhances Large Audio Language Models?

Este estudio evalúa sistemáticamente cuatro estrategias de Decodificación Contrastiva en Modelos de Lenguaje Audio Grandes, identificando que aunque la Decodificación Consciente del Audio y la Decodificación Contrastiva de Audio son las más efectivas, su éxito depende de la arquitectura del modelo y se limita a corregir errores de ausencia de audio o conjeturas inciertas, sin poder subsanar razonamientos defectuosos o afirmaciones erróneas confiables.

Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi LeeWed, 11 Ma💬 cs.CL

StuPASE: Towards Low-Hallucination Studio-Quality Generative Speech Enhancement

El artículo presenta StuPASE, un modelo de mejora de voz generativo que combina la robustez contra alucinaciones de PASE con un módulo de flujo de coincidencia y objetivos de secuencias secas para lograr una calidad de estudio superior incluso en condiciones adversas.

Xiaobin Rong, Jun Gao, Zheng Wang, Mansur Yesilbursa, Kamil Wojcicki, Jing LuWed, 11 Ma⚡ eess

Physics-Informed Neural Engine Sound Modeling with Differentiable Pulse-Train Synthesis

El artículo presenta el modelo Pulse-Train-Resonator (PTR), una arquitectura de síntesis diferenciable que utiliza inductores físicos para generar sonidos de motor mediante trenes de pulsos y resonadores Karplus-Strong, logrando una reconstrucción armónica superior y parámetros interpretables en comparación con los métodos basales.

Robin Doerfler, Lonce WyseWed, 11 Ma🤖 cs.AI

End-to-End Direction-Aware Keyword Spotting with Spatial Priors in Noisy Environments

Este artículo presenta un marco de detección de palabras clave (KWS) de extremo a extremo y multicanal que integra un codificador espacial y priores direccionales para lograr una mayor robustez ante el ruido y superar las limitaciones de los sistemas convencionales en entornos acústicos complejos.

Rui Wang, Zhifei Zhang, Yu Gao, Xiaofeng Mou, Yi XuWed, 11 Ma⚡ eess

A Fast Solver for Interpolating Stochastic Differential Equation Diffusion Models for Speech Restoration

Este trabajo presenta un formalismo de ecuaciones diferenciales estocásticas de interpolación (iSDE) y un solucionador rápido que permite la restauración de voz con tan solo 10 evaluaciones de red neuronal, superando las limitaciones de muestreo lento de modelos como SGMSE+.

Bunlong Lay, Timo GerkmannWed, 11 Ma⚡ eess

Speech-Omni-Lite: Portable Speech Interfaces for Vision-Language Models

Este trabajo presenta Speech-Omni-Lite, un marco eficiente en costos que extiende modelos de visión y lenguaje preentrenados con capacidades de comprensión y generación de voz mediante módulos ligeros y congelados, logrando un rendimiento comparable a los modelos omni a gran escala utilizando datos de entrenamiento significativamente menores.

Dehua Tao, Xuan Luo, Daxin Tan, Kai Chen, Lanqing Hong, Jing Li, Ruifeng Xu, Xiao ChenWed, 11 Ma⚡ eess

Finetuning a Text-to-Audio Model for Room Impulse Response Generation

Este artículo presenta un enfoque novedoso para la generación de respuestas al impulso de sala (RIR) mediante el ajuste fino de un modelo preentrenado de texto a audio, utilizando descripciones acústicas extraídas por modelos de visión-lingüística para superar la escasez de datos y demostrar su eficacia en la simulación acústica y la augmentación de datos de voz.

Kirak Kim, Sungyoung KimWed, 11 Ma⚡ eess

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

El paper introduce MUGEN, un benchmark integral que revela las limitaciones actuales de los modelos de audio-idioma en la comprensión de múltiples audios simultáneos y demuestra que estrategias de inferencia sin entrenamiento, como la autoconsistencia permutacional y el razonamiento en cadena, mejoran significativamente su rendimiento.

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi LeeWed, 11 Ma🤖 cs.AI

A Semi-spontaneous Dutch Speech Dataset for Speech Enhancement and Speech Recognition

Este trabajo presenta DRES, un conjunto de datos de habla realista en neerlandés grabado en entornos ruidosos, y demuestra que, a pesar del buen rendimiento de varios modelos de reconocimiento automático del habla en estas condiciones, la aplicación de algoritmos de mejora de habla de un solo canal no mejora significativamente su precisión.

Dimme de Groot, Yuanyuan Zhang, Jorge Martinez, Odette ScharenborgWed, 11 Ma⚡ eess

Distributed Multichannel Wiener Filtering for Wireless Acoustic Sensor Networks

Este artículo propone el filtro de Wiener multicanal distribuido (dMWF), un algoritmo no iterativo y óptimo para redes de sensores acústicos inalámbricos que supera las limitaciones de convergencia y los supuestos de fuentes comunes de métodos existentes como DANSE, logrando un rendimiento equivalente al de un sistema centralizado con menor uso de ancho de banda.

Paul Didier, Toon van Waterschoot, Simon Doclo, Jörg Bitzer, Pourya Behmandpoor, Henri Gode, Marc MoonenWed, 11 Ma⚡ eess

Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis

Este trabajo presenta el Sistema de Análisis Multimodal de Video Laringoscópico (MLVAS), una herramienta innovadora que combina datos de audio y video mediante detección de glotis, refinamiento de segmentación basado en difusión y extracción de características acústicas y visuales para asistir en el diagnóstico objetivo y automatizado de la parálisis de las cuerdas vocales.

Yucong Zhang, Xin Zou, Jinshan Yang, Wenjun Chen, Juan Liu, Faya Liang, Ming LiTue, 10 Ma💻 cs

ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance

El artículo presenta ExpGest, un marco innovador basado en modelos de difusión que utiliza información sincronizada de audio y texto para generar gestos corporales completos, expresivos y controlables, superando las limitaciones de rigidez y falta de contenido semántico de los métodos existentes.

Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei LiuTue, 10 Ma💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Este trabajo presenta la Tarea 5 del Desafío DCASE 2025, un nuevo benchmark de respuesta a preguntas sobre audio que abarca múltiples dominios acústicos para evaluar y mejorar las capacidades de razonamiento de los modelos de audio-lenguaje.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

Este artículo presenta BemaGANv2, un vocador basado en GAN optimizado para la generación de audio de larga duración que introduce innovaciones arquitectónicas como el módulo AMP y el Discriminador de Sobres Multi-Envolvente (MED), evaluando sistemáticamente diversas estrategias de combinación de discriminadores para mejorar la coherencia temporal y la fidelidad del audio.

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul KwonTue, 10 Ma🤖 cs.LG

WaLi: Can Pressure Sensors in HVAC Systems Capture Human Speech?

El artículo presenta WaLi, un ataque que demuestra cómo los sensores de presión de los sistemas HVAC pueden ser explotados para reconstruir conversaciones humanas inteligibles a partir de datos ruidosos y de baja resolución mediante el uso de una red neuronal compleja, revelando así una nueva amenaza significativa para la privacidad.

Tarikul Islam Tamiti, Biraj Joshi, Rida Hasan, Anomadarshi BaruaTue, 10 Ma💻 cs

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

El artículo presenta SUBARU, un enfoque práctico que reduce el consumo energético en dispositivos auditivos mediante el muestreo sub-Nyquist y baja resolución de bits, logrando una reconstrucción de audio de banda ancha y mejora de la voz en tiempo real con una eficiencia de potencia 3,31 veces superior.

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi BaruaTue, 10 Ma💻 cs

ECHO: Frequency-aware Hierarchical Encoding for Variable-length Signals

Este trabajo presenta ECHO, un modelo fundacional de aprendizaje profundo que utiliza una arquitectura de división de bandas y embebidos posicionales de frecuencia para procesar señales de máquinas de longitud variable y tasas de muestreo arbitrarias, logrando un rendimiento superior en la detección de anomalías y clasificación de fallos industriales.

Yucong Zhang, Juan Liu, Ming LiTue, 10 Ma🤖 cs.LG

LibriTTS-VI: A Public Corpus and Novel Methods for Efficient Voice Impression Control

Este trabajo presenta LibriTTS-VI, el primer corpus público para el control de impresiones vocales numéricas, y propone métodos novedosos de entrenamiento desenredado y sin referencia que mitigan la fuga de impresiones y mejoran significativamente la precisión del control en la síntesis de voz.

Junki Ohmura, Yuki Ito, Emiru Tsunoo, Toshiyuki Sekiya, Toshiyuki KumakuraTue, 10 Ma💻 cs

← Anterior Siguiente →