SPAR-K: Scheduled Periodic Alternating Early Exit for Spoken Language Models

El documento presenta SPAR-K, un marco de salida temprana periódica y alterna que acelera la inferencia de modelos de lenguaje hablado intercalados reduciendo la profundidad de decodificación sin comprometer la calidad perceptual ni la precisión, demostrando además que las estrategias de salida temprana basadas en confianza son subóptimas para este tipo de modelos.

Hsiao-Ying Huang, Cheng-Han Chiang, Hung-yi LeeWed, 11 Ma💬 cs.CL

How Contrastive Decoding Enhances Large Audio Language Models?

Este estudio evalúa sistemáticamente cuatro estrategias de Decodificación Contrastiva en Modelos de Lenguaje Audio Grandes, identificando que aunque la Decodificación Consciente del Audio y la Decodificación Contrastiva de Audio son las más efectivas, su éxito depende de la arquitectura del modelo y se limita a corregir errores de ausencia de audio o conjeturas inciertas, sin poder subsanar razonamientos defectuosos o afirmaciones erróneas confiables.

Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi LeeWed, 11 Ma💬 cs.CL

Speech-Omni-Lite: Portable Speech Interfaces for Vision-Language Models

Este trabajo presenta Speech-Omni-Lite, un marco eficiente en costos que extiende modelos de visión y lenguaje preentrenados con capacidades de comprensión y generación de voz mediante módulos ligeros y congelados, logrando un rendimiento comparable a los modelos omni a gran escala utilizando datos de entrenamiento significativamente menores.

Dehua Tao, Xuan Luo, Daxin Tan, Kai Chen, Lanqing Hong, Jing Li, Ruifeng Xu, Xiao ChenWed, 11 Ma⚡ eess

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

El paper introduce MUGEN, un benchmark integral que revela las limitaciones actuales de los modelos de audio-idioma en la comprensión de múltiples audios simultáneos y demuestra que estrategias de inferencia sin entrenamiento, como la autoconsistencia permutacional y el razonamiento en cadena, mejoran significativamente su rendimiento.

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi LeeWed, 11 Ma🤖 cs.AI

A Semi-spontaneous Dutch Speech Dataset for Speech Enhancement and Speech Recognition

Este trabajo presenta DRES, un conjunto de datos de habla realista en neerlandés grabado en entornos ruidosos, y demuestra que, a pesar del buen rendimiento de varios modelos de reconocimiento automático del habla en estas condiciones, la aplicación de algoritmos de mejora de habla de un solo canal no mejora significativamente su precisión.

Dimme de Groot, Yuanyuan Zhang, Jorge Martinez, Odette ScharenborgWed, 11 Ma⚡ eess

Distributed Multichannel Wiener Filtering for Wireless Acoustic Sensor Networks

Este artículo propone el filtro de Wiener multicanal distribuido (dMWF), un algoritmo no iterativo y óptimo para redes de sensores acústicos inalámbricos que supera las limitaciones de convergencia y los supuestos de fuentes comunes de métodos existentes como DANSE, logrando un rendimiento equivalente al de un sistema centralizado con menor uso de ancho de banda.

Paul Didier, Toon van Waterschoot, Simon Doclo, Jörg Bitzer, Pourya Behmandpoor, Henri Gode, Marc MoonenWed, 11 Ma⚡ eess

Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis

Este trabajo presenta el Sistema de Análisis Multimodal de Video Laringoscópico (MLVAS), una herramienta innovadora que combina datos de audio y video mediante detección de glotis, refinamiento de segmentación basado en difusión y extracción de características acústicas y visuales para asistir en el diagnóstico objetivo y automatizado de la parálisis de las cuerdas vocales.

Yucong Zhang, Xin Zou, Jinshan Yang, Wenjun Chen, Juan Liu, Faya Liang, Ming LiTue, 10 Ma💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Este trabajo presenta la Tarea 5 del Desafío DCASE 2025, un nuevo benchmark de respuesta a preguntas sobre audio que abarca múltiples dominios acústicos para evaluar y mejorar las capacidades de razonamiento de los modelos de audio-lenguaje.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

Este artículo presenta BemaGANv2, un vocador basado en GAN optimizado para la generación de audio de larga duración que introduce innovaciones arquitectónicas como el módulo AMP y el Discriminador de Sobres Multi-Envolvente (MED), evaluando sistemáticamente diversas estrategias de combinación de discriminadores para mejorar la coherencia temporal y la fidelidad del audio.

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul KwonTue, 10 Ma🤖 cs.LG

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

El artículo presenta SUBARU, un enfoque práctico que reduce el consumo energético en dispositivos auditivos mediante el muestreo sub-Nyquist y baja resolución de bits, logrando una reconstrucción de audio de banda ancha y mejora de la voz en tiempo real con una eficiencia de potencia 3,31 veces superior.

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi BaruaTue, 10 Ma💻 cs