cs.SD artículos | Gist.Science

TimberAgent: Gram-Guided Retrieval for Executable Music Effect Control

El artículo presenta TimberAgent, un sistema de recuperación guiado por gramáticas que utiliza representaciones de textura basadas en matrices de Gram (TRR) para cerrar la brecha semántica entre la intención perceptual del usuario y los parámetros de efectos de audio editables, demostrando mediante un benchmark y estudios perceptuales que este enfoque minimiza el error de parámetros en comparación con métodos existentes.

Shihao He, Yihan Xia, Fang Liu, Taotao Wang, Shengli ZhangWed, 11 Ma🤖 cs.AI

Physics-Informed Neural Engine Sound Modeling with Differentiable Pulse-Train Synthesis

El artículo presenta el modelo Pulse-Train-Resonator (PTR), una arquitectura de síntesis diferenciable que utiliza inductores físicos para generar sonidos de motor mediante trenes de pulsos y resonadores Karplus-Strong, logrando una reconstrucción armónica superior y parámetros interpretables en comparación con los métodos basales.

Robin Doerfler, Lonce WyseWed, 11 Ma🤖 cs.AI

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

El paper introduce MUGEN, un benchmark integral que revela las limitaciones actuales de los modelos de audio-idioma en la comprensión de múltiples audios simultáneos y demuestra que estrategias de inferencia sin entrenamiento, como la autoconsistencia permutacional y el razonamiento en cadena, mejoran significativamente su rendimiento.

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi LeeWed, 11 Ma🤖 cs.AI

EmoSURA: Towards Accurate Evaluation of Detailed and Long-Context Emotional Speech Captions

El artículo presenta EmoSURA, un nuevo marco de evaluación que supera las limitaciones de las métricas tradicionales y los jueces basados en LLM al descomponer las descripciones emocionales de voz en unidades perceptuales atómicas para verificarlas directamente contra la señal de audio, ofreciendo así una evaluación más precisa y correlacionada con el juicio humano para textos largos.

Xin Jing, Andreas Triantafyllopoulos, Jiadong Wang, Shahin Amiriparian, Jun Luo, Björn SchullerWed, 11 Ma💻 cs

SCENEBench: An Audio Understanding Benchmark Grounded in Assistive and Industrial Use Cases

Este artículo presenta SCENEBench, un nuevo conjunto de pruebas diseñado para evaluar la comprensión auditiva de modelos de lenguaje de audio avanzados más allá del reconocimiento de voz, centrándose en casos de uso reales como la accesibilidad y la monitorización industrial mediante la medición del rendimiento y la latencia en tareas de sonido ambiental, localización de ruido, comprensión multilingüe y reconocimiento de características vocales.

Laya Iyer, Angelina Wang, Sanmi KoyejoWed, 11 Ma🤖 cs.AI

Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis

Este trabajo presenta el Sistema de Análisis Multimodal de Video Laringoscópico (MLVAS), una herramienta innovadora que combina datos de audio y video mediante detección de glotis, refinamiento de segmentación basado en difusión y extracción de características acústicas y visuales para asistir en el diagnóstico objetivo y automatizado de la parálisis de las cuerdas vocales.

Yucong Zhang, Xin Zou, Jinshan Yang, Wenjun Chen, Juan Liu, Faya Liang, Ming LiTue, 10 Ma💻 cs

ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance

El artículo presenta ExpGest, un marco innovador basado en modelos de difusión que utiliza información sincronizada de audio y texto para generar gestos corporales completos, expresivos y controlables, superando las limitaciones de rigidez y falta de contenido semántico de los métodos existentes.

Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei LiuTue, 10 Ma💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Este trabajo presenta la Tarea 5 del Desafío DCASE 2025, un nuevo benchmark de respuesta a preguntas sobre audio que abarca múltiples dominios acústicos para evaluar y mejorar las capacidades de razonamiento de los modelos de audio-lenguaje.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

Este artículo presenta BemaGANv2, un vocador basado en GAN optimizado para la generación de audio de larga duración que introduce innovaciones arquitectónicas como el módulo AMP y el Discriminador de Sobres Multi-Envolvente (MED), evaluando sistemáticamente diversas estrategias de combinación de discriminadores para mejorar la coherencia temporal y la fidelidad del audio.

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul KwonTue, 10 Ma🤖 cs.LG

WaLi: Can Pressure Sensors in HVAC Systems Capture Human Speech?

El artículo presenta WaLi, un ataque que demuestra cómo los sensores de presión de los sistemas HVAC pueden ser explotados para reconstruir conversaciones humanas inteligibles a partir de datos ruidosos y de baja resolución mediante el uso de una red neuronal compleja, revelando así una nueva amenaza significativa para la privacidad.

Tarikul Islam Tamiti, Biraj Joshi, Rida Hasan, Anomadarshi BaruaTue, 10 Ma💻 cs

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

El artículo presenta SUBARU, un enfoque práctico que reduce el consumo energético en dispositivos auditivos mediante el muestreo sub-Nyquist y baja resolución de bits, logrando una reconstrucción de audio de banda ancha y mejora de la voz en tiempo real con una eficiencia de potencia 3,31 veces superior.

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi BaruaTue, 10 Ma💻 cs

ECHO: Frequency-aware Hierarchical Encoding for Variable-length Signals

Este trabajo presenta ECHO, un modelo fundacional de aprendizaje profundo que utiliza una arquitectura de división de bandas y embebidos posicionales de frecuencia para procesar señales de máquinas de longitud variable y tasas de muestreo arbitrarias, logrando un rendimiento superior en la detección de anomalías y clasificación de fallos industriales.

Yucong Zhang, Juan Liu, Ming LiTue, 10 Ma🤖 cs.LG

LibriTTS-VI: A Public Corpus and Novel Methods for Efficient Voice Impression Control

Este trabajo presenta LibriTTS-VI, el primer corpus público para el control de impresiones vocales numéricas, y propone métodos novedosos de entrenamiento desenredado y sin referencia que mitigan la fuga de impresiones y mejoran significativamente la precisión del control en la síntesis de voz.

Junki Ohmura, Yuki Ito, Emiru Tsunoo, Toshiyuki Sekiya, Toshiyuki KumakuraTue, 10 Ma💻 cs

Improving X-Codec-2.0 for Multi-Lingual Speech: 25 Hz Latent Rate and 24 kHz Sampling

Este trabajo mejora el rendimiento y la eficiencia de X-Codec-2.0 para el procesamiento de voz multilingüe al reducir la tasa latente a 25 Hz y aumentar la frecuencia de muestreo a 24 kHz mediante modificaciones simples en el agrupamiento y el salto del decodificador, logrando una mejora significativa en la calidad perceptual sin alterar la arquitectura central.

Husein ZolkepliTue, 10 Ma💬 cs.CL

Are Audio-Language Models Listening? Audio-Specialist Heads for Adaptive Audio Steering

Este artículo presenta un método de interpretabilidad mecánica para identificar y amplificar mediante intervención en tiempo de inferencia las "cabezas especializadas en audio" dentro de los modelos de lenguaje-audio, logrando así mejorar la precisión de estos modelos en tareas multimodales sin necesidad de actualizar sus parámetros.

Neta Glazer, Lenny Aharon, Ethan FetayaTue, 10 Ma💻 cs

Adaptive Discovery of Interpretable Audio Attributes with Multimodal LLMs for Low-Resource Classification

Este artículo presenta un método que utiliza Modelos de Lenguaje Grandes Multimodales (MLLM) para descubrir de forma adaptativa atributos de audio interpretables, logrando una clasificación de bajo recurso más rápida y precisa que los enfoques tradicionales basados en humanos.

Kosuke Yoshimura, Hisashi KashimaTue, 10 Ma🤖 cs.LG

Toward Multimodal Industrial Fault Analysis: A Single-Speed Chain Conveyor Dataset with Audio and Vibration Signals

Este artículo presenta un nuevo conjunto de datos multimodal que combina señales de audio y vibración de un transportador de cadena de velocidad única, diseñado para facilitar la investigación sobre detección y clasificación de fallos industriales mediante análisis de canales individuales y fusión multimodal bajo diversas condiciones operativas.

Zhang Chen, Yucong Zhang, Xiaoxiao Miao, Ming LiTue, 10 Ma💻 cs

Towards Objective Gastrointestinal Auscultation: Automated Segmentation and Annotation of Bowel Sound Patterns

Este estudio presenta un sistema automatizado basado en sensores acústicos portátiles y modelos de aprendizaje profundo que segmenta y clasifica los sonidos intestinales con alta precisión, reduciendo significativamente el tiempo de etiquetado manual y ofreciendo a los clínicos una herramienta objetiva para la evaluación cuantitativa de la función gastrointestinal.

Zahra Mansour, Verena Uslar, Dirk Weyhe, Danilo Hollosi, Nils StrodthoffTue, 10 Ma🤖 cs.LG

Seeing the Context: Rich Visual Context-Aware Speech Recognition via Multimodal Reasoning

El artículo presenta VASR, un sistema de reconocimiento de voz que utiliza un razonamiento multimodal basado en el pensamiento en cadena (AV-CoT) para integrar y analizar el contexto visual rico más allá de los movimientos labiales, logrando así un rendimiento superior al estado del arte al mitigar el problema de la dominancia de una sola modalidad.

Wenjie Tian, Mingchen Shao, Bingshen Mu, Xuelong Geng, Chengyou Wang, Yujie Liao, Zhixian Zhao, Ziyu Zhang, Jingbin Hu, Mengqi Wei, Lei XieTue, 10 Ma💻 cs

Fast and Flexible Audio Bandwidth Extension via Vocos

Este trabajo presenta un modelo de extensión de ancho de banda basado en Vocos que genera contenido de alta frecuencia faltante para audio de 8-48 kHz mediante un único red neuronal y un refinador ligero, logrando una calidad competitiva con un rendimiento en tiempo real extremo en GPU y CPU.

Yatharth SharmaTue, 10 Ma🤖 cs.LG

← Anterior Siguiente →