cs.SD artículos | Gist.Science

Training Dynamics-Aware Multi-Factor Curriculum Learning for Target Speaker Extraction

Este artículo propone un aprendizaje curricular multi-factor dinámico, guiado por el marco de visualización TSE-Datamap que analiza la dinámica de entrenamiento, para mejorar la extracción de hablantes objetivo en escenarios complejos y reales mediante la programación conjunta de múltiples factores de dificultad.

Yun Liu, Xuechen Liu, Xiaoxiao Miao + 1 more2026-03-06💻 cs

TW-Sound580K: A Regional Audio-Text Dataset with Verification-Guided Curation for Localized Audio-Language Modeling

El artículo presenta TW-Sound580K, un conjunto de datos de audio-texto taiwanés curado mediante un protocolo de verificación y generación que, junto con el modelo Tai-LALM y una estrategia de arbitraje dinámica, mejora significativamente el rendimiento de los modelos de lenguaje-audio en dialectos regionales.

Hao-Hui Xie, Ho-Lam Chung, Yi-Cheng Lin + 4 more2026-03-06💻 cs

PolyBench: A Benchmark for Compositional Reasoning in Polyphonic Audio

Este trabajo presenta PolyBench, un nuevo benchmark diseñado para evaluar el razonamiento composicional en audio polifónico, revelando que los modelos de lenguaje de audio actuales enfrentan un cuello de botella fundamental al procesar múltiples eventos sonoros simultáneos.

Yuanjian Chen, Yang Xiao, Han Yin + 3 more2026-03-06💻 cs

Boosting ASR Robustness via Test-Time Reinforcement Learning with Audio-Text Semantic Rewards

Este trabajo presenta ASR-TRA, un marco de adaptación en tiempo de prueba basado en aprendizaje por refuerzo que mejora la robustez de los sistemas de reconocimiento automático de voz frente a ruido y acentos diversos mediante la optimización de la alineación semántica audio-texto, superando así los sesgos de confirmación de los métodos existentes.

Linghan Fang, Tianxin Xie, Li Liu2026-03-06🤖 cs.AI

SarcasmMiner: A Dual-Track Post-Training Framework for Robust Audio-Visual Sarcasm Reasoning

El artículo presenta SarcasmMiner, un marco de entrenamiento posterior basado en aprendizaje por refuerzo que utiliza una estrategia de destilación dual y optimización de políticas para mejorar significativamente la detección de sarcasmo multimodal al reformularla como un proceso de razonamiento estructurado.

Zhu Li, Yongjian Chen, Huiyuan Lai + 3 more2026-03-06💬 cs.CL

WavSLM: Single-Stream Speech Language Modeling via WavLM Distillation

El artículo presenta WavSLM, un modelo de lenguaje de voz de un solo flujo que, mediante la cuantización y destilación de representaciones de WavLM sin supervisión textual, logra generar habla coherente y semánticamente consistente de manera eficiente y con inferencia en tiempo real.

Luca Della Libera, Cem Subakan, Mirco Ravanelli2026-03-06🤖 cs.AI

SLICE: Speech Enhancement via Layer-wise Injection of Conditioning Embeddings

El artículo propone SLICE, un método de mejora del habla que inyecta condicionamiento de degradación en cada capa de un modelo de difusión en lugar de solo en la entrada, logrando así un rendimiento superior al abordar simultáneamente ruido, reverberación y distorsión no lineal en grabaciones reales.

Seokhoon Moon, Kyudan Jung, Jaegul Choo2026-03-06💻 cs

Latent-Mark: An Audio Watermark Robust to Neural Resynthesis

Latent-Mark es un marco de marca de agua de audio de cero bits que logra una robustez sin precedentes frente a la resíntesis neuronal al incrustar la marca en el espacio latente invariante del códec mediante optimización cruzada, garantizando así su transferibilidad a códecs no vistos y su imperceptibilidad.

Yen-Shan Chen, Shih-Yu Lai, Ying-Jung Tsou + 5 more2026-03-06🤖 cs.AI

Hierarchical Decoding for Discrete Speech Synthesis with Multi-Resolution Spoof Detection

El artículo presenta MSpoof-TTS, un marco de inferencia libre de entrenamiento que mejora la síntesis de voz discreta mediante la detección de falsificaciones a múltiples resoluciones y una estrategia de decodificación jerárquica para eliminar candidatos de baja calidad sin modificar los parámetros del modelo.

Junchuan Zhao, Minh Duc Vu, Ye Wang2026-03-06💻 cs

Building Enterprise Realtime Voice Agents from Scratch: A Technical Tutorial

Este tutorial técnico demuestra que la clave para construir agentes de voz en tiempo real de nivel empresarial no reside en modelos nativos de voz a voz, sino en una arquitectura en cascada y con transmisión de datos (STT $\rightarrow$ LLM $\rightarrow$ TTS) que logra una latencia de menos de un segundo mediante la integración de componentes como Deepgram, vLLM y ElevenLabs.

Jielin Qiu, Zixiang Chen, Liangwei Yang + 11 more2026-03-06💻 cs

Knowing When to Quit: Probabilistic Early Exits for Speech Separation

Este trabajo propone un marco probabilístico de incertidumbre y una arquitectura de red neuronal con salidas anticipadas para la separación de voz, permitiendo escalar dinámicamente el cómputo en dispositivos heterogéneos sin comprometer la calidad de la reconstrucción.

Kenny Falkær Olsen, Mads Østergaard, Karl Ulbæk + 4 more2026-03-05🤖 cs.LG

MeanFlowSE: one-step generative speech enhancement via conditional mean flow

El artículo presenta MeanFlowSE, un modelo generativo condicional que supera el cuello de botella de la inferencia multietapa en la mejora de voz mediante el aprendizaje de la velocidad media en intervalos finitos, permitiendo una generación de alta fidelidad en un solo paso sin necesidad de conocimiento destilado.

Duojia Li, Shenghui Lu, Hongchen Pan + 3 more2026-03-05🤖 cs.AI

LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection

El artículo presenta LadderSym, un modelo Transformer multimodal que mejora significativamente la detección de errores en la práctica musical al utilizar un codificador de doble flujo con alineación entre corrientes y representaciones simbólicas como prompts, superando así las limitaciones de los métodos anteriores en conjuntos de datos como MAESTRO-E y CocoChorales-E.

Benjamin Shiue-Hal Chou, Purvish Jajal, Nick John Eliopoulos + 4 more2026-03-05🤖 cs.AI

Better audio representations are more brain-like: linking model-brain alignment with performance in downstream auditory tasks

El estudio demuestra que los modelos de audio auto-supervisados con alto rendimiento en tareas auditivas diversas generan representaciones internas más similares a la actividad cerebral, revelando una fuerte correlación positiva entre el rendimiento en tareas y la alineación con el cerebro, lo que sugiere que las representaciones cerebrales pueden emerger como subproducto del aprendizaje para reconstruir información en datos de audio natural.

Leonardo Pepino, Pablo Riera, Juan Kamienkowski + 1 more2026-03-05🤖 cs.LG

OASI: Objective-Aware Surrogate Initialization for Multi-Objective Bayesian Optimization in TinyML Keyword Spotting

Este artículo presenta OASI, un método de inicialización de sustitutos consciente de los objetivos que mejora la optimización bayesiana multiobjetivo para modelos de detección de palabras clave en TinyML, logrando un mejor equilibrio entre precisión y restricciones de memoria mediante soluciones de arranque en caliente generadas por recocido simulado.

Soumen Garai, Danilo Pau, Suman Samui2026-03-05🤖 cs.LG

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Este artículo presenta CMI-RewardBench, un ecosistema integral que incluye un nuevo benchmark, conjuntos de datos de preferencias y modelos de recompensa eficientes para evaluar y alinear modelos de generación musical con instrucciones multimodales compuestas.

Yinghao Ma, Haiwen Xia, Hewei Gao + 9 more2026-03-05🤖 cs.AI

Automated Measurement of Geniohyoid Muscle Thickness During Speech Using Deep Learning and Ultrasound

El estudio presenta SMMA, un marco automatizado basado en aprendizaje profundo que mide con precisión el grosor del músculo geniohioideo durante el habla, permitiendo investigaciones escalables sobre el control motor del habla y la evaluación de trastornos de la deglución.

Alisher Myrgyyassov, Bruce Xiao Wang, Yu Sun + 4 more2026-03-05🤖 cs.LG

ACES: Accent Subspaces for Coupling, Explanations, and Stress-Testing in Automatic Speech Recognition

El artículo presenta ACES, un método de auditoría basado en representaciones que identifica subespacios de acento de baja dimensión en modelos de reconocimiento automático de voz como herramientas diagnósticas esenciales, revelando que la información del acento está profundamente entrelazada con las señales críticas para el reconocimiento y que su supresión lineal no mejora la equidad.

Swapnil Parekh2026-03-05🤖 cs.AI

Multi-Stage Music Source Restoration with BandSplit-RoFormer Separation and HiFi++ GAN

Este informe técnico presenta el sistema del equipo CP-JKU para el Desafío MSR de ICASSP 2025, que aborda la restauración de fuentes musicales mediante un enfoque de dos etapas: primero, un separador BandSplit-RoFormer que predice ocho stems mediante un entrenamiento curricular en tres fases, y segundo, un restaurador de ondas HiFi++ GAN especializado en expertos específicos para cada instrumento.

Tobias Morocutti, Emmanouil Karystinaios, Jonathan Greif + 1 more2026-03-05🤖 cs.LG

FastWave: Optimized Diffusion Model for Audio Super-Resolution

El artículo presenta FastWave, un modelo de difusión optimizado para la super-resolución de audio que, con una arquitectura de bajo costo computacional y parámetros, supera a NU-Wave 2 y es comparable a los modelos más avanzados, permitiendo un entrenamiento e inferencia más rápidos y eficientes.

Nikita Kuznetsov, Maksim Kaledin2026-03-05🤖 cs.LG

← Anterior Siguiente →