eess.AS artículos | Gist.Science

RA-QA: A Benchmarking System for Respiratory Audio Question Answering Under Real-World Heterogeneity

Este trabajo presenta RA-QA, un nuevo sistema de referencia que unifica conjuntos de datos públicos en 9 millones de pares de preguntas y respuestas sobre audio respiratorio para evaluar y exponer las limitaciones de los modelos de inteligencia artificial multimodal bajo condiciones de heterogeneidad del mundo real.

Gaia A. Bertolino, Yuwei Zhang, Tong Xia + 2 more2026-03-06💻 cs

Fine-grained Soundscape Control for Augmented Hearing

El sistema Aurchestra introduce el primer control de sonido fino y en tiempo real en dispositivos auditivos, permitiendo a los usuarios aislar y ajustar individualmente hasta cinco fuentes sonoras simultáneas mediante una red de extracción optimizada para dispositivos con recursos limitados.

Seunghyun Oh, Malek Itani, Aseem Gauri + 1 more2026-03-06💻 cs

VoxKnesset: A Large-Scale Longitudinal Hebrew Speech Dataset for Aging Speaker Modeling

El artículo presenta VoxKnesset, un conjunto de datos abierto de habla hebrea a gran escala y longitudinal que abarca 2300 horas de discursos parlamentarios entre 2009 y 2025, diseñado para evaluar y mejorar los sistemas de procesamiento de voz frente a los cambios relacionados con la edad en los hablantes.

Yanir Marmor, Arad Zulti, David Krongauz + 4 more2026-03-06💻 cs

Benchmarking Speech Systems for Frontline Health Conversations: The DISPLACE-M Challenge

El desafío DISPLACE-M presenta un nuevo benchmark para evaluar sistemas de IA conversacional en diálogos médicos reales y ruidosos, proporcionando un conjunto de datos de 55 horas y líneas base para cuatro tareas clave: diarización de hablantes, reconocimiento automático de voz, identificación de temas y resumen de diálogos.

Dhanya E, Ankita Meena, Manas Nanivadekar + 11 more2026-03-06⚡ eess

The PARLO Dementia Corpus: A German Multi-Center Resource for Alzheimer's Disease

Este artículo presenta el corpus PARLO, un nuevo recurso público alemán multi-centro que incluye grabaciones de voz, transcripciones y datos clínicos de pacientes con Alzheimer y controles sanos, estableciendo el primer punto de referencia para la investigación basada en el habla sobre enfermedades neurodegenerativas en Alemania.

Franziska Braun, Christopher Witzl, Florian Hönig + 3 more2026-03-06⚡ eess

Temporal Pooling Strategies for Training-Free Anomalous Sound Detection with Self-Supervised Audio Embeddings

Este artículo presenta una evaluación sistemática de estrategias de agrupamiento temporal para la detección de sonidos anómalos sin entrenamiento, proponiendo el agrupamiento por desviación relativa (RDP) y una estrategia híbrida que superan el rendimiento de los métodos existentes y alcanzan el estado del arte en múltiples conjuntos de datos de referencia.

Kevin Wilkinghoff, Sarthak Yadav, Zheng-Hua Tan2026-03-06💻 cs

An Approach to Simultaneous Acquisition of Real-Time MRI Video, EEG, and Surface EMG for Articulatory, Brain, and Muscle Activity During Speech Production

Este artículo presenta un enfoque pionero para la adquisición simultánea de video de resonancia magnética en tiempo real, EEG y EMG superficial, junto con un pipeline de supresión de artefactos, con el fin de capturar integralmente la actividad cerebral, muscular y articular durante la producción del habla.

Jihwan Lee, Parsa Razmara, Kevin Huang + 16 more2026-03-06🤖 cs.AI

Voice Timbre Attribute Detection with Compact and Interpretable Training-Free Acoustic Parameters

Este trabajo propone un conjunto de parámetros acústicos compactos, interpretables y sin entrenamiento para la detección de atributos de timbre vocal, los cuales superan a las características cepstrales convencionales y a las incrustaciones de redes neuronales supervisadas, acercándose al rendimiento de los modelos auto-supervisados más avanzados.

Aemon Yat Fei Chiu, Yujia Xiao, Qiuqiang Kong + 1 more2026-03-06⚡ eess

PolyBench: A Benchmark for Compositional Reasoning in Polyphonic Audio

Este trabajo presenta PolyBench, un nuevo benchmark diseñado para evaluar el razonamiento composicional en audio polifónico, revelando que los modelos de lenguaje de audio actuales enfrentan un cuello de botella fundamental al procesar múltiples eventos sonoros simultáneos.

Yuanjian Chen, Yang Xiao, Han Yin + 3 more2026-03-06💻 cs

BabAR: from phoneme recognition to developmental measures of young children's speech production

Este artículo presenta BabAR, un sistema de reconocimiento fonético multilingüe entrenado en el corpus TinyVox que permite analizar la producción del habla infantil a gran escala y validar medidas automáticas de madurez del habla que se alinean con estimaciones de desarrollo.

Marvin Lavechin, Elika Bergelson, Roger Levy2026-03-06⚡ eess

Visual-Informed Speech Enhancement Using Attention-Based Beamforming

Este artículo presenta la VI-NBFNet, una red neuronal de formación de haces que integra señales de micrófono y movimientos labiales extraídos de un modelo visual para mejorar la robustez y el rendimiento de la realce de voz en entornos complejos con hablantes estáticos o dinámicos.

Chihyun Liu, Jiaxuan Fan, Mingtung Sun + 3 more2026-03-06🤖 cs.AI

Exploring the potential and limitations of Model Merging for Multi-Domain Adaptation in ASR

Este trabajo evalúa once algoritmos de fusión de modelos para la adaptación multi-dominio en reconocimiento automático de habla en portugués europeo, proponiendo el nuevo método BoostedTSV-M que supera al ajuste completo manteniendo la generalización fuera de distribución en un único modelo.

Carlos Carvalho, Francisco Teixeira, Thomas Rolland + 1 more2026-03-06💬 cs.CL

Hierarchical Decoding for Discrete Speech Synthesis with Multi-Resolution Spoof Detection

El artículo presenta MSpoof-TTS, un marco de inferencia libre de entrenamiento que mejora la síntesis de voz discreta mediante la detección de falsificaciones a múltiples resoluciones y una estrategia de decodificación jerárquica para eliminar candidatos de baja calidad sin modificar los parámetros del modelo.

Junchuan Zhao, Minh Duc Vu, Ye Wang2026-03-06💻 cs

Knowing When to Quit: Probabilistic Early Exits for Speech Separation

Este trabajo propone un marco probabilístico de incertidumbre y una arquitectura de red neuronal con salidas anticipadas para la separación de voz, permitiendo escalar dinámicamente el cómputo en dispositivos heterogéneos sin comprometer la calidad de la reconstrucción.

Kenny Falkær Olsen, Mads Østergaard, Karl Ulbæk + 4 more2026-03-05🤖 cs.LG

LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection

El artículo presenta LadderSym, un modelo Transformer multimodal que mejora significativamente la detección de errores en la práctica musical al utilizar un codificador de doble flujo con alineación entre corrientes y representaciones simbólicas como prompts, superando así las limitaciones de los métodos anteriores en conjuntos de datos como MAESTRO-E y CocoChorales-E.

Benjamin Shiue-Hal Chou, Purvish Jajal, Nick John Eliopoulos + 4 more2026-03-05🤖 cs.AI

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Este artículo presenta CMI-RewardBench, un ecosistema integral que incluye un nuevo benchmark, conjuntos de datos de preferencias y modelos de recompensa eficientes para evaluar y alinear modelos de generación musical con instrucciones multimodales compuestas.

Yinghao Ma, Haiwen Xia, Hewei Gao + 9 more2026-03-05🤖 cs.AI

Escaping the BLEU Trap: A Signal-Grounded Framework with Decoupled Semantic Guidance for EEG-to-Text Decoding

El artículo presenta SemKey, un marco innovador que supera las limitaciones actuales en la decodificación de EEG a texto mediante la guía semántica desacoplada y la alineación estricta con señales neurales, logrando así una generación libre de alucinaciones y una evaluación más robusta que las métricas tradicionales como BLEU.

Yuchen Wang, Haonan Wang, Yu Guo + 2 more2026-03-05🤖 cs.AI

Automated Measurement of Geniohyoid Muscle Thickness During Speech Using Deep Learning and Ultrasound

El estudio presenta SMMA, un marco automatizado basado en aprendizaje profundo que mide con precisión el grosor del músculo geniohioideo durante el habla, permitiendo investigaciones escalables sobre el control motor del habla y la evaluación de trastornos de la deglución.

Alisher Myrgyyassov, Bruce Xiao Wang, Yu Sun + 4 more2026-03-05🤖 cs.LG

ACES: Accent Subspaces for Coupling, Explanations, and Stress-Testing in Automatic Speech Recognition

El artículo presenta ACES, un método de auditoría basado en representaciones que identifica subespacios de acento de baja dimensión en modelos de reconocimiento automático de voz como herramientas diagnósticas esenciales, revelando que la información del acento está profundamente entrelazada con las señales críticas para el reconocimiento y que su supresión lineal no mejora la equidad.

Swapnil Parekh2026-03-05🤖 cs.AI

Multi-Stage Music Source Restoration with BandSplit-RoFormer Separation and HiFi++ GAN

Este informe técnico presenta el sistema del equipo CP-JKU para el Desafío MSR de ICASSP 2025, que aborda la restauración de fuentes musicales mediante un enfoque de dos etapas: primero, un separador BandSplit-RoFormer que predice ocho stems mediante un entrenamiento curricular en tres fases, y segundo, un restaurador de ondas HiFi++ GAN especializado en expertos específicos para cada instrumento.

Tobias Morocutti, Emmanouil Karystinaios, Jonathan Greif + 1 more2026-03-05🤖 cs.LG

← Anterior Siguiente →