cs.SD artículos | Gist.Science

Wave-like behaviour in (0,1) binary sequences

Este trabajo presenta un estudio exhaustivo de sistemas binarios (0,1) finitos desde una perspectiva de teoría cuántica, extendiendo el modelo GenomeBits para caracterizar secuencias genómicas mediante una función de onda compleja que revela características de ondas sonoras al analizar sus espectros reales e imaginarios frente a las posiciones de las bases nucleotídicas.

E. Canessa2026-03-10🔬 physics

Relationship between objective and subjective perceptual measures of speech in individuals with head and neck cancer

Este estudio demuestra que existe una fuerte correlación entre las evaluaciones perceptuales subjetivas y las medidas acústicas objetivas de la habla en pacientes con cáncer de cabeza y cuello, sugiriendo que una única medida de inteligibilidad puede ser suficiente para el monitoreo clínico de estos pacientes.

Bence Mark Halpern, Thomas Tienkamp, Teja Rebernik + 4 more2026-03-10⚡ eess

A Large-Scale Probing Analysis of Speaker-Specific Attributes in Self-Supervised Speech Representations

Este estudio realiza un análisis de sondeo a gran escala en 11 modelos de aprendizaje auto-supervisado de habla, revelando que las capas finales de los modelos más grandes recuperan inesperadamente la identidad del hablante y que sus representaciones intermedias capturan mejor la prosodia dinámica que los embeddings especializados, desafiando así la noción de que las capas finales solo contienen contenido lingüístico abstracto.

Aemon Yat Fei Chiu, Kei Ching Fung, Roger Tsz Yeung Li + 2 more2026-03-06💻 cs

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

InterActHuman es un marco novedoso que supera las limitaciones de los métodos existentes al permitir la animación de video de múltiples conceptos con interacciones humanas y objeto-objeto, mediante un control espacial explícito que vincula condiciones multimodales (texto, imagen y audio) a regiones específicas de cada identidad.

Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang + 7 more2026-03-06💻 cs

Vevo2: A Unified and Controllable Framework for Speech and Singing Voice Generation

El artículo presenta Vevo2, un marco unificado y controlable para la generación de voz hablada y cantada que supera la escasez de datos mediante tokenizadores de audio avanzados y estrategias de aprendizaje conjunto, logrando una generalización superior en tareas de síntesis, conversión y edición.

Xueyao Zhang, Junan Zhang, Yuancheng Wang + 5 more2026-03-06💻 cs

TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

Este artículo presenta TSPC, una arquitectura de dos etapas centrada en fonemas que utiliza un conjunto de fonomas vietnamitas extendido como representación intermedia para mejorar el reconocimiento de habla con cambio de código entre vietnamita e inglés, logrando una tasa de error de palabra significativamente menor que los modelos existentes incluso con recursos computacionales limitados.

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam + 1 more2026-03-06💻 cs

BabyHuBERT: Multilingual Self-Supervised Learning for Segmenting Speakers in Child-Centered Long-Form Recordings

El artículo presenta BabyHuBERT, un modelo de aprendizaje auto-supervisado entrenado con 13.000 horas de grabaciones multilingües de niños que supera a los modelos existentes en la clasificación de tipos de voz en contextos de desarrollo lingüístico infantil, especialmente en lenguas subrepresentadas.

Théo Charlot, Tarek Kunze, Maxime Poli + 3 more2026-03-06💻 cs

SAM: A Mamba-2 State-Space Audio-Language Model

El artículo presenta SAM, un modelo de audio-idioma basado en Mamba-2 que, al integrar un codificador de audio con un backprop de Mamba-2, iguala o supera el rendimiento de modelos transformadores más grandes con menos parámetros y establece principios de diseño clave sobre la importancia del ajuste fino conjunto, la densidad de información de los tokens y la supervisión de seguimiento de instrucciones.

Taehan Lee, Jaehan Jung, Hyukjun Lee2026-03-06💻 cs

Noise-to-Notes: Diffusion-based Generation and Refinement for Automatic Drum Transcription

Este trabajo presenta Noise-to-Notes (N2N), un nuevo enfoque generativo basado en difusión que redefine la transcripción automática de batería como una tarea de generación condicional, logrando un nuevo estado del arte mediante el uso de una pérdida pseudo-Huber recocida para la optimización conjunta y la integración de características de modelos fundacionales de música para mejorar la robustez.

Michael Yeung, Keisuke Toyama, Toya Teramoto + 2 more2026-03-06💻 cs

Schrödinger Bridge Mamba for One-Step Speech Enhancement

El artículo presenta Schrödinger Bridge Mamba (SBM), un modelo innovador que combina el paradigma de puente de Schrödinger con la arquitectura Mamba para lograr una mejora de voz de alta calidad en un solo paso de inferencia, superando a los métodos existentes en tareas de eliminación de ruido y reverberación con alta eficiencia en tiempo real.

Jing Yang, Sirui Wang, Chao Wu + 2 more2026-03-06💻 cs

Multi-Loss Learning for Speech Emotion Recognition with Energy-Adaptive Mixup and Frame-Level Attention

Este artículo propone un marco de aprendizaje multi-pérdida que integra una mezcla adaptativa a la energía y un módulo de atención a nivel de cuadro para mejorar el reconocimiento de emociones en el habla, logrando un rendimiento superior en cuatro conjuntos de datos estándar.

Cong Wang, Yizhong Geng, Yuhua Wen + 7 more2026-03-06💻 cs

MultiAPI Spoof: A Multi-API Dataset and Local-Attention Network for Speech Anti-spoofing Detection

Este trabajo presenta el conjunto de datos MultiAPI Spoof, que incluye 230 horas de voz sintética generada por 30 APIs diversas, junto con la red Nes2Net-LA, un modelo de atención local que logra un rendimiento superior en la detección y trazabilidad de suplantaciones de voz en escenarios del mundo real.

Xueping Zhang, Zhenshan Zhang, Yechen Wang + 3 more2026-03-06💻 cs

RA-QA: A Benchmarking System for Respiratory Audio Question Answering Under Real-World Heterogeneity

Este trabajo presenta RA-QA, un nuevo sistema de referencia que unifica conjuntos de datos públicos en 9 millones de pares de preguntas y respuestas sobre audio respiratorio para evaluar y exponer las limitaciones de los modelos de inteligencia artificial multimodal bajo condiciones de heterogeneidad del mundo real.

Gaia A. Bertolino, Yuwei Zhang, Tong Xia + 2 more2026-03-06💻 cs

Fine-grained Soundscape Control for Augmented Hearing

El sistema Aurchestra introduce el primer control de sonido fino y en tiempo real en dispositivos auditivos, permitiendo a los usuarios aislar y ajustar individualmente hasta cinco fuentes sonoras simultáneas mediante una red de extracción optimizada para dispositivos con recursos limitados.

Seunghyun Oh, Malek Itani, Aseem Gauri + 1 more2026-03-06💻 cs

VoxKnesset: A Large-Scale Longitudinal Hebrew Speech Dataset for Aging Speaker Modeling

El artículo presenta VoxKnesset, un conjunto de datos abierto de habla hebrea a gran escala y longitudinal que abarca 2300 horas de discursos parlamentarios entre 2009 y 2025, diseñado para evaluar y mejorar los sistemas de procesamiento de voz frente a los cambios relacionados con la edad en los hablantes.

Yanir Marmor, Arad Zulti, David Krongauz + 4 more2026-03-06💻 cs

Temporal Pooling Strategies for Training-Free Anomalous Sound Detection with Self-Supervised Audio Embeddings

Este artículo presenta una evaluación sistemática de estrategias de agrupamiento temporal para la detección de sonidos anómalos sin entrenamiento, proponiendo el agrupamiento por desviación relativa (RDP) y una estrategia híbrida que superan el rendimiento de los métodos existentes y alcanzan el estado del arte en múltiples conjuntos de datos de referencia.

Kevin Wilkinghoff, Sarthak Yadav, Zheng-Hua Tan2026-03-06💻 cs

When Denoising Hinders: Revisiting Zero-Shot ASR with SAM-Audio and Whisper

Este estudio demuestra que, contrariamente a la intuición común, utilizar el modelo de mejora de audio SAM-Audio como paso previo en sistemas de reconocimiento de voz cero-shot con Whisper degrada sistemáticamente la precisión de la transcripción en lugar de mejorarla, revelando una desconexión fundamental entre la calidad acústica perceptual y la robustez para el reconocimiento automático.

Akif Islam, Raufun Nahar, Md. Ekramul Hamid2026-03-06💻 cs

WhisperAlign: Word-Boundary-Aware ASR and WhisperX-Anchored Pyannote Diarization for Long-Form Bengali Speech

Este artículo presenta la solución WhisperAlign para el DL Sprint 4.0, que aborda el reconocimiento de voz y la diarización en audio largo en bengalí mediante una estrategia de fragmentación basada en WhisperX y el ajuste fino específico del dominio del modelo de segmentación de Pyannote para mejorar la precisión en entornos de bajos recursos.

Aurchi Chowdhury, Rubaiyat -E-Zaman, Sk. Ashrafuzzaman Nafees2026-03-06💻 cs

Focus Then Listen: Exploring Plug-and-Play Audio Enhancer for Noise-Robust Large Audio Language Models

El artículo presenta Focus-Then-Listen (FTL), un potenciador de audio plug-and-play que mejora la robustez al ruido de los grandes modelos de lenguaje de audio separando la señal, seleccionando el modo objetivo según la instrucción del usuario y fusionando la información para optimizar la percepción y el razonamiento sin necesidad de reentrenamiento.

Han Yin, Yang Xiao, Younghoo Kwon + 2 more2026-03-06💻 cs

The First Environmental Sound Deepfake Detection Challenge: Benchmarking Robustness, Evaluation, and Insights

Este artículo presenta el primer desafío de detección de deepfakes en sonidos ambientales, detallando su formulación, el conjunto de datos, los resultados de las 97 equipos participantes y las perspectivas futuras para este campo emergente.

Han Yin, Yang Xiao, Rohan Kumar Das + 2 more2026-03-06💻 cs

← Anterior Siguiente →