eess.AS artículos | Gist.Science

LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio

El artículo presenta LongAudio-RAG, un marco híbrido que mejora la respuesta a preguntas sobre audios de larga duración al fundamentar las respuestas de los modelos de lenguaje en eventos acústicos recuperados de una base de datos SQL, permitiendo un despliegue eficiente en entornos edge-cloud con alta precisión y baja alucinación.

Naveen Vakada, Kartik Hegde, Arvind Krishna Sridhar, Yinyi Guo, Erik VisserTue, 10 Ma🤖 cs.LG

TCG CREST System Description for the DISPLACE-M Challenge

Este informe describe el sistema TCG CREST para el desafío DISPLACE-M, el cual logró una mejora relativa del 39% en la tasa de error de diarización al utilizar el sistema híbrido Diarizen basado en WavLM con aglomeración jerárquica, clasificándose en sexto lugar entre 11 equipos participantes.

Nikhil Raghav, Md SahidullahTue, 10 Ma🤖 cs.LG

Toward Multimodal Industrial Fault Analysis: A Single-Speed Chain Conveyor Dataset with Audio and Vibration Signals

Este artículo presenta un nuevo conjunto de datos multimodal que combina señales de audio y vibración de un transportador de cadena de velocidad única, diseñado para facilitar la investigación sobre detección y clasificación de fallos industriales mediante análisis de canales individuales y fusión multimodal bajo diversas condiciones operativas.

Zhang Chen, Yucong Zhang, Xiaoxiao Miao, Ming LiTue, 10 Ma💻 cs

Towards Objective Gastrointestinal Auscultation: Automated Segmentation and Annotation of Bowel Sound Patterns

Este estudio presenta un sistema automatizado basado en sensores acústicos portátiles y modelos de aprendizaje profundo que segmenta y clasifica los sonidos intestinales con alta precisión, reduciendo significativamente el tiempo de etiquetado manual y ofreciendo a los clínicos una herramienta objetiva para la evaluación cuantitativa de la función gastrointestinal.

Zahra Mansour, Verena Uslar, Dirk Weyhe, Danilo Hollosi, Nils StrodthoffTue, 10 Ma🤖 cs.LG

Scaling Self-Supervised Speech Models Uncovers Deep Linguistic Relationships: Evidence from the Pacific Cluster

El estudio demuestra que escalar los modelos de habla auto-supervisados de 126 a 4.017 idiomas provoca un cambio cualitativo no lineal que permite recuperar relaciones filogenéticas profundas y revelar un macro-clúster robusto en el Pacífico, evidenciando que estos modelos masivos pueden internalizar múltiples capas de la historia lingüística.

Minu Kim, Hoirin Kim, David R. MortensenTue, 10 Ma💬 cs.CL

Seeing the Context: Rich Visual Context-Aware Speech Recognition via Multimodal Reasoning

El artículo presenta VASR, un sistema de reconocimiento de voz que utiliza un razonamiento multimodal basado en el pensamiento en cadena (AV-CoT) para integrar y analizar el contexto visual rico más allá de los movimientos labiales, logrando así un rendimiento superior al estado del arte al mitigar el problema de la dominancia de una sola modalidad.

Wenjie Tian, Mingchen Shao, Bingshen Mu, Xuelong Geng, Chengyou Wang, Yujie Liao, Zhixian Zhao, Ziyu Zhang, Jingbin Hu, Mengqi Wei, Lei XieTue, 10 Ma💻 cs

Fast and Flexible Audio Bandwidth Extension via Vocos

Este trabajo presenta un modelo de extensión de ancho de banda basado en Vocos que genera contenido de alta frecuencia faltante para audio de 8-48 kHz mediante un único red neuronal y un refinador ligero, logrando una calidad competitiva con un rendimiento en tiempo real extremo en GPU y CPU.

Yatharth SharmaTue, 10 Ma🤖 cs.LG

Towards Lightweight Adaptation of Speech Enhancement Models in Real-World Environments

Este trabajo propone un marco de adaptación ligero que, mediante el uso de adaptadores de bajo rango actualizados con aprendizaje auto-supervisado sobre una base congelada, mejora la robustez de los modelos de mejora de voz en entornos acústicos dinámicos con menos del 1% de parámetros actualizados y una rápida convergencia, facilitando su implementación en dispositivos.

Longbiao Cheng, Shih-Chii LiuTue, 10 Ma🤖 cs.LG

Evaluating Parkinson's Disease Detection in Anonymized Speech: A Performance and Acoustic Analysis

Este estudio demuestra que es viable detectar la enfermedad de Parkinson en habla anonimizada preservando la información patológica mediante el uso de kNN-VC, el cual mantiene características macroprosódicas clave y logra puntuaciones F1 cercanas a las del habla original, a diferencia de los sistemas STT-TTS que eliminan dicha información al priorizar la privacidad.

Carlos Franzreb, Francisco Teixeira, Ben Luks, Sebastian Möller, Alberto AbadTue, 10 Ma💻 cs

Analysis-Driven Procedural Generation of an Engine Sound Dataset with Embedded Control Annotations

Este artículo presenta un marco de generación procedural de audio de motores que extrae estructuras armónicas de grabaciones reales para sintetizar un nuevo conjunto de datos de 19 horas con anotaciones precisas de RPM y par de torsión, validado para su uso en investigación de modelado acústico y síntesis basada en aprendizaje.

Robin Doerfler, Lonce WyseTue, 10 Ma🤖 cs.LG

SoundWeaver: Semantic Warm-Starting for Text-to-Audio Diffusion Serving

SoundWeaver es un sistema de servicio sin entrenamiento y agnóstico al modelo que acelera la generación de audio texto-audio mediante el inicio en caliente con audio semánticamente similar almacenado en caché, logrando una reducción de latencia de 1,8 a 3,0 veces sin comprometer la calidad perceptual.

Ayush Barik, Sofia Stoica, Nikhil Sarda, Arnav Kethana, Abhinav Khanduja, Muchen Xu, Fan LaiTue, 10 Ma💻 cs

WhispEar: A Bi-directional Framework for Scaling Whispered Speech Conversion via Pseudo-Parallel Whisper Generation

El artículo presenta WhispEar, un marco bidireccional que utiliza la generación de susurros pseudo-paralelos a partir de habla normal para escalar la conversión de susurros a habla normal, superando las limitaciones de datos y logrando un rendimiento superior en un corpus bilingüe recién creado.

Zihao Fang, Yingda Shen, Zifan Guan, Tongtong Song, Zhenyi Liu, Zhizheng WuTue, 10 Ma💻 cs

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

El artículo presenta FoleyFlow, un método que mejora la generación coordinada de audio a partir de video mediante un entrenamiento de alineación multimodal enmascarada y un flujo condicional dinámico, logrando una sincronización semántica y rítmica superior a las técnicas anteriores.

Shentong Mo, Yibing SongTue, 10 Ma🤖 cs.LG

DualTurn: Learning Turn-Taking from Dual-Channel Generative Speech Pretraining

El modelo DualTurn cierra la brecha entre los sistemas de voz naturales y las capacidades de razonamiento mediante un preentrenamiento generativo en audio de doble canal que aprende dinámicas conversacionales implícitas para predecir turnos de habla y acciones de agente con mayor precisión y anticipación que los enfoques anteriores.

Shangeth RajaaTue, 10 Ma💬 cs.CL

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

Este trabajo presenta un marco innovador para el reconocimiento de emociones ambiguas en modelos grandes de audio-idioma, reformulando la tarea como un problema de razonamiento distribucional mediante un objetivo consciente de la ambigüedad y una supervisión estructurada de pensamiento en cadena que alinea las predicciones con las distribuciones perceptuales humanas.

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting DangTue, 10 Ma💻 cs

Quantifying Cross-Lingual Transfer in Paralinguistic Speech Tasks

Este artículo presenta la Matriz de Transferencia Cross-Lingual (CLTM), un método sistemático para cuantificar cómo los datos de un idioma donante afectan el rendimiento en tareas paralingüísticas como la identificación de género y la verificación de hablante en un idioma objetivo, revelando patrones de transferencia distintos y dependientes del idioma.

Pol Buitrago, Oriol Pareras, Federico Costa, Javier HernandoTue, 10 Ma💬 cs.CL

Bootstrapping Audiovisual Speech Recognition in Zero-AV-Resource Scenarios with Synthetic Visual Data

Este artículo presenta un marco de reconocimiento de habla audiovisual para recursos cero que utiliza datos visuales sintéticos generados a partir de imágenes estáticas y audio real, logrando un rendimiento cercano al estado del arte en catalán y superando a los baselines de solo audio.

Pol Buitrago, Pol Gàlvez, Oriol Pareras, Javier HernandoTue, 10 Ma💬 cs.CL

Computational modeling of early language learning from acoustic speech and audiovisual input without linguistic priors

Este capítulo revisa cómo los modelos computacionales de aprendizaje auto-supervisado y visualmente fundamentado permiten explicar la adquisición temprana del lenguaje a partir de señales acústicas y audiovisuales sin recurrir a prios lingüísticos, demostrando que principios de aprendizaje compartidos pueden replicar tanto el comportamiento de los modelos como los hallazgos empíricos sobre el desarrollo infantil.

Okko RäsänenTue, 10 Ma💬 cs.CL

Benchmarking Language Modeling for Lossless Compression of Full-Fidelity Audio

El artículo presenta Trilobyte, un esquema de tokenización a nivel de byte que hace viable la compresión sin pérdidas de audio de 24 bits mediante modelos de lenguaje autoregresivos, demostrando que, aunque superan a FLAC en audio de 8 y 16 bits, sus ventajas de compresión se vuelven más modestas a medida que aumenta la profundidad de bits.

Phillip Long, Zachary Novack, Chris DonahueTue, 10 Ma🤖 cs.LG

Are Deep Speech Denoising Models Robust to Adversarial Noise?

El estudio demuestra que cuatro modelos recientes de supresión de ruido profundo pueden ser engañados mediante ruido adversario psicoacústicamente oculto para generar salida ininteligible, revelando vulnerabilidades críticas que requieren contramedidas antes de su uso en aplicaciones de seguridad.

Will Schwarzer, Neel Chaudhari, Philip S. Thomas, Andrea Fanelli, Xiaoyu LiuThu, 12 Ma⚡ eess

← Anterior Siguiente →