LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio

El artículo presenta LongAudio-RAG, un marco híbrido que mejora la respuesta a preguntas sobre audios de larga duración al fundamentar las respuestas de los modelos de lenguaje en eventos acústicos recuperados de una base de datos SQL, permitiendo un despliegue eficiente en entornos edge-cloud con alta precisión y baja alucinación.

Naveen Vakada, Kartik Hegde, Arvind Krishna Sridhar, Yinyi Guo, Erik VisserTue, 10 Ma🤖 cs.LG

Toward Multimodal Industrial Fault Analysis: A Single-Speed Chain Conveyor Dataset with Audio and Vibration Signals

Este artículo presenta un nuevo conjunto de datos multimodal que combina señales de audio y vibración de un transportador de cadena de velocidad única, diseñado para facilitar la investigación sobre detección y clasificación de fallos industriales mediante análisis de canales individuales y fusión multimodal bajo diversas condiciones operativas.

Zhang Chen, Yucong Zhang, Xiaoxiao Miao, Ming LiTue, 10 Ma💻 cs

Towards Objective Gastrointestinal Auscultation: Automated Segmentation and Annotation of Bowel Sound Patterns

Este estudio presenta un sistema automatizado basado en sensores acústicos portátiles y modelos de aprendizaje profundo que segmenta y clasifica los sonidos intestinales con alta precisión, reduciendo significativamente el tiempo de etiquetado manual y ofreciendo a los clínicos una herramienta objetiva para la evaluación cuantitativa de la función gastrointestinal.

Zahra Mansour, Verena Uslar, Dirk Weyhe, Danilo Hollosi, Nils StrodthoffTue, 10 Ma🤖 cs.LG

Scaling Self-Supervised Speech Models Uncovers Deep Linguistic Relationships: Evidence from the Pacific Cluster

El estudio demuestra que escalar los modelos de habla auto-supervisados de 126 a 4.017 idiomas provoca un cambio cualitativo no lineal que permite recuperar relaciones filogenéticas profundas y revelar un macro-clúster robusto en el Pacífico, evidenciando que estos modelos masivos pueden internalizar múltiples capas de la historia lingüística.

Minu Kim, Hoirin Kim, David R. MortensenTue, 10 Ma💬 cs.CL

Seeing the Context: Rich Visual Context-Aware Speech Recognition via Multimodal Reasoning

El artículo presenta VASR, un sistema de reconocimiento de voz que utiliza un razonamiento multimodal basado en el pensamiento en cadena (AV-CoT) para integrar y analizar el contexto visual rico más allá de los movimientos labiales, logrando así un rendimiento superior al estado del arte al mitigar el problema de la dominancia de una sola modalidad.

Wenjie Tian, Mingchen Shao, Bingshen Mu, Xuelong Geng, Chengyou Wang, Yujie Liao, Zhixian Zhao, Ziyu Zhang, Jingbin Hu, Mengqi Wei, Lei XieTue, 10 Ma💻 cs

Towards Lightweight Adaptation of Speech Enhancement Models in Real-World Environments

Este trabajo propone un marco de adaptación ligero que, mediante el uso de adaptadores de bajo rango actualizados con aprendizaje auto-supervisado sobre una base congelada, mejora la robustez de los modelos de mejora de voz en entornos acústicos dinámicos con menos del 1% de parámetros actualizados y una rápida convergencia, facilitando su implementación en dispositivos.

Longbiao Cheng, Shih-Chii LiuTue, 10 Ma🤖 cs.LG

Evaluating Parkinson's Disease Detection in Anonymized Speech: A Performance and Acoustic Analysis

Este estudio demuestra que es viable detectar la enfermedad de Parkinson en habla anonimizada preservando la información patológica mediante el uso de kNN-VC, el cual mantiene características macroprosódicas clave y logra puntuaciones F1 cercanas a las del habla original, a diferencia de los sistemas STT-TTS que eliminan dicha información al priorizar la privacidad.

Carlos Franzreb, Francisco Teixeira, Ben Luks, Sebastian Möller, Alberto AbadTue, 10 Ma💻 cs

WhispEar: A Bi-directional Framework for Scaling Whispered Speech Conversion via Pseudo-Parallel Whisper Generation

El artículo presenta WhispEar, un marco bidireccional que utiliza la generación de susurros pseudo-paralelos a partir de habla normal para escalar la conversión de susurros a habla normal, superando las limitaciones de datos y logrando un rendimiento superior en un corpus bilingüe recién creado.

Zihao Fang, Yingda Shen, Zifan Guan, Tongtong Song, Zhenyi Liu, Zhizheng WuTue, 10 Ma💻 cs

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

Este trabajo presenta un marco innovador para el reconocimiento de emociones ambiguas en modelos grandes de audio-idioma, reformulando la tarea como un problema de razonamiento distribucional mediante un objetivo consciente de la ambigüedad y una supervisión estructurada de pensamiento en cadena que alinea las predicciones con las distribuciones perceptuales humanas.

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting DangTue, 10 Ma💻 cs

Quantifying Cross-Lingual Transfer in Paralinguistic Speech Tasks

Este artículo presenta la Matriz de Transferencia Cross-Lingual (CLTM), un método sistemático para cuantificar cómo los datos de un idioma donante afectan el rendimiento en tareas paralingüísticas como la identificación de género y la verificación de hablante en un idioma objetivo, revelando patrones de transferencia distintos y dependientes del idioma.

Pol Buitrago, Oriol Pareras, Federico Costa, Javier HernandoTue, 10 Ma💬 cs.CL

Computational modeling of early language learning from acoustic speech and audiovisual input without linguistic priors

Este capítulo revisa cómo los modelos computacionales de aprendizaje auto-supervisado y visualmente fundamentado permiten explicar la adquisición temprana del lenguaje a partir de señales acústicas y audiovisuales sin recurrir a prios lingüísticos, demostrando que principios de aprendizaje compartidos pueden replicar tanto el comportamiento de los modelos como los hallazgos empíricos sobre el desarrollo infantil.

Okko RäsänenTue, 10 Ma💬 cs.CL