LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio

O artigo apresenta o LongAudio-RAG, um framework híbrido que responde a perguntas sobre áudios de longa duração ao converter gravações em registros de eventos estruturados para recuperação precisa e geração de respostas por modelos de linguagem, demonstrando sua eficácia e viabilidade em uma arquitetura de borda-nuvem.

Naveen Vakada, Kartik Hegde, Arvind Krishna Sridhar, Yinyi Guo, Erik VisserTue, 10 Ma🤖 cs.LG

Towards Objective Gastrointestinal Auscultation: Automated Segmentation and Annotation of Bowel Sound Patterns

Este estudo apresenta um sistema automatizado de segmentação e classificação de sons intestinais, utilizando sensores acústicos vestíveis e modelos de aprendizado profundo, que oferece uma avaliação objetiva e quantitativa da atividade gastrointestinal, reduzindo significativamente o tempo de anotação manual e apoiando o diagnóstico clínico.

Zahra Mansour, Verena Uslar, Dirk Weyhe, Danilo Hollosi, Nils StrodthoffTue, 10 Ma🤖 cs.LG

Scaling Self-Supervised Speech Models Uncovers Deep Linguistic Relationships: Evidence from the Pacific Cluster

O estudo demonstra que a expansão da cobertura linguística em modelos de fala auto-supervisionados de 126 para 4.017 línguas desencadeia uma mudança qualitativa não linear, permitindo a recuperação de linhagens filogenéticas profundas e a identificação de um macro-cluster robusto no Pacífico, evidenciando que esses modelos em larga escala conseguem capturar múltiplas camadas da história linguística e de contato.

Minu Kim, Hoirin Kim, David R. MortensenTue, 10 Ma💬 cs.CL

Seeing the Context: Rich Visual Context-Aware Speech Recognition via Multimodal Reasoning

Este artigo apresenta o VASR, um modelo de reconhecimento de fala que utiliza raciocínio multimodal e uma cadeia de pensamento áudio-visual (AV-CoT) para integrar e analisar o contexto visual rico (como cenas e texto na tela) além dos movimentos labiais, superando a dependência excessiva de uma única modalidade e alcançando desempenho state-of-the-art em reconhecimento de fala contextualizado.

Wenjie Tian, Mingchen Shao, Bingshen Mu, Xuelong Geng, Chengyou Wang, Yujie Liao, Zhixian Zhao, Ziyu Zhang, Jingbin Hu, Mengqi Wei, Lei XieTue, 10 Ma💻 cs

Towards Lightweight Adaptation of Speech Enhancement Models in Real-World Environments

Este trabalho propõe um framework leve para adaptação on-device de modelos de aprimoramento de fala em ambientes acústicos dinâmicos, que atualiza menos de 1% dos parâmetros do modelo base via adaptadores de baixo posto e treinamento auto-supervisionado, alcançando melhorias significativas na qualidade perceptiva com rápida convergência em cenários de ruído desafiadores.

Longbiao Cheng, Shih-Chii LiuTue, 10 Ma🤖 cs.LG

Evaluating Parkinson's Disease Detection in Anonymized Speech: A Performance and Acoustic Analysis

Este artigo avalia o equilíbrio entre privacidade e detecção de Parkinson em fala anonimizada, demonstrando que o método kNN-VC preserva características acústicas essenciais para manter a eficácia do diagnóstico com apenas uma leve redução no desempenho, ao contrário do método STT-TTS que degrada severamente a detecção ao eliminar informações prosódicas.

Carlos Franzreb, Francisco Teixeira, Ben Luks, Sebastian Möller, Alberto AbadTue, 10 Ma💻 cs

Analysis-Driven Procedural Generation of an Engine Sound Dataset with Embedded Control Annotations

Este artigo apresenta um framework de geração procedural de dados de som de motor com anotações de controle precisas, baseado na extração de estruturas harmônicas de gravações reais, resultando no Procedural Engine Sounds Dataset, um conjunto de dados público validado para apoiar pesquisas em modelagem acústica e síntese baseada em aprendizado.

Robin Doerfler, Lonce WyseTue, 10 Ma🤖 cs.LG

WhispEar: A Bi-directional Framework for Scaling Whispered Speech Conversion via Pseudo-Parallel Whisper Generation

O artigo apresenta o WhispEar, um framework bidirecional que utiliza a geração de sussurros pseudo-paralelos a partir de fala normal para escalar o treinamento de conversão de sussurro para fala normal, alcançando desempenho superior e disponibilizando o maior corpus paralelo bilíngue (chinês-inglês) existente.

Zihao Fang, Yingda Shen, Zifan Guan, Tongtong Song, Zhenyi Liu, Zhizheng WuTue, 10 Ma💻 cs

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

Este trabalho reformula o reconhecimento de emoções ambíguas como um problema de raciocínio distribucional em Modelos de Linguagem e Áudio Grandes (LALMs), introduzindo um framework com objetivos alinhados a distribuições perceptivas humanas e supervisão estruturada de cadeia de pensamento que demonstra melhorias consistentes em tarefas de previsão de emoções ambíguas.

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting DangTue, 10 Ma💻 cs

Quantifying Cross-Lingual Transfer in Paralinguistic Speech Tasks

Este artigo apresenta a Matriz de Transferência Cross-Lingual (CLTM), um método sistemático para quantificar como os dados de línguas-fonte afetam o desempenho em tarefas paralinguísticas como identificação de gênero e verificação de locutor, revelando padrões de transferência distintos e dependentes da língua ao utilizar um codificador multilíngue baseado em HuBERT.

Pol Buitrago, Oriol Pareras, Federico Costa, Javier HernandoTue, 10 Ma💬 cs.CL

Bootstrapping Audiovisual Speech Recognition in Zero-AV-Resource Scenarios with Synthetic Visual Data

O artigo propõe um framework de reconhecimento de fala audiovisual para cenários sem recursos que utiliza dados visuais sintéticos gerados por sincronização labial de imagens estáticas com áudio real, demonstrando eficácia ao alcançar desempenho próximo ao estado da arte em catalão com menos dados e parâmetros que os métodos tradicionais.

Pol Buitrago, Pol Gàlvez, Oriol Pareras, Javier HernandoTue, 10 Ma💬 cs.CL