eess.AS artigos | Gist.Science

LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio

O artigo apresenta o LongAudio-RAG, um framework híbrido que responde a perguntas sobre áudios de longa duração ao converter gravações em registros de eventos estruturados para recuperação precisa e geração de respostas por modelos de linguagem, demonstrando sua eficácia e viabilidade em uma arquitetura de borda-nuvem.

Naveen Vakada, Kartik Hegde, Arvind Krishna Sridhar, Yinyi Guo, Erik VisserTue, 10 Ma🤖 cs.LG

TCG CREST System Description for the DISPLACE-M Challenge

Este relatório descreve o sistema TCG CREST para o desafio DISPLACE-M, demonstrando que uma abordagem híbrida end-to-end baseada no WavLM (Diarizen) superou significativamente a linha de base SpeechBrain, alcançando uma taxa de erro de diarização (DER) de 9,21% e a sexta posição entre 11 equipes.

Nikhil Raghav, Md SahidullahTue, 10 Ma🤖 cs.LG

Toward Multimodal Industrial Fault Analysis: A Single-Speed Chain Conveyor Dataset with Audio and Vibration Signals

Este artigo apresenta um novo conjunto de dados multimodal para análise de falhas industriais, coletado de um transportador de corrente de velocidade única com sinais de áudio e vibração, projetado para suportar pesquisa em detecção de falhas e fusão multimodal sob diversas condições operacionais e de ruído.

Zhang Chen, Yucong Zhang, Xiaoxiao Miao, Ming LiTue, 10 Ma💻 cs

Towards Objective Gastrointestinal Auscultation: Automated Segmentation and Annotation of Bowel Sound Patterns

Este estudo apresenta um sistema automatizado de segmentação e classificação de sons intestinais, utilizando sensores acústicos vestíveis e modelos de aprendizado profundo, que oferece uma avaliação objetiva e quantitativa da atividade gastrointestinal, reduzindo significativamente o tempo de anotação manual e apoiando o diagnóstico clínico.

Zahra Mansour, Verena Uslar, Dirk Weyhe, Danilo Hollosi, Nils StrodthoffTue, 10 Ma🤖 cs.LG

Scaling Self-Supervised Speech Models Uncovers Deep Linguistic Relationships: Evidence from the Pacific Cluster

O estudo demonstra que a expansão da cobertura linguística em modelos de fala auto-supervisionados de 126 para 4.017 línguas desencadeia uma mudança qualitativa não linear, permitindo a recuperação de linhagens filogenéticas profundas e a identificação de um macro-cluster robusto no Pacífico, evidenciando que esses modelos em larga escala conseguem capturar múltiplas camadas da história linguística e de contato.

Minu Kim, Hoirin Kim, David R. MortensenTue, 10 Ma💬 cs.CL

Seeing the Context: Rich Visual Context-Aware Speech Recognition via Multimodal Reasoning

Este artigo apresenta o VASR, um modelo de reconhecimento de fala que utiliza raciocínio multimodal e uma cadeia de pensamento áudio-visual (AV-CoT) para integrar e analisar o contexto visual rico (como cenas e texto na tela) além dos movimentos labiais, superando a dependência excessiva de uma única modalidade e alcançando desempenho state-of-the-art em reconhecimento de fala contextualizado.

Wenjie Tian, Mingchen Shao, Bingshen Mu, Xuelong Geng, Chengyou Wang, Yujie Liao, Zhixian Zhao, Ziyu Zhang, Jingbin Hu, Mengqi Wei, Lei XieTue, 10 Ma💻 cs

Fast and Flexible Audio Bandwidth Extension via Vocos

Este artigo apresenta um modelo de extensão de largura de banda baseado no Vocos que gera conteúdo de alta frequência ausente em áudio de 8 a 48 kHz com qualidade competitiva e eficiência extrema, alcançando taxas de processamento em tempo real de 0,0001 em GPU e 0,0053 em CPU.

Yatharth SharmaTue, 10 Ma🤖 cs.LG

Towards Lightweight Adaptation of Speech Enhancement Models in Real-World Environments

Este trabalho propõe um framework leve para adaptação on-device de modelos de aprimoramento de fala em ambientes acústicos dinâmicos, que atualiza menos de 1% dos parâmetros do modelo base via adaptadores de baixo posto e treinamento auto-supervisionado, alcançando melhorias significativas na qualidade perceptiva com rápida convergência em cenários de ruído desafiadores.

Longbiao Cheng, Shih-Chii LiuTue, 10 Ma🤖 cs.LG

Evaluating Parkinson's Disease Detection in Anonymized Speech: A Performance and Acoustic Analysis

Este artigo avalia o equilíbrio entre privacidade e detecção de Parkinson em fala anonimizada, demonstrando que o método kNN-VC preserva características acústicas essenciais para manter a eficácia do diagnóstico com apenas uma leve redução no desempenho, ao contrário do método STT-TTS que degrada severamente a detecção ao eliminar informações prosódicas.

Carlos Franzreb, Francisco Teixeira, Ben Luks, Sebastian Möller, Alberto AbadTue, 10 Ma💻 cs

Analysis-Driven Procedural Generation of an Engine Sound Dataset with Embedded Control Annotations

Este artigo apresenta um framework de geração procedural de dados de som de motor com anotações de controle precisas, baseado na extração de estruturas harmônicas de gravações reais, resultando no Procedural Engine Sounds Dataset, um conjunto de dados público validado para apoiar pesquisas em modelagem acústica e síntese baseada em aprendizado.

Robin Doerfler, Lonce WyseTue, 10 Ma🤖 cs.LG

SoundWeaver: Semantic Warm-Starting for Text-to-Audio Diffusion Serving

O SoundWeaver é um sistema de serviço sem treinamento e agnóstico a modelos que acelera a geração de áudio por difusão texto-para-áudio ao reiniciar o processo com base em áudio em cache semanticamente similar, reduzindo a latência em 1,8 a 3,0 vezes sem comprometer a qualidade perceptual.

Ayush Barik, Sofia Stoica, Nikhil Sarda, Arnav Kethana, Abhinav Khanduja, Muchen Xu, Fan LaiTue, 10 Ma💻 cs

WhispEar: A Bi-directional Framework for Scaling Whispered Speech Conversion via Pseudo-Parallel Whisper Generation

O artigo apresenta o WhispEar, um framework bidirecional que utiliza a geração de sussurros pseudo-paralelos a partir de fala normal para escalar o treinamento de conversão de sussurro para fala normal, alcançando desempenho superior e disponibilizando o maior corpus paralelo bilíngue (chinês-inglês) existente.

Zihao Fang, Yingda Shen, Zifan Guan, Tongtong Song, Zhenyi Liu, Zhizheng WuTue, 10 Ma💻 cs

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

O artigo apresenta o FoleyFlow, um modelo que gera áudio sincronizado com vídeos utilizando alinhamento multimodal baseado em mascaramento e um fluxo condicional dinâmico para garantir coerência semântica e rítmica, superando os métodos existentes em benchmarks padrão.

Shentong Mo, Yibing SongTue, 10 Ma🤖 cs.LG

DualTurn: Learning Turn-Taking from Dual-Channel Generative Speech Pretraining

O artigo apresenta o DualTurn, um modelo pré-treinado generativo em áudio conversacional de dois canais que supera os métodos existentes na previsão de ações de agente e na antecipação de limites de turno, permitindo uma interação mais natural e eficiente sem depender de timeouts de silêncio.

Shangeth RajaaTue, 10 Ma💬 cs.CL

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

Este trabalho reformula o reconhecimento de emoções ambíguas como um problema de raciocínio distribucional em Modelos de Linguagem e Áudio Grandes (LALMs), introduzindo um framework com objetivos alinhados a distribuições perceptivas humanas e supervisão estruturada de cadeia de pensamento que demonstra melhorias consistentes em tarefas de previsão de emoções ambíguas.

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting DangTue, 10 Ma💻 cs

Quantifying Cross-Lingual Transfer in Paralinguistic Speech Tasks

Este artigo apresenta a Matriz de Transferência Cross-Lingual (CLTM), um método sistemático para quantificar como os dados de línguas-fonte afetam o desempenho em tarefas paralinguísticas como identificação de gênero e verificação de locutor, revelando padrões de transferência distintos e dependentes da língua ao utilizar um codificador multilíngue baseado em HuBERT.

Pol Buitrago, Oriol Pareras, Federico Costa, Javier HernandoTue, 10 Ma💬 cs.CL

Bootstrapping Audiovisual Speech Recognition in Zero-AV-Resource Scenarios with Synthetic Visual Data

O artigo propõe um framework de reconhecimento de fala audiovisual para cenários sem recursos que utiliza dados visuais sintéticos gerados por sincronização labial de imagens estáticas com áudio real, demonstrando eficácia ao alcançar desempenho próximo ao estado da arte em catalão com menos dados e parâmetros que os métodos tradicionais.

Pol Buitrago, Pol Gàlvez, Oriol Pareras, Javier HernandoTue, 10 Ma💬 cs.CL

Computational modeling of early language learning from acoustic speech and audiovisual input without linguistic priors

Este capítulo revisa o avanço de modelos computacionais de aprendizado não supervisionado e fundamentado visualmente que demonstram como os princípios de percepção podem explicar a aquisição inicial da linguagem a partir de sinais acústicos e audiovisuais, sem a necessidade de pressupostos linguísticos prévios.

Okko RäsänenTue, 10 Ma💬 cs.CL

Benchmarking Language Modeling for Lossless Compression of Full-Fidelity Audio

O artigo apresenta o Trilobyte, um esquema de tokenização em nível de byte que viabiliza a compressão sem perdas de áudio em alta fidelidade (até 24 bits) usando modelos de linguagem autoregressivos, superando o FLAC em resoluções de 8 e 16 bits, embora os ganhos de compressão diminuam à medida que a profundidade de bits aumenta.

Phillip Long, Zachary Novack, Chris DonahueTue, 10 Ma🤖 cs.LG

Are Deep Speech Denoising Models Robust to Adversarial Noise?

O artigo demonstra que modelos recentes de supressão de ruído em fala podem ser facilmente enganados por ruído adversarial imperceptível, resultando em áudio ininteligível e destacando a necessidade de contramedidas antes de sua adoção em aplicações críticas.

Will Schwarzer, Neel Chaudhari, Philip S. Thomas, Andrea Fanelli, Xiaoyu LiuThu, 12 Ma⚡ eess

← Anterior Próximo →