How Contrastive Decoding Enhances Large Audio Language Models?

Este estudo avalia sistematicamente quatro estratégias de Decodificação Contrastiva em Modelos de Linguagem de Áudio de Grande Escala, identificando as mais eficazes e propondo uma estrutura de Matriz de Transição para explicar como essas técnicas corrigem erros específicos, como a negação falsa de áudio ou o palpite por incerteza, fornecendo diretrizes para selecionar a melhor estratégia com base no perfil de erros do modelo.

Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi LeeWed, 11 Ma💬 cs.CL

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

O artigo apresenta o MUGEN, um benchmark abrangente que revela as limitações dos Modelos Grandes de Áudio-Linguagem na compreensão de múltiplos áudios simultâneos e demonstra que estratégias de treinamento sem supervisão, como a Autoconsistência Permutacional de Áudio combinada com Cadeia de Pensamento, podem melhorar significativamente o desempenho nesses cenários.

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi LeeWed, 11 Ma🤖 cs.AI

A Semi-spontaneous Dutch Speech Dataset for Speech Enhancement and Speech Recognition

Este artigo apresenta o DRES, um conjunto de dados de fala realista e semi-espontânea em holandês gravado em ambientes públicos ruidosos, e avalia seu impacto no desempenho de modelos de reconhecimento de fala e aprimoramento de fala, descobrindo que, apesar de alguns modelos de ASR alcançarem bons resultados, o uso de algoritmos de aprimoramento de fala de canal único não melhorou o desempenho geral.

Dimme de Groot, Yuanyuan Zhang, Jorge Martinez, Odette ScharenborgWed, 11 Ma⚡ eess

Distributed Multichannel Wiener Filtering for Wireless Acoustic Sensor Networks

Este artigo propõe o filtro de Wiener multicanal distribuído (dMWF), um algoritmo não iterativo e ótimo para redes de sensores acústicos sem fio que supera as limitações de convergência e de observação de fontes dos métodos existentes, alcançando desempenho equivalente ao de sistemas centralizados com menor uso de largura de banda.

Paul Didier, Toon van Waterschoot, Simon Doclo, Jörg Bitzer, Pourya Behmandpoor, Henri Gode, Marc MoonenWed, 11 Ma⚡ eess

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Este artigo apresenta a Tarefa 5 do Desafio DCASE 2025, um benchmark de Resposta a Perguntas sobre Áudio (AQA) que abrange múltiplos domínios acústicos para avaliar e avançar as capacidades de raciocínio de modelos de linguagem-audio em direção à acuidade humana.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

O artigo apresenta o BemaGANv2, um vocoder baseado em GAN aprimorado para geração de áudio de longo prazo, que substitui blocos Res por módulos AMP com função de ativação Snake e integra o Discriminador Multi-Envelope (MED) ao Discriminador Multi-Resolução (MRD) para otimizar a coerência temporal e a estrutura harmônica através de uma avaliação sistemática de estratégias de combinação de discriminadores.

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul KwonTue, 10 Ma🤖 cs.LG

WaLi: Can Pressure Sensors in HVAC Systems Capture Human Speech?

O artigo apresenta o WaLi, um ataque de privacidade que demonstra ser possível reconstruir fala inteligível a partir de dados de sensores de pressão em sistemas HVAC, utilizando uma arquitetura baseada em Conformer de valor complexo e blocos de atenção global para mitigar ruídos e aliasing, revelando uma vulnerabilidade de segurança previamente ignorada nesses dispositivos.

Tarikul Islam Tamiti, Biraj Joshi, Rida Hasan, Anomadarshi BaruaTue, 10 Ma💻 cs

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

O artigo apresenta o SUBARU, uma abordagem prática que reduz o consumo de energia em dispositivos auditivos ao utilizar amostragem sub-Nyquist e baixa resolução de bits, recuperando a qualidade do áudio por meio de um método de super-resolução que permite processamento eficiente em tempo real em ambientes ruidosos.

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi BaruaTue, 10 Ma💻 cs