TimberAgent: Gram-Guided Retrieval for Executable Music Effect Control

O artigo apresenta o TimberAgent, um sistema de controle de efeitos de áudio baseado em recuperação orientada por gramas (TRR) que utiliza matrizes de Gram de ativações do Wav2Vec2 para mapear com precisão a intenção semântica do usuário para configurações editáveis de plugins, superando métodos existentes em benchmarks de efeitos de guitarra e validado por estudos perceptivos.

Shihao He, Yihan Xia, Fang Liu, Taotao Wang, Shengli ZhangWed, 11 Ma🤖 cs.AI

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

O artigo apresenta o MUGEN, um benchmark abrangente que revela as limitações dos Modelos Grandes de Áudio-Linguagem na compreensão de múltiplos áudios simultâneos e demonstra que estratégias de treinamento sem supervisão, como a Autoconsistência Permutacional de Áudio combinada com Cadeia de Pensamento, podem melhorar significativamente o desempenho nesses cenários.

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi LeeWed, 11 Ma🤖 cs.AI

EmoSURA: Towards Accurate Evaluation of Detailed and Long-Context Emotional Speech Captions

O artigo apresenta o EmoSURA, um novo framework de avaliação que substitui a pontuação holística pela verificação atômica de unidades perceptivas fundamentadas no áudio, superando as limitações das métricas tradicionais e dos juízes LLM na avaliação de legendas emocionais longas e detalhadas.

Xin Jing, Andreas Triantafyllopoulos, Jiadong Wang, Shahin Amiriparian, Jun Luo, Björn SchullerWed, 11 Ma💻 cs

SCENEBench: An Audio Understanding Benchmark Grounded in Assistive and Industrial Use Cases

O artigo apresenta o SCENEBench, um conjunto de benchmarks para avaliar a compreensão de áudio além da transcrição de fala, focando em cenários de acessibilidade e industriais como a compreensão de sons ambientes, localização de ruído e reconhecimento de características vocais, e revela lacunas críticas no desempenho de modelos de linguagem de áudio de última geração.

Laya Iyer, Angelina Wang, Sanmi KoyejoWed, 11 Ma🤖 cs.AI

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Este artigo apresenta a Tarefa 5 do Desafio DCASE 2025, um benchmark de Resposta a Perguntas sobre Áudio (AQA) que abrange múltiplos domínios acústicos para avaliar e avançar as capacidades de raciocínio de modelos de linguagem-audio em direção à acuidade humana.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

O artigo apresenta o BemaGANv2, um vocoder baseado em GAN aprimorado para geração de áudio de longo prazo, que substitui blocos Res por módulos AMP com função de ativação Snake e integra o Discriminador Multi-Envelope (MED) ao Discriminador Multi-Resolução (MRD) para otimizar a coerência temporal e a estrutura harmônica através de uma avaliação sistemática de estratégias de combinação de discriminadores.

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul KwonTue, 10 Ma🤖 cs.LG

WaLi: Can Pressure Sensors in HVAC Systems Capture Human Speech?

O artigo apresenta o WaLi, um ataque de privacidade que demonstra ser possível reconstruir fala inteligível a partir de dados de sensores de pressão em sistemas HVAC, utilizando uma arquitetura baseada em Conformer de valor complexo e blocos de atenção global para mitigar ruídos e aliasing, revelando uma vulnerabilidade de segurança previamente ignorada nesses dispositivos.

Tarikul Islam Tamiti, Biraj Joshi, Rida Hasan, Anomadarshi BaruaTue, 10 Ma💻 cs

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

O artigo apresenta o SUBARU, uma abordagem prática que reduz o consumo de energia em dispositivos auditivos ao utilizar amostragem sub-Nyquist e baixa resolução de bits, recuperando a qualidade do áudio por meio de um método de super-resolução que permite processamento eficiente em tempo real em ambientes ruidosos.

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi BaruaTue, 10 Ma💻 cs

Are Audio-Language Models Listening? Audio-Specialist Heads for Adaptive Audio Steering

O artigo propõe uma técnica de interpretabilidade mecânica para identificar cabeças de atenção especializadas em áudio em modelos de linguagem multimodal, permitindo a aplicação de uma intervenção de ativação durante a inferência que amplifica a atenção ao áudio e melhora a precisão em até 8 pontos percentuais sem atualizar os parâmetros do modelo.

Neta Glazer, Lenny Aharon, Ethan FetayaTue, 10 Ma💻 cs

Towards Objective Gastrointestinal Auscultation: Automated Segmentation and Annotation of Bowel Sound Patterns

Este estudo apresenta um sistema automatizado de segmentação e classificação de sons intestinais, utilizando sensores acústicos vestíveis e modelos de aprendizado profundo, que oferece uma avaliação objetiva e quantitativa da atividade gastrointestinal, reduzindo significativamente o tempo de anotação manual e apoiando o diagnóstico clínico.

Zahra Mansour, Verena Uslar, Dirk Weyhe, Danilo Hollosi, Nils StrodthoffTue, 10 Ma🤖 cs.LG

Seeing the Context: Rich Visual Context-Aware Speech Recognition via Multimodal Reasoning

Este artigo apresenta o VASR, um modelo de reconhecimento de fala que utiliza raciocínio multimodal e uma cadeia de pensamento áudio-visual (AV-CoT) para integrar e analisar o contexto visual rico (como cenas e texto na tela) além dos movimentos labiais, superando a dependência excessiva de uma única modalidade e alcançando desempenho state-of-the-art em reconhecimento de fala contextualizado.

Wenjie Tian, Mingchen Shao, Bingshen Mu, Xuelong Geng, Chengyou Wang, Yujie Liao, Zhixian Zhao, Ziyu Zhang, Jingbin Hu, Mengqi Wei, Lei XieTue, 10 Ma💻 cs