cs.SD artigos | Gist.Science

TimberAgent: Gram-Guided Retrieval for Executable Music Effect Control

O artigo apresenta o TimberAgent, um sistema de controle de efeitos de áudio baseado em recuperação orientada por gramas (TRR) que utiliza matrizes de Gram de ativações do Wav2Vec2 para mapear com precisão a intenção semântica do usuário para configurações editáveis de plugins, superando métodos existentes em benchmarks de efeitos de guitarra e validado por estudos perceptivos.

Shihao He, Yihan Xia, Fang Liu, Taotao Wang, Shengli ZhangWed, 11 Ma🤖 cs.AI

Physics-Informed Neural Engine Sound Modeling with Differentiable Pulse-Train Synthesis

O artigo apresenta o modelo Pulse-Train-Resonator (PTR), uma arquitetura de síntese diferenciável baseada em física que gera sons de motor simulando diretamente pulsos de pressão e ressonâncias acústicas, superando modelos de base harmônica com maior precisão e parâmetros interpretáveis.

Robin Doerfler, Lonce WyseWed, 11 Ma🤖 cs.AI

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

O artigo apresenta o MUGEN, um benchmark abrangente que revela as limitações dos Modelos Grandes de Áudio-Linguagem na compreensão de múltiplos áudios simultâneos e demonstra que estratégias de treinamento sem supervisão, como a Autoconsistência Permutacional de Áudio combinada com Cadeia de Pensamento, podem melhorar significativamente o desempenho nesses cenários.

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi LeeWed, 11 Ma🤖 cs.AI

EmoSURA: Towards Accurate Evaluation of Detailed and Long-Context Emotional Speech Captions

O artigo apresenta o EmoSURA, um novo framework de avaliação que substitui a pontuação holística pela verificação atômica de unidades perceptivas fundamentadas no áudio, superando as limitações das métricas tradicionais e dos juízes LLM na avaliação de legendas emocionais longas e detalhadas.

Xin Jing, Andreas Triantafyllopoulos, Jiadong Wang, Shahin Amiriparian, Jun Luo, Björn SchullerWed, 11 Ma💻 cs

SCENEBench: An Audio Understanding Benchmark Grounded in Assistive and Industrial Use Cases

O artigo apresenta o SCENEBench, um conjunto de benchmarks para avaliar a compreensão de áudio além da transcrição de fala, focando em cenários de acessibilidade e industriais como a compreensão de sons ambientes, localização de ruído e reconhecimento de características vocais, e revela lacunas críticas no desempenho de modelos de linguagem de áudio de última geração.

Laya Iyer, Angelina Wang, Sanmi KoyejoWed, 11 Ma🤖 cs.AI

Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis

Este artigo apresenta o MLVAS, um sistema multimodal que integra análise de vídeo e áudio para extrair automaticamente segmentos-chave e métricas de videolaringoscopia, visando auxiliar no diagnóstico clínico da paralisia das pregas vocais.

Yucong Zhang, Xin Zou, Jinshan Yang, Wenjun Chen, Juan Liu, Faya Liang, Ming LiTue, 10 Ma💻 cs

ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance

O artigo apresenta o ExpGest, um novo framework baseado em modelo de difusão que utiliza informações sincronizadas de áudio e texto para gerar gestos corporais completos, expressivos e controláveis, superando as limitações de rigidez e falta de contexto emocional dos métodos existentes.

Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei LiuTue, 10 Ma💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Este artigo apresenta a Tarefa 5 do Desafio DCASE 2025, um benchmark de Resposta a Perguntas sobre Áudio (AQA) que abrange múltiplos domínios acústicos para avaliar e avançar as capacidades de raciocínio de modelos de linguagem-audio em direção à acuidade humana.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

O artigo apresenta o BemaGANv2, um vocoder baseado em GAN aprimorado para geração de áudio de longo prazo, que substitui blocos Res por módulos AMP com função de ativação Snake e integra o Discriminador Multi-Envelope (MED) ao Discriminador Multi-Resolução (MRD) para otimizar a coerência temporal e a estrutura harmônica através de uma avaliação sistemática de estratégias de combinação de discriminadores.

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul KwonTue, 10 Ma🤖 cs.LG

WaLi: Can Pressure Sensors in HVAC Systems Capture Human Speech?

O artigo apresenta o WaLi, um ataque de privacidade que demonstra ser possível reconstruir fala inteligível a partir de dados de sensores de pressão em sistemas HVAC, utilizando uma arquitetura baseada em Conformer de valor complexo e blocos de atenção global para mitigar ruídos e aliasing, revelando uma vulnerabilidade de segurança previamente ignorada nesses dispositivos.

Tarikul Islam Tamiti, Biraj Joshi, Rida Hasan, Anomadarshi BaruaTue, 10 Ma💻 cs

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

O artigo apresenta o SUBARU, uma abordagem prática que reduz o consumo de energia em dispositivos auditivos ao utilizar amostragem sub-Nyquist e baixa resolução de bits, recuperando a qualidade do áudio por meio de um método de super-resolução que permite processamento eficiente em tempo real em ambientes ruidosos.

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi BaruaTue, 10 Ma💻 cs

ECHO: Frequency-aware Hierarchical Encoding for Variable-length Signals

O artigo apresenta o ECHO, um modelo fundamental inovador que utiliza uma arquitetura de divisão de bandas e embeddings posicionais de frequência para processar sinais de máquinas de comprimento variável e taxas de amostragem arbitrárias, alcançando desempenho de ponta na detecção de anomalias e classificação de falhas em diversos conjuntos de dados industriais.

Yucong Zhang, Juan Liu, Ming LiTue, 10 Ma🤖 cs.LG

LibriTTS-VI: A Public Corpus and Novel Methods for Efficient Voice Impression Control

Este artigo apresenta o LibriTTS-VI, o primeiro corpus público para controle de impressão vocal, e propõe métodos inovadores de treinamento desentrelaçado e sem referência que superam o vazamento de impressão e permitem um controle numérico preciso e eficiente na síntese de fala.

Junki Ohmura, Yuki Ito, Emiru Tsunoo, Toshiyuki Sekiya, Toshiyuki KumakuraTue, 10 Ma💻 cs

Improving X-Codec-2.0 for Multi-Lingual Speech: 25 Hz Latent Rate and 24 kHz Sampling

Este trabalho aprimora o modelo X-Codec-2.0 para processamento de fala multilíngue ao reduzir a taxa latente para 25 Hz e aumentar a taxa de amostragem para 24 kHz, resultando em maior eficiência e qualidade perceptiva superior sem alterar a arquitetura central.

Husein ZolkepliTue, 10 Ma💬 cs.CL

Are Audio-Language Models Listening? Audio-Specialist Heads for Adaptive Audio Steering

O artigo propõe uma técnica de interpretabilidade mecânica para identificar cabeças de atenção especializadas em áudio em modelos de linguagem multimodal, permitindo a aplicação de uma intervenção de ativação durante a inferência que amplifica a atenção ao áudio e melhora a precisão em até 8 pontos percentuais sem atualizar os parâmetros do modelo.

Neta Glazer, Lenny Aharon, Ethan FetayaTue, 10 Ma💻 cs

Adaptive Discovery of Interpretable Audio Attributes with Multimodal LLMs for Low-Resource Classification

Este artigo propõe um método que utiliza Modelos de Linguagem Multimodais (MLLMs) para substituir a descoberta manual de atributos interpretáveis no framework AdaFlock, permitindo a criação de classificadores de áudio de alta precisão e adaptáveis para cenários de poucos recursos em apenas 11 minutos.

Kosuke Yoshimura, Hisashi KashimaTue, 10 Ma🤖 cs.LG

Toward Multimodal Industrial Fault Analysis: A Single-Speed Chain Conveyor Dataset with Audio and Vibration Signals

Este artigo apresenta um novo conjunto de dados multimodal para análise de falhas industriais, coletado de um transportador de corrente de velocidade única com sinais de áudio e vibração, projetado para suportar pesquisa em detecção de falhas e fusão multimodal sob diversas condições operacionais e de ruído.

Zhang Chen, Yucong Zhang, Xiaoxiao Miao, Ming LiTue, 10 Ma💻 cs

Towards Objective Gastrointestinal Auscultation: Automated Segmentation and Annotation of Bowel Sound Patterns

Este estudo apresenta um sistema automatizado de segmentação e classificação de sons intestinais, utilizando sensores acústicos vestíveis e modelos de aprendizado profundo, que oferece uma avaliação objetiva e quantitativa da atividade gastrointestinal, reduzindo significativamente o tempo de anotação manual e apoiando o diagnóstico clínico.

Zahra Mansour, Verena Uslar, Dirk Weyhe, Danilo Hollosi, Nils StrodthoffTue, 10 Ma🤖 cs.LG

Seeing the Context: Rich Visual Context-Aware Speech Recognition via Multimodal Reasoning

Este artigo apresenta o VASR, um modelo de reconhecimento de fala que utiliza raciocínio multimodal e uma cadeia de pensamento áudio-visual (AV-CoT) para integrar e analisar o contexto visual rico (como cenas e texto na tela) além dos movimentos labiais, superando a dependência excessiva de uma única modalidade e alcançando desempenho state-of-the-art em reconhecimento de fala contextualizado.

Wenjie Tian, Mingchen Shao, Bingshen Mu, Xuelong Geng, Chengyou Wang, Yujie Liao, Zhixian Zhao, Ziyu Zhang, Jingbin Hu, Mengqi Wei, Lei XieTue, 10 Ma💻 cs

Fast and Flexible Audio Bandwidth Extension via Vocos

Este artigo apresenta um modelo de extensão de largura de banda baseado no Vocos que gera conteúdo de alta frequência ausente em áudio de 8 a 48 kHz com qualidade competitiva e eficiência extrema, alcançando taxas de processamento em tempo real de 0,0001 em GPU e 0,0053 em CPU.

Yatharth SharmaTue, 10 Ma🤖 cs.LG

← Anterior Próximo →