eess.AS artigos | Gist.Science

Acoustic and Semantic Modeling of Emotion in Spoken Language

Esta tese aborda o desafio de modelar emoções na linguagem falada ao integrar informações acústicas e semânticas, propondo métodos inovadores para aprendizado de representações, reconhecimento emocional em conversas e transferência de estilo emocional que preservam a identidade do falante e o conteúdo linguístico.

Soumya DuttaWed, 11 Ma⚡ eess

SPAR-K: Scheduled Periodic Alternating Early Exit for Spoken Language Models

O artigo apresenta o SPAR-K, um framework de saída antecipada ciente de modalidade para modelos de linguagem falada intercalados que acelera a inferência reduzindo a profundidade de decodificação da fala através de um agendamento alternado periódico, preservando a qualidade perceptual e a precisão sem sobrecarga computacional adicional.

Hsiao-Ying Huang, Cheng-Han Chiang, Hung-yi LeeWed, 11 Ma💬 cs.CL

How Contrastive Decoding Enhances Large Audio Language Models?

Este estudo avalia sistematicamente quatro estratégias de Decodificação Contrastiva em Modelos de Linguagem de Áudio de Grande Escala, identificando as mais eficazes e propondo uma estrutura de Matriz de Transição para explicar como essas técnicas corrigem erros específicos, como a negação falsa de áudio ou o palpite por incerteza, fornecendo diretrizes para selecionar a melhor estratégia com base no perfil de erros do modelo.

Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi LeeWed, 11 Ma💬 cs.CL

StuPASE: Towards Low-Hallucination Studio-Quality Generative Speech Enhancement

O artigo apresenta o StuPASE, um modelo de aprimoramento de fala baseado no PASE que combina um módulo de correspondência de fluxo e um ajuste fino com alvos secos para alcançar qualidade de estúdio com baixa alucinação, superando os métodos atuais em condições adversas.

Xiaobin Rong, Jun Gao, Zheng Wang, Mansur Yesilbursa, Kamil Wojcicki, Jing LuWed, 11 Ma⚡ eess

Physics-Informed Neural Engine Sound Modeling with Differentiable Pulse-Train Synthesis

O artigo apresenta o modelo Pulse-Train-Resonator (PTR), uma arquitetura de síntese diferenciável baseada em física que gera sons de motor simulando diretamente pulsos de pressão e ressonâncias acústicas, superando modelos de base harmônica com maior precisão e parâmetros interpretáveis.

Robin Doerfler, Lonce WyseWed, 11 Ma🤖 cs.AI

End-to-End Direction-Aware Keyword Spotting with Spatial Priors in Noisy Environments

Este artigo apresenta um framework de detecção de palavras-chave (KWS) multicanal e de ponta a ponta que integra um codificador espacial e priores direcionais para melhorar significativamente a robustez em ambientes ruidosos, superando os sistemas convencionais de canal único e pipeline em cascata.

Rui Wang, Zhifei Zhang, Yu Gao, Xiaofeng Mou, Yi XuWed, 11 Ma⚡ eess

A Fast Solver for Interpolating Stochastic Differential Equation Diffusion Models for Speech Restoration

Este trabalho apresenta um formalismo de Equações Diferenciais Estocásticas Interpoladas (iSDEs) e propõe um solucionador rápido que permite a amostragem eficiente em modelos de difusão para restauração de fala, como o SGMSE+, reduzindo o número de avaliações da rede neural para apenas 10.

Bunlong Lay, Timo GerkmannWed, 11 Ma⚡ eess

Speech-Omni-Lite: Portable Speech Interfaces for Vision-Language Models

O artigo apresenta o Speech-Omni-Lite, um framework eficiente em custo que estende backbones de Visão-Linguagem pré-treinados com capacidades de compreensão e geração de fala através de módulos leves e congelando o modelo original, alcançando desempenho competitivo em perguntas orais com poucos dados de treinamento.

Dehua Tao, Xuan Luo, Daxin Tan, Kai Chen, Lanqing Hong, Jing Li, Ruifeng Xu, Xiao ChenWed, 11 Ma⚡ eess

Finetuning a Text-to-Audio Model for Room Impulse Response Generation

Este artigo propõe uma abordagem inovadora para gerar Respostas ao Impulso de Sala (RIRs) realistas, ajustando um modelo de áudio pré-treinado de texto para áudio e utilizando modelos de linguagem visual para criar descrições acústicas, demonstrando assim a eficácia de priores generativos de áudio em larga escala para simulação acústica e aumento de dados de fala.

Kirak Kim, Sungyoung KimWed, 11 Ma⚡ eess

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

O artigo apresenta o MUGEN, um benchmark abrangente que revela as limitações dos Modelos Grandes de Áudio-Linguagem na compreensão de múltiplos áudios simultâneos e demonstra que estratégias de treinamento sem supervisão, como a Autoconsistência Permutacional de Áudio combinada com Cadeia de Pensamento, podem melhorar significativamente o desempenho nesses cenários.

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi LeeWed, 11 Ma🤖 cs.AI

A Semi-spontaneous Dutch Speech Dataset for Speech Enhancement and Speech Recognition

Este artigo apresenta o DRES, um conjunto de dados de fala realista e semi-espontânea em holandês gravado em ambientes públicos ruidosos, e avalia seu impacto no desempenho de modelos de reconhecimento de fala e aprimoramento de fala, descobrindo que, apesar de alguns modelos de ASR alcançarem bons resultados, o uso de algoritmos de aprimoramento de fala de canal único não melhorou o desempenho geral.

Dimme de Groot, Yuanyuan Zhang, Jorge Martinez, Odette ScharenborgWed, 11 Ma⚡ eess

Distributed Multichannel Wiener Filtering for Wireless Acoustic Sensor Networks

Este artigo propõe o filtro de Wiener multicanal distribuído (dMWF), um algoritmo não iterativo e ótimo para redes de sensores acústicos sem fio que supera as limitações de convergência e de observação de fontes dos métodos existentes, alcançando desempenho equivalente ao de sistemas centralizados com menor uso de largura de banda.

Paul Didier, Toon van Waterschoot, Simon Doclo, Jörg Bitzer, Pourya Behmandpoor, Henri Gode, Marc MoonenWed, 11 Ma⚡ eess

Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis

Este artigo apresenta o MLVAS, um sistema multimodal que integra análise de vídeo e áudio para extrair automaticamente segmentos-chave e métricas de videolaringoscopia, visando auxiliar no diagnóstico clínico da paralisia das pregas vocais.

Yucong Zhang, Xin Zou, Jinshan Yang, Wenjun Chen, Juan Liu, Faya Liang, Ming LiTue, 10 Ma💻 cs

ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance

O artigo apresenta o ExpGest, um novo framework baseado em modelo de difusão que utiliza informações sincronizadas de áudio e texto para gerar gestos corporais completos, expressivos e controláveis, superando as limitações de rigidez e falta de contexto emocional dos métodos existentes.

Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei LiuTue, 10 Ma💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Este artigo apresenta a Tarefa 5 do Desafio DCASE 2025, um benchmark de Resposta a Perguntas sobre Áudio (AQA) que abrange múltiplos domínios acústicos para avaliar e avançar as capacidades de raciocínio de modelos de linguagem-audio em direção à acuidade humana.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

O artigo apresenta o BemaGANv2, um vocoder baseado em GAN aprimorado para geração de áudio de longo prazo, que substitui blocos Res por módulos AMP com função de ativação Snake e integra o Discriminador Multi-Envelope (MED) ao Discriminador Multi-Resolução (MRD) para otimizar a coerência temporal e a estrutura harmônica através de uma avaliação sistemática de estratégias de combinação de discriminadores.

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul KwonTue, 10 Ma🤖 cs.LG

WaLi: Can Pressure Sensors in HVAC Systems Capture Human Speech?

O artigo apresenta o WaLi, um ataque de privacidade que demonstra ser possível reconstruir fala inteligível a partir de dados de sensores de pressão em sistemas HVAC, utilizando uma arquitetura baseada em Conformer de valor complexo e blocos de atenção global para mitigar ruídos e aliasing, revelando uma vulnerabilidade de segurança previamente ignorada nesses dispositivos.

Tarikul Islam Tamiti, Biraj Joshi, Rida Hasan, Anomadarshi BaruaTue, 10 Ma💻 cs

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

O artigo apresenta o SUBARU, uma abordagem prática que reduz o consumo de energia em dispositivos auditivos ao utilizar amostragem sub-Nyquist e baixa resolução de bits, recuperando a qualidade do áudio por meio de um método de super-resolução que permite processamento eficiente em tempo real em ambientes ruidosos.

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi BaruaTue, 10 Ma💻 cs

ECHO: Frequency-aware Hierarchical Encoding for Variable-length Signals

O artigo apresenta o ECHO, um modelo fundamental inovador que utiliza uma arquitetura de divisão de bandas e embeddings posicionais de frequência para processar sinais de máquinas de comprimento variável e taxas de amostragem arbitrárias, alcançando desempenho de ponta na detecção de anomalias e classificação de falhas em diversos conjuntos de dados industriais.

Yucong Zhang, Juan Liu, Ming LiTue, 10 Ma🤖 cs.LG

LibriTTS-VI: A Public Corpus and Novel Methods for Efficient Voice Impression Control

Este artigo apresenta o LibriTTS-VI, o primeiro corpus público para controle de impressão vocal, e propõe métodos inovadores de treinamento desentrelaçado e sem referência que superam o vazamento de impressão e permitem um controle numérico preciso e eficiente na síntese de fala.

Junki Ohmura, Yuki Ito, Emiru Tsunoo, Toshiyuki Sekiya, Toshiyuki KumakuraTue, 10 Ma💻 cs

← Anterior Próximo →