cs.SD artigos | Gist.Science

Towards Lightweight Adaptation of Speech Enhancement Models in Real-World Environments

Este trabalho propõe um framework leve para adaptação on-device de modelos de aprimoramento de fala em ambientes acústicos dinâmicos, que atualiza menos de 1% dos parâmetros do modelo base via adaptadores de baixo posto e treinamento auto-supervisionado, alcançando melhorias significativas na qualidade perceptiva com rápida convergência em cenários de ruído desafiadores.

Longbiao Cheng, Shih-Chii LiuTue, 10 Ma🤖 cs.LG

Evaluating Parkinson's Disease Detection in Anonymized Speech: A Performance and Acoustic Analysis

Este artigo avalia o equilíbrio entre privacidade e detecção de Parkinson em fala anonimizada, demonstrando que o método kNN-VC preserva características acústicas essenciais para manter a eficácia do diagnóstico com apenas uma leve redução no desempenho, ao contrário do método STT-TTS que degrada severamente a detecção ao eliminar informações prosódicas.

Carlos Franzreb, Francisco Teixeira, Ben Luks, Sebastian Möller, Alberto AbadTue, 10 Ma💻 cs

Targeted Speaker Poisoning Framework in Zero-Shot Text-to-Speech

Este artigo apresenta o SGSP, um novo quadro de trabalho para envenenamento de fala direcionado em sistemas de síntese de voz zero-shot, que modifica modelos treinados para impedir a clonagem de vozes específicas enquanto preserva a utilidade para outros falantes, identificando limites de escalabilidade ao lidar com um grande número de identidades esquecidas.

Thanapat Trachu, Thanathai Lertpetchpun, Sai Praneeth Karimireddy, Shrikanth NarayananTue, 10 Ma💻 cs

Nw\=ach\=a Mun\=a: A Devanagari Speech Corpus and Proximal Transfer Benchmark for Nepal Bhasha ASR

Este trabalho apresenta o corpus de fala Devanagari "Nwāchā Munā" e demonstra que o ajuste fino de um modelo de reconhecimento de fala treinado em nepali (uma língua vizinha) supera a escassez de recursos para a língua Nepal Bhasha, alcançando desempenho comparável a modelos multilíngues massivos com maior eficiência computacional.

Rishikesh Kumar Sharma, Safal Narshing Shrestha, Jenny Poudel, Rupak Tiwari, Arju Shrestha, Rupak Raj Ghimire, Bal Krishna BalTue, 10 Ma💬 cs.CL

Analysis-Driven Procedural Generation of an Engine Sound Dataset with Embedded Control Annotations

Este artigo apresenta um framework de geração procedural de dados de som de motor com anotações de controle precisas, baseado na extração de estruturas harmônicas de gravações reais, resultando no Procedural Engine Sounds Dataset, um conjunto de dados público validado para apoiar pesquisas em modelagem acústica e síntese baseada em aprendizado.

Robin Doerfler, Lonce WyseTue, 10 Ma🤖 cs.LG

VoiceSHIELD-Small: Real-Time Malicious Speech Detection and Transcription

O artigo apresenta o VoiceSHIELD-Small, um modelo leve e em tempo real baseado no Whisper-small que integra a transcrição de fala e a detecção de comandos maliciosos em uma única etapa, alcançando alta precisão e baixa latência para mitigar riscos de segurança em interfaces de voz.

Sumit Ranjan, Sugandha Sharma, Ubaid Abbas, Puneeth N AilTue, 10 Ma💻 cs

SoundWeaver: Semantic Warm-Starting for Text-to-Audio Diffusion Serving

O SoundWeaver é um sistema de serviço sem treinamento e agnóstico a modelos que acelera a geração de áudio por difusão texto-para-áudio ao reiniciar o processo com base em áudio em cache semanticamente similar, reduzindo a latência em 1,8 a 3,0 vezes sem comprometer a qualidade perceptual.

Ayush Barik, Sofia Stoica, Nikhil Sarda, Arnav Kethana, Abhinav Khanduja, Muchen Xu, Fan LaiTue, 10 Ma💻 cs

Unsupervised Domain Adaptation for Audio Deepfake Detection with Modular Statistical Transformations

Este artigo apresenta um pipeline modular de adaptação de domínio não supervisionada que combina embeddings do Wav2Vec 2.0 com transformações estatísticas, como alinhamento CORAL e seleção de recursos, para melhorar a generalização na detecção de deepfakes de áudio entre diferentes conjuntos de dados sem a necessidade de rótulos no domínio de destino.

Urawee Thani, Gagandeep Singh, Priyanka SinghTue, 10 Ma💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

O artigo apresenta o MambaDance, uma nova abordagem para geração de dança que substitui os modelos Transformer por uma arquitetura baseada em Mamba dentro de um processo de difusão em duas etapas e utiliza uma representação de batida musical baseada em Gaussiana para gerar movimentos sincronizados e coerentes em sequências de qualquer duração.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon JooTue, 10 Ma💻 cs

WhispEar: A Bi-directional Framework for Scaling Whispered Speech Conversion via Pseudo-Parallel Whisper Generation

O artigo apresenta o WhispEar, um framework bidirecional que utiliza a geração de sussurros pseudo-paralelos a partir de fala normal para escalar o treinamento de conversão de sussurro para fala normal, alcançando desempenho superior e disponibilizando o maior corpus paralelo bilíngue (chinês-inglês) existente.

Zihao Fang, Yingda Shen, Zifan Guan, Tongtong Song, Zhenyi Liu, Zhizheng WuTue, 10 Ma💻 cs

PathBench: Speech Intelligibility Benchmark for Automatic Pathological Speech Assessment

O artigo apresenta o PathBench, um benchmark unificado para avaliação automática da inteligibilidade da fala patológica que utiliza conjuntos de dados públicos para comparar diferentes métodos e estabelecer baselines sistemáticas, introduzindo também a métrica DArtP que alcança a maior correlação média entre os métodos sem referência.

Bence Mark Halpern, Thomas Tienkamp, Defne Abur, Tomoki TodaTue, 10 Ma💻 cs

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

O artigo apresenta o FoleyFlow, um modelo que gera áudio sincronizado com vídeos utilizando alinhamento multimodal baseado em mascaramento e um fluxo condicional dinâmico para garantir coerência semântica e rítmica, superando os métodos existentes em benchmarks padrão.

Shentong Mo, Yibing SongTue, 10 Ma🤖 cs.LG

Soundscapes in Spectrograms: Pioneering Multilabel Classification for South Asian Sounds

Este estudo apresenta um método inovador baseado em espectrogramas e redes neurais convolucionais que supera as técnicas tradicionais de coeficientes cepstrais de frequência mel (MFCC) na classificação multilabel de sons ambientais complexos do sul da Ásia, demonstrando maior precisão tanto no conjunto de dados SAS-KIIT quanto no UrbanSound8K.

Sudip Chakrabarty, Pappu Bishwas, Rajdeep Chatterjee, Tathagata Bandyopadhyay, Digonto Biswas, Bibek HowladerTue, 10 Ma💻 cs

Evolution Strategy-Based Calibration for Low-Bit Quantization of Speech Models

O artigo apresenta o ESC, um método de calibração baseado em Estratégias Evolutivas que supera os desafios específicos de sinais de áudio para permitir a quantização quase sem perdas em modelos de fala de 4 e 8 bits, superando as técnicas padrão desenvolvidas para visão e NLP.

Lucas RakotoarivonyTue, 10 Ma💻 cs

DualTurn: Learning Turn-Taking from Dual-Channel Generative Speech Pretraining

O artigo apresenta o DualTurn, um modelo pré-treinado generativo em áudio conversacional de dois canais que supera os métodos existentes na previsão de ações de agente e na antecipação de limites de turno, permitindo uma interação mais natural e eficiente sem depender de timeouts de silêncio.

Shangeth RajaaTue, 10 Ma💬 cs.CL

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

Este trabalho reformula o reconhecimento de emoções ambíguas como um problema de raciocínio distribucional em Modelos de Linguagem e Áudio Grandes (LALMs), introduzindo um framework com objetivos alinhados a distribuições perceptivas humanas e supervisão estruturada de cadeia de pensamento que demonstra melhorias consistentes em tarefas de previsão de emoções ambíguas.

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting DangTue, 10 Ma💻 cs

Scalable Neural Vocoder from Range-Null Space Decomposition

Este artigo propõe um novo vocoder neural escalável no domínio tempo-frequência, que integra a teoria de decomposição de espaço de imagem e núcleo (RND) com uma arquitetura dual-path para superar desafios de modelagem opaca e retrainamento inflexível, alcançando desempenho de última geração com estrutura leve e adaptação a múltiplas configurações.

Andong Li, Tong Lei, Zhihang Sun, Rilin Chen, Xiaodong Li, Dong Yu, Chengshi ZhengTue, 10 Ma💻 cs

Benchmarking Language Modeling for Lossless Compression of Full-Fidelity Audio

O artigo apresenta o Trilobyte, um esquema de tokenização em nível de byte que viabiliza a compressão sem perdas de áudio em alta fidelidade (até 24 bits) usando modelos de linguagem autoregressivos, superando o FLAC em resoluções de 8 e 16 bits, embora os ganhos de compressão diminuam à medida que a profundidade de bits aumenta.

Phillip Long, Zachary Novack, Chris DonahueTue, 10 Ma🤖 cs.LG

Are Deep Speech Denoising Models Robust to Adversarial Noise?

O artigo demonstra que modelos recentes de supressão de ruído em fala podem ser facilmente enganados por ruído adversarial imperceptível, resultando em áudio ininteligível e destacando a necessidade de contramedidas antes de sua adoção em aplicações críticas.

Will Schwarzer, Neel Chaudhari, Philip S. Thomas, Andrea Fanelli, Xiaoyu LiuThu, 12 Ma⚡ eess

Robust Audio-Visual Target Speaker Extraction with Emotion-Aware Multiple Enrollment Fusion

Este artigo investiga a robustez da fusão de múltiplas inscrições na Extração de Falante Alvo Audiovisual (AVTSE), demonstrando que treinar com altas taxas de ausência de modalidades e combinar uma imagem facial única com características labiais permite manter um desempenho estável mesmo diante de falhas intermitentes de sinais em cenários do mundo real.

Zhan Jin, Bang Zeng, Peijun Yang, Jiarong Du, Wei Ju, Yao Tian, Juan Liu, Ming LiThu, 12 Ma⚡ eess

← Anterior Próximo →