cs.SD artigos | Gist.Science

When Fine-Tuning Fails and when it Generalises: Role of Data Diversity and Mixed Training in LLM-based TTS

Este trabalho demonstra que o ajuste fino LoRA de modelos de linguagem grandes (LLMs) para sistemas de síntese de fala (TTS) melhora significativamente a qualidade perceptiva, a fidelidade do locutor e a relação sinal-ruído, desde que apoiado por dados de treinamento com diversidade acústica suficiente.

Anupam Purwar, Aditya ChoudharyThu, 12 Ma🤖 cs.AI

Training-Free Multi-Step Inference for Target Speaker Extraction

Este artigo propõe um método de inferência multi-etapa sem treinamento para extração de fala do falante-alvo, que refina iterativamente a estimativa usando um modelo pré-treinado congelado e introduz uma otimização conjunta de métricas para equilibrar desempenho e preferências controláveis em cenários sem dados de referência.

Zhenghai You, Ying Shi, Lantian Li, Dong WangThu, 12 Ma💻 cs

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

O artigo apresenta o V2M-Zero, um método inovador de geração de música sincronizada com vídeos que, ao alinhar as curvas de eventos temporais de cada modalidade de forma independente, alcança resultados superiores aos modelos baseados em dados pareados sem exigir treinamento cruzado ou pares de dados.

Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. BryanThu, 12 Ma🤖 cs.AI

Efficient Emotion and Speaker Adaptation in LLM-Based TTS via Characteristic-Specific Partial Fine-Tuning

O artigo propõe a estratégia CSP-FT, um método de ajuste fino parcial específico para características que, ao selecionar dinamicamente apenas duas camadas críticas de um modelo TTS baseado em LLM, alcança fidelidade e inteligibilidade comparáveis ao ajuste completo com apenas 8% dos parâmetros atualizados, acelerando o treinamento em duas vezes e mitigando o esquecimento catastrófico.

Tianrui Wang, Meng Ge, Cheng Gong, Chunyu Qiang, Haoyu Wang, Zikang Huang, Yu Jiang, Ye Ni, Yuheng Lu, Xiaobao Wang, Engsiong Chng, Xie Chen, Longbiao Wang, Jianwu DangMon, 09 Ma💻 cs

HVAC-EAR: Eavesdropping Human Speech Using HVAC Systems

O artigo apresenta o HVAC-EAR, um sistema que reconstrói fala inteligível a partir de dados de pressão de baixa resolução de sistemas de HVAC, demonstrando pela primeira vez em cenários reais que essa tecnologia pode comprometer a privacidade até 1,2 metro de distância.

Tarikul Islam Tamiti, Biraj Joshi, Rida Hasan, Anomadarshi BaruaMon, 09 Ma💻 cs

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

Este trabalho propõe um framework end-to-end para reconhecimento de fala audiovisual robusto que elimina a necessidade de máscaras de ruído explícitas, utilizando um módulo de fusão baseado em Conformer para refinar implicitamente as características de áudio com auxílio visual, preservando assim a integridade semântica da fala e superando métodos baseados em máscaras em condições ruidosas.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

LMU-Based Sequential Learning and Posterior Ensemble Fusion for Cross-Domain Infant Cry Classification

Este artigo propõe um framework acústico compacto que combina um codificador CNN multirramo com uma Unidade de Memória Legendre (LMU) aprimorada e uma fusão de ensemble de posterior calibrada para melhorar a generalização entre domínios na classificação de choro de bebês, superando desafios como sinais não estacionários, anotações limitadas e deslocamentos de domínio.

Niloofar Jazaeri, Hilmi R. Dajani, Marco Janeczek, Martin BouchardMon, 09 Ma🤖 cs.LG

Whisper-RIR-Mega: A Paired Clean-Reverberant Speech Benchmark for ASR Robustness to Room Acoustics

O artigo apresenta o Whisper-RIR-Mega, um novo conjunto de dados de benchmark que emparelha falas limpas do LibriSpeech com suas versões reverberadas usando respostas ao impulso reais, visando avaliar e melhorar a robustez de modelos de reconhecimento automático de fala (ASR) às variações acústicas de ambientes.

Mandip GoswamiMon, 09 Ma🤖 cs.AI

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

O artigo apresenta o Omni-C, um único codificador denso baseado em Transformer que comprime modalidades heterogêneas (imagem, áudio e texto) em representações compartilhadas competitivas através de pré-treinamento contrastivo, eliminando a necessidade de arquiteturas complexas de Mixture-of-Experts e reduzindo significativamente o uso de memória para inferência eficiente.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de GusmãoMon, 09 Ma🤖 cs.AI

Koopman Regularized Deep Speech Disentanglement for Speaker Verification

O artigo propõe o DKSD-AE, um autoencoder estruturado que combina operadores de Koopman e normalização de instância para realizar a disentanglement de fala sem supervisão textual, alcançando desempenho competitivo em verificação de locutor com menos parâmetros e maior robustez.

Nikos Chazaridis, Mohammad Belal, Rafael Mestre, Timothy J. Norman, Christine EversMon, 09 Ma🤖 cs.LG

Which Data Matter? Embedding-Based Data Selection for Speech Recognition

Este artigo demonstra que a seleção estratégica de dados baseada em embeddings (que capturam atributos do falante, conteúdo fonético e significado semântico) permite treinar modelos de reconhecimento de fala especializados com apenas 5% dos dados, alcançando reduções relativas de até 36,8% na taxa de erro de palavras em domínios-alvo em comparação com o treinamento no conjunto completo.

Zakaria Aldeneh, Skyler Seto, Maureen de Seyssel, Jie Chi, Zijin Gu, Takuya Higuchi, Jee-weon Jung, Shinji Watanabe, David Grangier, Barry-John Theobald, Tatiana LikhomanenkoMon, 09 Ma💻 cs

How Well Do Current Speech Deepfake Detection Methods Generalize to the Real World?

Este artigo apresenta o conjunto de dados multilíngue ML-ITW para avaliar a detecção de deepfakes de voz em cenários reais, demonstrando que os métodos atuais sofrem degradação significativa de desempenho devido à diversidade linguística e às condições acústicas do mundo real.

Daixian Li, Jun Xue, Yanzhen Ren, Zhuolin Yi, Yihuan Huang, Guanxiang Feng, Yi ChaiMon, 09 Ma💻 cs

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

O artigo apresenta o TempoSyncDiff, um framework de difusão latente baseado em distilação que utiliza um modelo professor-aluno e regularização temporal para gerar cabeças falantes acionadas por áudio com alta fidelidade, estabilidade temporal e baixa latência, viabilizando sua implementação em dispositivos de borda.

Soumya Mazumdar, Vineet Kumar RakeshMon, 09 Ma🤖 cs.AI

Do Compact SSL Backbones Matter for Audio Deepfake Detection? A Controlled Study with RAPTOR

Este estudo apresenta o RAPTOR, uma análise controlada que demonstra que o pré-treinamento multilíngue do HuBERT, e não a escala do modelo, é o principal fator para a robustez e calibração confiável na detecção de deepfakes de áudio, permitindo que modelos compactos de 100M superem sistemas comerciais maiores.

Ajinkya Kulkarni, Sandipana Dowerah, Atharva Kulkarni, Tanel Alumäe, Mathew Magimai DossMon, 09 Ma🤖 cs.AI

Whisper-CD: Accurate Long-Form Speech Recognition using Multi-Negative Contrastive Decoding

O artigo apresenta o Whisper-CD, um framework de decodificação contrastiva sem treinamento que utiliza perturbações acústicas para reduzir alucinações e melhorar a precisão e a velocidade na transcrição de fala longa com o modelo Whisper.

Hoseong Ahn, Jeongyun Chae, Yoonji Park, Kyuhong ShimMon, 09 Ma🤖 cs.AI

Continual Adaptation for Pacific Indigenous Speech Recognition

Este estudo empírico investiga estratégias de adaptação de modelos de fala para línguas indígenas do Pacífico, demonstrando que, embora a adaptação de baixo rank (LoRA) funcione inicialmente, ela sofre de esquecimento catastrófico durante a aprendizagem sequencial devido à escassez de dados e ao desvio representacional, destacando a necessidade urgente de métodos robustos para essas línguas sub-representadas.

Yang Xiao, Aso Mahmudi, Nick Thieberger, Eliathamby Ambikairajah, Eun-Jung Holden, Ting DangMon, 09 Ma💬 cs.CL

Prosodic Boundary-Aware Streaming Generation for LLM-Based TTS with Streaming Text Input

Este artigo propõe uma estratégia de pós-treinamento que torna modelos de TTS baseados em LLMs conscientes de fronteiras prosódicas, permitindo a geração de áudio em streaming com texto incremental e resolvendo problemas de prosódia não natural e colapso em textos longos através de um mecanismo de janela deslizante e parada antecipada.

Changsong Liu, Tianrui Wang, Ye Ni, Yizhou Peng, Eng Siong ChngMon, 09 Ma🤖 cs.AI

RAMoEA-QA: Hierarchical Specialization for Robust Respiratory Audio Question Answering

O artigo apresenta o RAMoEA-QA, um modelo generativo hierárquico que utiliza especialização condicional em duas etapas (combinando um Mixture-of-Experts para áudio e um Mixture-of-Adapters para linguagem) para superar as limitações de sistemas monolíticos existentes, oferecendo uma resposta robusta e generalizável a perguntas sobre áudio respiratório em diversos cenários clínicos.

Gaia A. Bertolino, Yuwei Zhang, Tong Xia, Domenico Talia, Cecilia MascoloMon, 09 Ma🤖 cs.AI

Audio-Language Models for Audio-Centric Tasks: A Systematic Survey

Este artigo apresenta a primeira revisão sistemática dos Modelos de Áudio-Linguagem (ALMs), oferecendo uma cobertura abrangente de suas arquiteturas, objetivos de treinamento e aplicações em fala, música e sons, além de estabelecer um panorama de pesquisa para orientar o desenvolvimento futuro e a implementação prática dessas tecnologias.

Yi Su, Jisheng Bai, Qisheng Xu, Kele Xu, Yong DouFri, 13 Ma⚡ eess

Text-only adaptation in LLM-based ASR through text denoising

Este artigo apresenta um método leve de adaptação apenas com texto para sistemas de reconhecimento automático de fala baseados em grandes modelos de linguagem, que formula o processo como uma tarefa de remoção de ruído de texto para adaptar o modelo a novos domínios sem quebrar o alinhamento entre as modalidades de fala e texto, alcançando melhorias significativas em relação aos métodos existentes.

Andrés Carofilis, Sergio Burdisso, Esaú Villatoro-Tello, Shashi Kumar, Kadri Hacioglu, Srikanth Madikeri, Pradeep Rangappa, Manjunath K E, Petr Motlicek, Shankar Venkatesan, Andreas StolckeFri, 13 Ma⚡ eess

← Anterior Próximo →