cs.SD artigos | Gist.Science

ZeSTA: Zero-Shot TTS Augmentation with Domain-Conditioned Training for Data-Efficient Personalized Speech Synthesis

O artigo propõe o ZeSTA, um framework de treinamento condicionado a domínios que utiliza embeddings leves e superamostragem de dados reais para melhorar a similaridade do locutor na síntese de voz personalizada com poucos recursos, mitigando a degradação causada pela mistura ingênua de dados sintéticos e reais.

Youngwon Choi, Jinwoo Oh, Hwayeon Kim + 1 more2026-03-05🤖 cs.AI

LabelBuddy: An Open Source Music and Audio Language Annotation Tagging Tool Using AI Assistance

Este artigo apresenta o LabelBuddy, uma ferramenta de código aberto para anotação colaborativa de áudio que utiliza assistência de IA e modelos containerizados para superar a escassez de infraestrutura capaz de capturar nuances subjetivas na recuperação de informações musicais.

Ioannis Prokopiou, Ioannis Sina, Agisilaos Kounelis + 2 more2026-03-05🤖 cs.AI

Low-Resource Guidance for Controllable Latent Audio Diffusion

Este artigo apresenta uma abordagem de baixa complexidade computacional para o controle de modelos de difusão de áudio latente, utilizando cabeças de controle latente (LatCHs) e TFG seletivo para permitir a geração controlada de parâmetros como intensidade, tom e batidas com recursos de treinamento mínimos, sem comprometer a qualidade do áudio.

Zachary Novack, Zack Zukowski, CJ Carr + 6 more2026-03-05🤖 cs.AI

← Anterior