cs.SD articoli | Gist.Science

ZeSTA: Zero-Shot TTS Augmentation with Domain-Conditioned Training for Data-Efficient Personalized Speech Synthesis

Il paper propone ZeSTA, un framework di addestramento condizionato al dominio che migliora la sintesi vocale personalizzata a risorse limitate utilizzando l'augmentazione Zero-Shot TTS senza compromettere la somiglianza del parlante.

Youngwon Choi, Jinwoo Oh, Hwayeon Kim + 1 more2026-03-05🤖 cs.AI

LabelBuddy: An Open Source Music and Audio Language Annotation Tagging Tool Using AI Assistance

Questo articolo presenta LabelBuddy, uno strumento open source di annotazione audio collaborativo che utilizza modelli di intelligenza artificiale e agenti autonomi per colmare il divario tra l'intento umano e la comprensione delle macchine, superando le limitazioni degli strumenti di tagging statici.

Ioannis Prokopiou, Ioannis Sina, Agisilaos Kounelis + 2 more2026-03-05🤖 cs.AI

Low-Resource Guidance for Controllable Latent Audio Diffusion

Il paper presenta un metodo a basso costo computazionale per il controllo di modelli di diffusione audio latente, basato su Latent-Control Heads (LatCH) e Selective TFG, che permette di regolare parametri come intensità, tono e battito senza richiedere un addestramento estensivo o costose retropropagazioni durante l'inferenza.

Zachary Novack, Zack Zukowski, CJ Carr + 6 more2026-03-05🤖 cs.AI

← Precedente