cs.SD papers | Gist.Science

ZeSTA: Zero-Shot TTS Augmentation with Domain-Conditioned Training for Data-Efficient Personalized Speech Synthesis

Dit artikel introduceert ZeSTA, een framework dat zero-shot tekst-naar-spraak gebruikt als data-augmentatie voor gepersonaliseerde spraaksynthese, waarbij domein-geconditioneerde training en oversampling van echte data de sprekersgelijkenis verbeteren zonder de basisarchitectuur aan te passen.

Youngwon Choi, Jinwoo Oh, Hwayeon Kim + 1 more2026-03-05🤖 cs.AI

LabelBuddy: An Open Source Music and Audio Language Annotation Tagging Tool Using AI Assistance

Dit paper introduceert LabelBuddy, een open-source tool voor audio-annotatie die met AI-ondersteuning de kloof tussen menselijke intentie en machinebegrip overbrugt door een flexibele, containergebaseerde architectuur te bieden voor samenwerking en aangepaste modellen.

Ioannis Prokopiou, Ioannis Sina, Agisilaos Kounelis + 2 more2026-03-05🤖 cs.AI

Low-Resource Guidance for Controllable Latent Audio Diffusion

Dit paper introduceert een methode met lage rekenkosten voor het sturen van latent audio-diffusiemodellen via Latent-Control Heads (LatCHs), die directe controle in de latentruimte mogelijk maken zonder dure decoder-backpropagatie, terwijl de audiokwaliteit behouden blijft.

Zachary Novack, Zack Zukowski, CJ Carr + 6 more2026-03-05🤖 cs.AI

← Vorige