cs.SD articles | Gist.Science

ZeSTA: Zero-Shot TTS Augmentation with Domain-Conditioned Training for Data-Efficient Personalized Speech Synthesis

Le papier propose ZeSTA, un cadre d'entraînement conditionné par le domaine qui améliore la synthèse de parole personnalisée à faible ressource en utilisant l'augmentation de données par synthèse zéro-shot tout en préservant la similarité de l'orateur grâce à un embedding léger et un suréchantillonnage des données réelles.

Youngwon Choi, Jinwoo Oh, Hwayeon Kim + 1 more2026-03-05🤖 cs.AI

LabelBuddy: An Open Source Music and Audio Language Annotation Tagging Tool Using AI Assistance

Ce papier présente LabelBuddy, un outil open-source collaboratif d'annotation audio assistée par l'IA qui comble le fossé entre l'intention humaine et la compréhension machine en permettant l'intégration de modèles personnalisés via des backends conteneurisés pour surmonter les limites des outils d'étiquetage statiques.

Ioannis Prokopiou, Ioannis Sina, Agisilaos Kounelis + 2 more2026-03-05🤖 cs.AI

Low-Resource Guidance for Controllable Latent Audio Diffusion

Cet article présente une méthode à faible coût computationnel pour le contrôle de modèles de diffusion audio latents, utilisant des têtes de contrôle latentes (LatCHs) et une sélection de TFG afin d'obtenir des sorties audio générées avec une précision accrue sur l'intensité, la hauteur et le rythme sans nécessiter de réentraînement massif du modèle.

Zachary Novack, Zack Zukowski, CJ Carr + 6 more2026-03-05🤖 cs.AI

← Précédent