ZeSTA: Zero-Shot TTS Augmentation with Domain-Conditioned Training for Data-Efficient Personalized Speech Synthesis

Le papier propose ZeSTA, un cadre d'entraînement conditionné par le domaine qui améliore la synthèse de parole personnalisée à faible ressource en utilisant l'augmentation de données par synthèse zéro-shot tout en préservant la similarité de l'orateur grâce à un embedding léger et un suréchantillonnage des données réelles.

Youngwon Choi, Jinwoo Oh, Hwayeon Kim + 1 more2026-03-05🤖 cs.AI

LabelBuddy: An Open Source Music and Audio Language Annotation Tagging Tool Using AI Assistance

Ce papier présente LabelBuddy, un outil open-source collaboratif d'annotation audio assistée par l'IA qui comble le fossé entre l'intention humaine et la compréhension machine en permettant l'intégration de modèles personnalisés via des backends conteneurisés pour surmonter les limites des outils d'étiquetage statiques.

Ioannis Prokopiou, Ioannis Sina, Agisilaos Kounelis + 2 more2026-03-05🤖 cs.AI