cs.SD artículos | Gist.Science

ZeSTA: Zero-Shot TTS Augmentation with Domain-Conditioned Training for Data-Efficient Personalized Speech Synthesis

El artículo presenta ZeSTA, un marco de entrenamiento condicionado al dominio que mejora la síntesis de voz personalizada con pocos datos al utilizar audio sintético de generación cero disparos para aumento, preservando la similitud del hablante mediante embebidos de dominio y sobre-muestreo de datos reales.

Youngwon Choi, Jinwoo Oh, Hwayeon Kim + 1 more2026-03-05🤖 cs.AI

LabelBuddy: An Open Source Music and Audio Language Annotation Tagging Tool Using AI Assistance

Este artículo presenta LabelBuddy, una herramienta de código abierto para la anotación colaborativa de audio que utiliza modelos de inteligencia artificial para superar la escasez de infraestructuras que capturen los matices subjetivos en la recuperación de información musical.

Ioannis Prokopiou, Ioannis Sina, Agisilaos Kounelis + 2 more2026-03-05🤖 cs.AI

Low-Resource Guidance for Controllable Latent Audio Diffusion

Este trabajo presenta un enfoque de baja recursos para el control de modelos de difusión de audio latente mediante cabezales de control latente (LatCHs) que operan directamente en el espacio latente, logrando una guía precisa sobre parámetros como intensidad, tono y ritmo con un costo computacional y de entrenamiento significativamente menor que los métodos existentes.

Zachary Novack, Zack Zukowski, CJ Carr + 6 more2026-03-05🤖 cs.AI

← Anterior