cs.SD 篇论文 | Gist.Science

本文提出了 ZeSTA 框架，通过引入轻量级域嵌入区分真实与合成语音并结合真实数据过采样，有效解决了在低资源个性化语音合成中直接混合合成数据导致说话人相似度下降的问题，从而在保持语音可懂度和感知质量的同时显著提升了说话人相似度。

本文介绍了 LabelBuddy，这是一款开源的协作式音频标注工具，它通过容器化后端解耦界面与推理，支持用户集成自定义模型进行 AI 辅助预标注，从而弥合人类意图与机器理解之间的差距。

该论文提出了一种基于潜在空间控制头（LatCHs）的低资源引导方法，通过避免昂贵的解码器反向传播，仅需极少的训练资源即可在保持音频质量的同时实现对潜在音频扩散模型中强度、音高和节拍等属性的可控生成。