ZeSTA: Zero-Shot TTS Augmentation with Domain-Conditioned Training for Data-Efficient Personalized Speech Synthesis

本論文は、低リソースな個人向け音声合成において、ゼロショット TTS による合成音声の単純な混合が話者類似性を低下させる問題を解決するため、ドメイン埋め込みと実データの過剰サンプリングを組み合わせた ZeSTA というフレームワークを提案し、話者類似性の向上と音声の質の維持を両立させることを示しています。

Youngwon Choi, Jinwoo Oh, Hwayeon Kim + 1 more2026-03-05🤖 cs.AI

LabelBuddy: An Open Source Music and Audio Language Annotation Tagging Tool Using AI Assistance

本論文は、機械学習や大規模オーディオ言語モデルの進展に伴う音楽情報検索における主観的な注釈の課題を解決するため、カスタムモデルを接続可能なコンテナ化されたバックエンドを備えたオープンソースの協調型自動タグ付けツール「LabelBuddy」を提案するものである。

Ioannis Prokopiou, Ioannis Sina, Agisilaos Kounelis + 2 more2026-03-05🤖 cs.AI

Low-Resource Guidance for Controllable Latent Audio Diffusion

本論文は、デコーダの逆伝播を回避して潜在空間で直接動作する「Latent-Control Heads(LatCHs)」と選択的 TFG を導入することで、計算コストとトレーニングリソースを大幅に削減しつつ、Stable Audio Open などの潜在オーディオ拡散モデルに対して強度、ピッチ、ビートなどの高品質な制御を可能にする手法を提案しています。

Zachary Novack, Zack Zukowski, CJ Carr + 6 more2026-03-05🤖 cs.AI