cs.SD 편의 논문 | Gist.Science

ZeSTA: Zero-Shot TTS Augmentation with Domain-Conditioned Training for Data-Efficient Personalized Speech Synthesis

이 논문은 저자원 개인화 음성 합성을 위해 제로샷 TTS 를 데이터 증강원으로 활용할 때 발생하는 화자 유사도 저하 문제를 해결하기 위해, 경량 도메인 임베딩과 실제 데이터 과샘플링을 결합한 ZeSTA 프레임워크를 제안하고 이를 통해 화자 유사성을 향상시키면서도 음성과 이해도를 유지하는 효과를 입증했습니다.

Youngwon Choi, Jinwoo Oh, Hwayeon Kim + 1 more2026-03-05🤖 cs.AI

LabelBuddy: An Open Source Music and Audio Language Annotation Tagging Tool Using AI Assistance

이 논문은 머신러닝과 대규모 오디오 언어 모델의 발전에 발맞춰 인간의 주관적 뉘앙스를 포착하고 AI 보조를 통한 자동 태깅을 지원하는 오픈소스 협업 오디오 주석 도구인 'LabelBuddy'의 아키텍처와 기능을 소개합니다.

Ioannis Prokopiou, Ioannis Sina, Agisilaos Kounelis + 2 more2026-03-05🤖 cs.AI

Low-Resource Guidance for Controllable Latent Audio Diffusion

이 논문은 기존 방법의 높은 계산 비용 문제를 해결하기 위해 잠재 공간에서 직접 작동하는 Latent-Control Heads(LatCH) 와 선택적 TFG 를 도입하여, 최소한의 학습 자원과 계산 오버헤드로 음량, 피치, 비트 등 정밀한 제어가 가능한 저자원 오디오 생성 가이드 방법을 제시합니다.

Zachary Novack, Zack Zukowski, CJ Carr + 6 more2026-03-05🤖 cs.AI

← 이전