VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning
이 논문은 비디오 기반 오디오 생성 (비디오 - 사운드 및 비주얼 TTS) 을 별도의 작업이 아닌 통합된 흐름 매칭 프레임워크인 VSSFlow 를 통해 단일 모델로 성공적으로 통합하고, 기존 통념과 달리 결합 학습이 성능 저하를 초래하지 않음을 입증하여 최첨단 전용 모델들을 능가하는 성능을 보여줍니다.