ID-LoRA: Identity-Driven Audio-Video Personalization with In-Context LoRA
이 논문은 텍스트 프롬프트, 참조 이미지, 짧은 오디오 클립을 단일 생성 과정으로 통합하여 시각적 외모와 목소리를 동시에 개인화하는 새로운 모델 'ID-LoRA'를 제안하며, 이를 통해 기존 방법론 대비 뛰어난 음성 유사도와 화자 특성을 구현하고 단일 GPU 에서 3 천 개의 훈련 쌍만으로 학습이 가능함을 보여줍니다.