Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis

Each language version is independently generated for its own context, not a direct translation.

🎭 1. 기존 기술의 문제점: "느린 연기"와 "조절 불가능한 인형"

기존의 AI 가 만든 말하는 얼굴 영상들은 두 가지 치명적인 단점이 있었습니다.

너무 느려요 (Real-time 불가): 마치 무거운 짐을 지고 달리는 것처럼, 영상을 만드는 데 시간이 너무 오래 걸려서 실시간 대화 (예: AI 비서와 대화) 가 불가능했습니다.
조절이 안 돼요 (Control 부족): "이제 웃어줘", "눈을 왼쪽으로 돌려줘"라고 명령해도 AI 는 듣지 않습니다. 오직 목소리만 듣고 무작위로 표정을 짓기 때문에, 원하는 결과물을 얻으려면 영상을 계속 다시 만들어야 했습니다.

🚀 2. 디토 (Ditto) 의 등장: "빠르고 똑똑한 마법사"

디토는 이 두 가지 문제를 해결하기 위해 세 가지 핵심 전략을 사용합니다.

🏗️ 전략 1: '움직임'과 '얼굴'을 분리하다 (Motion Space)

기존 기술은 얼굴의 '뼈대 (움직임)'와 '피부 (색깔/디테일)'를 한꺼번에 만들어내려다 너무 복잡하고 느렸습니다.

비유: 마치 인형극을 생각해보세요.
- 기존: 인형의 옷을 입히고, 얼굴을 그리는 동시에 움직임을 만들어내려다 지쳐버리는 것.
- 디토: 먼저 **인형의 뼈대 (움직임)**만 빠르게 조종하고, 그 위에 **이미 준비된 옷과 얼굴 (정체성)**을 입히는 방식입니다.
- 이렇게 하면 AI 가 움직임을 계산하는 일이 훨씬 쉬워져서 속도가 빨라지고, 우리가 뼈대만 조절하면 얼굴은 그대로 유지되면서 원하는 대로 움직일 수 있습니다.

🎛️ 전략 2: 원격 조종기 달기 (Fine-grained Control)

디토는 사용자에게 원격 조종기를 쥐어줍니다.

시선 조절: 보통 AI 는 머리가 돌아가면 눈도 따라가서 시선이 흔들립니다. 하지만 디토는 **"머리는 돌아갈지라도 눈은 카메라를 똑바로 봐!"**라고 명령할 수 있습니다. 마치 무대 위에서 배우가 관객을 응시하듯 자연스러운 눈맞춤을 만들어줍니다.
감정 조절: "슬픈 척 해", "기분 좋아해"라고 명령하면 목소리뿐만 아니라 표정까지 그 감정에 맞춰 변합니다.
비유: 마치 게임 캐릭터를 조작하듯이, 얼굴의 특정 부분 (눈, 입, 머리) 만 따로 움직일 수 있는 것입니다.

⚡ 전략 3: 실시간 스트리밍 (Real-time Streaming)

기존 기술은 영상을 다 만들고 나서 보여줬다면, 디토는 말을 하는 순간 바로 얼굴이 반응합니다.

비유: 전화 통화를 할 때 상대방의 입 모양이 1 초 늦게 나오는 게 아니라, 실시간으로 대화가 이어지는 것과 같습니다. AI 비서와 대화할 때 "잠깐만"이라고 말하면 AI 도 즉시 멈추고 반응할 수 있습니다.

🧪 3. 실험 결과: "사람이 만든 것보다 더 자연스러워?"

연구진은 이 기술을 테스트해 보았습니다.

품질: 다른 최신 기술들보다 입 모양이 말과 더 잘 맞고 (립싱크), 얼굴이 흔들리지 않았습니다.
사용자 평가: 사람들이 직접 영상을 보고 평가했을 때, **"가장 자연스럽고 입 모양이 잘 맞는다"**고 뽑았습니다.
속도: 기존 기술보다 30~50 배나 더 빠르며, 심지어 실시간 대화에 필요한 기준을 훨씬 뛰어넘는 속도를 보여줍니다.

💡 4. 결론: 왜 이것이 중요한가요?

디토는 단순히 "예쁜 가짜 영상"을 만드는 것을 넘어, 실제 사람처럼 대화하고 상호작용할 수 있는 AI 비서, 가상 인플루언서, 교육용 캐릭터를 현실적으로 만들 수 있게 해줍니다.

기존: "영상을 만들어주세요. (기다림... 10 분 후) 어? 표정이 이상하네. 다시 만들어주세요."
디토: "안녕, 오늘 기분 어때? (즉시 반응) 오늘 기분이 좋아서 웃어줄게. 그리고 눈을 왼쪽으로 돌려볼까?"

이 기술은 앞으로 우리가 AI 와 대화하는 방식을 완전히 바꿔놓을 것으로 기대됩니다. 마치 영화 속의 '가상 인간'이 이제 우리 손끝에서 실시간으로 살아 움직이는 것입니다! 🌟

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

최근 확산 모델 (Diffusion Models) 은 말하기 헤드 (Talking Head) 합성 분야에서 미세한 표정과 생동감 있는 머리 움직임을 구현하며 큰 진전을 이루었습니다 (예: EMO). 그러나 이러한 방법론들은 다음과 같은 두 가지 주요 한계로 인해 실제 응용 (AI 어시스턴트, 실시간 스트리밍 등) 에 적용하기 어렵습니다.

제어력 부족 (Lack of Control): 기존 확산 기반 방법들은 생성 결과에 대한 미세한 제어 (얼굴 움직임, 기본 감정, 머리 회전 등) 를 제공하지 못합니다. 원하는 결과를 얻기 위해 생성을 반복해야 하거나, 생성 품질이 무작위적이라 조절이 어렵습니다.
느린 추론 속도 (Slow Inference Speed): 대부분의 기존 방법은 단일 GPU 에서 실시간 추론을 달성하기 어렵습니다. 특히 VAE 공간에서의 이미지 생성은 불필요한 복잡성을 유발하여 지연 시간을 증가시킵니다.

2. 방법론 (Methodology)

저자들은 Ditto라는 새로운 프레임워크를 제안하여 위 문제들을 해결합니다. 핵심은 '픽셀 공간'이 아닌 **'모션 공간 (Motion Space)'**에서 확산 모델을 작동시키고, 이를 위한 최적화된 아키텍처와 학습 전략을 도입한 것입니다.

가. 모션 공간 (Motion Space) 구축

기반 기술: LivePortrait 에서 영감을 받아, 오프더셸 (off-the-shelf) 모션 추출기를 사용합니다.
표현 방식: 이미지 $I$ 를 입력받아 키 포인트 (keypoints), 표형 변형 (expression deformations, $\delta$ ), **머리 자세 (head poses, $R, t$ )**를 추출합니다.
특징: 이 모션 표현 ( $m = \{\delta, R, t\}$ ) 은 신원 (Identity) 과 무관한 보편적인 모션으로 정의됩니다. 확산 모델은 오디오에 기반한 모션 ( $\hat{m}$ ) 을 생성하고, 렌더링 단계에서 타겟 신원의 외형 정보 (Appearance) 를 결합하여 영상을 합성합니다. 이를 통해 모션과 외형의 분해 (Disentanglement) 를 효과적으로 수행합니다.

나. 조건부 확산 트랜스포머 (Conditional Diffusion Transformer, DiT)

아키텍처: 오디오에서 모션으로 변환하는 DiT 를 설계합니다.
다양한 조건 신호 (Conditional Signals):
- 강화 조건 신호 (ECS): 오디오 ( $a$ ), 눈 상태 ( $e$ ), 신원 특징을 위한 기준 키 포인트 ( $c_{ref}$ ), 감정 라벨 ( $s$ ) 을 시간적으로 정렬하여 크로스 어텐션 (Cross-attention) 모듈에 입력합니다.
- 초기 조건 신호 (ICS): 참조 초기 모션 ( $m_{ref}$ ) 을 노이즈 시퀀스와 결합하여 생성 초기 단계의 모션 연속성을 보장합니다.
학습 전략:
- 수평 반전 (Horizontal Flip): 데이터 불균형으로 인한 편향을 해결하기 위해 얼굴 이미지를 수평 반전하여 학습합니다.
- 적응형 손실 가중치 (Adaptive Loss Weights): 입술, 눈, 머리 자세 등 모션 구성 요소별 특성에 따라 손실 함수의 가중치를 동적으로 조정합니다.
- 검증 지표: 손실 곡선 대신 **립싱크 점수 (Lipsync Score)**를 사용하여 모델 체크포인트를 선택합니다.

다. 정밀 제어 및 시각적 결함 수정

모션 제어: 63 차원의 변형 벡터와 얼굴 의미 (Semantic) 간의 매핑을 구축하여, 특정 얼굴 영역 (Regional) 이나 변형 크기 (Magnitude) 를 제어할 수 있습니다.
시선 (Gaze) 교정: 학습 시에는 프레임별 눈 상태를 사용하지만 추론 시에는 고정된 눈 상태를 사용하여 시선이 머리와 함께 흔들리는 문제를 해결합니다. 이를 위해 배우가 카메라를 응시하며 머리를 움직인 템플릿 비디오를 분석하여 머리 자세와 시선 변화 간의 회귀 모델을 학습시키고, 생성된 모션에 이를 적용하여 자연스러운 시선 접촉을 구현합니다.

라. 실시간 스트리밍 추론 (Realtime Streaming Inference)

오디오 처리: HuBERT 에 KV Cache 와 Causal Mask 를 적용하여 짧은 오디오 세그먼트에서도 고품질 특징 추출을 실시간으로 수행합니다.
모션 생성: 디노이징 단계를 50 에서 10 으로 줄이고, TensorRT 를 활용하여 GPU 에서 고속 추론을 가능하게 합니다.
스트리밍 전략: 구간별 융합 (Segment-wise fusion) 과 오버랩 기법을 사용하여 지연 시간 (First-Frame Delay) 을 최소화합니다.

3. 주요 기여 (Key Contributions)

모션 공간 기반 확산 프레임워크: VAE 공간이 아닌 명시적인 모션 공간에서 DiT 를 학습하여 추론 속도를 획기적으로 개선하면서도 고품질 영상을 생성합니다.
미세 제어 및 신원 분리: 다양한 조건 신호 (감정, 시선, 키 포인트 등) 를 통해 생성 과정을 정밀하게 제어할 수 있으며, 모션과 신원 정보를 효과적으로 분리하여 원본 얼굴의 특징을 유지합니다.
실시간 상호작용 가능: 10 단계를 사용하는 디노이징과 최적화된 파이프라인을 통해 실시간 (Real-time, RTF < 1) 추론과 **400ms 미만의 첫 프레임 지연 (FFD)**을 달성하여 AI 어시스턴트 등 상호작용 애플리케이션에 적합합니다.
시선 교정 기술: 머리의 움직임과 시선을 분리하여 자연스러운 눈맞춤을 구현하는 새로운 기법을 제안합니다.

4. 실험 결과 (Results)

정량적 평가 (Talk9, HDTF100 데이터셋):
- 화질 및 일관성: FID(프레임 품질), FVD(동영상 품질), CSIM(신원 일관성) 에서 기존 SOTA 방법 (EchoMimic, Hallo, Hallo2) 보다 우수한 성능을 기록했습니다.
- 립싱크: Sync-C 와 Sync-D 점수에서 최상위권을 유지하며 자연스러운 입모양을 생성합니다.
- 속도: 기존 확산 기반 방법보다 30~50 배 빠르며, 비확산 기반 방법 (MuseTalk) 보다도 빠른 추론 속도를 달성했습니다.
정성적 평가:
- 다양한 스타일과 포즈의 인물에 대해 일관된 디테일 (치아, 배경 등) 을 유지하며, 기존 방법에서 발생하는 흐림이나 비현실적인 표정 왜곡을 방지합니다.
- 감정, 시선, 자세에 대한 미세 제어가 가능함을 시각적으로 증명했습니다.
사용자 연구: 시각적 품질과 립싱크 정확도에서 다른 방법들을 압도적으로 우세하게 평가받았습니다.

5. 의의 및 결론 (Significance)

Ditto 는 말하기 헤드 합성 분야에서 고품질, 높은 제어성, 실시간 성능이라는 세 가지 핵심 요구사항을 동시에 충족하는 최초의 프레임워크 중 하나로 평가됩니다. 특히 확산 모델의 느린 추론 속도와 제어 불가능성을 해결하여, AI 어시스턴트, 실시간 방송, 가상 인간 등 상호작용이 필수적인 상용 애플리케이션의 실용화를 앞당길 수 있는 기술적 토대를 마련했습니다. 저자들은 코드와 모델을 오픈소스로 공개하여 커뮤니티의 발전을 도모하고 있습니다.