Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis

이 논문은 생성 속도와 제어력을 개선하기 위해 모션 공간에서 표현을 생성하는 트랜스포머 기반의 확산 모델인 'Ditto'를 제안하여, 실시간 대화형 애플리케이션에 적합한 정교한 표정과 제어가 가능한 실시간 talking head 합성 프레임워크를 제시합니다.

Tianqi Li, Ruobing Zheng, Minghui Yang, Jingdong Chen, Ming Yang

게시일 2026-03-09
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎭 1. 기존 기술의 문제점: "느린 연기"와 "조절 불가능한 인형"

기존의 AI 가 만든 말하는 얼굴 영상들은 두 가지 치명적인 단점이 있었습니다.

  1. 너무 느려요 (Real-time 불가): 마치 무거운 짐을 지고 달리는 것처럼, 영상을 만드는 데 시간이 너무 오래 걸려서 실시간 대화 (예: AI 비서와 대화) 가 불가능했습니다.
  2. 조절이 안 돼요 (Control 부족): "이제 웃어줘", "눈을 왼쪽으로 돌려줘"라고 명령해도 AI 는 듣지 않습니다. 오직 목소리만 듣고 무작위로 표정을 짓기 때문에, 원하는 결과물을 얻으려면 영상을 계속 다시 만들어야 했습니다.

🚀 2. 디토 (Ditto) 의 등장: "빠르고 똑똑한 마법사"

디토는 이 두 가지 문제를 해결하기 위해 세 가지 핵심 전략을 사용합니다.

🏗️ 전략 1: '움직임'과 '얼굴'을 분리하다 (Motion Space)

기존 기술은 얼굴의 '뼈대 (움직임)'와 '피부 (색깔/디테일)'를 한꺼번에 만들어내려다 너무 복잡하고 느렸습니다.

  • 비유: 마치 인형극을 생각해보세요.
    • 기존: 인형의 옷을 입히고, 얼굴을 그리는 동시에 움직임을 만들어내려다 지쳐버리는 것.
    • 디토: 먼저 **인형의 뼈대 (움직임)**만 빠르게 조종하고, 그 위에 **이미 준비된 옷과 얼굴 (정체성)**을 입히는 방식입니다.
    • 이렇게 하면 AI 가 움직임을 계산하는 일이 훨씬 쉬워져서 속도가 빨라지고, 우리가 뼈대만 조절하면 얼굴은 그대로 유지되면서 원하는 대로 움직일 수 있습니다.

🎛️ 전략 2: 원격 조종기 달기 (Fine-grained Control)

디토는 사용자에게 원격 조종기를 쥐어줍니다.

  • 시선 조절: 보통 AI 는 머리가 돌아가면 눈도 따라가서 시선이 흔들립니다. 하지만 디토는 **"머리는 돌아갈지라도 눈은 카메라를 똑바로 봐!"**라고 명령할 수 있습니다. 마치 무대 위에서 배우가 관객을 응시하듯 자연스러운 눈맞춤을 만들어줍니다.
  • 감정 조절: "슬픈 척 해", "기분 좋아해"라고 명령하면 목소리뿐만 아니라 표정까지 그 감정에 맞춰 변합니다.
  • 비유: 마치 게임 캐릭터를 조작하듯이, 얼굴의 특정 부분 (눈, 입, 머리) 만 따로 움직일 수 있는 것입니다.

⚡ 전략 3: 실시간 스트리밍 (Real-time Streaming)

기존 기술은 영상을 다 만들고 나서 보여줬다면, 디토는 말을 하는 순간 바로 얼굴이 반응합니다.

  • 비유: 전화 통화를 할 때 상대방의 입 모양이 1 초 늦게 나오는 게 아니라, 실시간으로 대화가 이어지는 것과 같습니다. AI 비서와 대화할 때 "잠깐만"이라고 말하면 AI 도 즉시 멈추고 반응할 수 있습니다.

🧪 3. 실험 결과: "사람이 만든 것보다 더 자연스러워?"

연구진은 이 기술을 테스트해 보았습니다.

  • 품질: 다른 최신 기술들보다 입 모양이 말과 더 잘 맞고 (립싱크), 얼굴이 흔들리지 않았습니다.
  • 사용자 평가: 사람들이 직접 영상을 보고 평가했을 때, **"가장 자연스럽고 입 모양이 잘 맞는다"**고 뽑았습니다.
  • 속도: 기존 기술보다 30~50 배나 더 빠르며, 심지어 실시간 대화에 필요한 기준을 훨씬 뛰어넘는 속도를 보여줍니다.

💡 4. 결론: 왜 이것이 중요한가요?

디토는 단순히 "예쁜 가짜 영상"을 만드는 것을 넘어, 실제 사람처럼 대화하고 상호작용할 수 있는 AI 비서, 가상 인플루언서, 교육용 캐릭터를 현실적으로 만들 수 있게 해줍니다.

  • 기존: "영상을 만들어주세요. (기다림... 10 분 후) 어? 표정이 이상하네. 다시 만들어주세요."
  • 디토: "안녕, 오늘 기분 어때? (즉시 반응) 오늘 기분이 좋아서 웃어줄게. 그리고 눈을 왼쪽으로 돌려볼까?"

이 기술은 앞으로 우리가 AI 와 대화하는 방식을 완전히 바꿔놓을 것으로 기대됩니다. 마치 영화 속의 '가상 인간'이 이제 우리 손끝에서 실시간으로 살아 움직이는 것입니다! 🌟