Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis

本文提出了 Ditto,一种基于扩散模型的实时可控说话人合成框架,通过引入运动空间扩散变换器、优化架构与训练策略以及建立运动表征与面部语义的映射,在显著提升推理速度和可控性的同时实现了低延迟的流式处理。

Tianqi Li, Ruobing Zheng, Minghui Yang, Jingdong Chen, Ming Yang

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

想象一下,你正在和一个虚拟的“数字人”聊天。以前的技术要么让这个人说话时嘴巴对不上(像口型不同步),要么让他说话时像个木头人,表情僵硬,或者虽然很逼真但生成速度太慢,等你听完一句话,他可能还在“加载中”。

这篇论文介绍了一个叫 Ditto 的新系统,它就像给虚拟人装上了一套**“超级智能且极速的导演系统”**。

我们可以用三个生动的比喻来理解它是怎么工作的:

1. 核心魔法:把“动作”和“长相”分开(Motion-Space)

以前的技术就像是在直接画每一帧画。如果要画一个人转头、眨眼、张嘴,画家(AI)必须同时记住这个人的长相(比如他是张三还是李四)和动作,这非常累,而且容易画错,导致动作僵硬或者长得变了。

Ditto 的做法是“分步走”:

  • 第一步(动作导演): 它先不管这个人长什么样,只专注于**“动作”。它把说话时的嘴巴开合、头部的转动、表情的变化,提炼成一套通用的“动作指令”**(就像乐谱)。
  • 第二步(化妆师): 等动作指令生成好了,再把这个“乐谱”套用到具体的“演员”(你的照片)身上。
  • 比喻: 就像拍电影,先由动作指导(Ditto 的核心)设计好完美的舞蹈动作,然后再让不同的演员(不同的照片)去跳这支舞。这样既保证了动作流畅自然,又保证了演员还是原来的演员,不会跳着跳着脸就变了。

2. 解决痛点:从“慢吞吞”到“实时对话”

以前的扩散模型(Diffusion Models)就像是一个慢工出细活的雕刻家。为了生成一秒钟的视频,它可能需要反复修改几十次,导致你说话后,对方要等很久才能回应。这对于像 AI 助手这样的实时聊天来说,体验太差了。

Ditto 的优化:

  • 极速通道: 它把那个“雕刻家”训练成了**“快手画师”**。通过特殊的训练方法,它把生成步骤从 50 次减少到 10 次,但质量依然很高。
  • 流水线作业: 它不再等整段视频画完再给你,而是像传送带一样,你说话的同时,它就在后台一边听、一边画、一边输出。
  • 比喻: 以前是“先写完整篇文章再给你看”,现在是“你刚说一个字,它立刻吐出对应的字”,实现了真正的实时对话,延迟极低。

3. 精细控制:给虚拟人装上“遥控器”

以前的技术,你只能给一段音频,然后“听天由命”看它生成什么表情。如果它生成的表情太夸张或者眼神乱飘,你很难去修正。

Ditto 的“遥控器”功能:

  • 眼神控制: 以前虚拟人转头时,眼睛会跟着头转,导致眼神总是飘忽不定,没法盯着你看。Ditto 发明了一种方法,让虚拟人的眼睛能独立于头部转动,始终深情(或专注)地盯着摄像头(也就是盯着你)。
  • 情绪与局部控制: 你可以指定它“悲伤一点”或者“只动嘴巴不动头”。
  • 比喻: 以前的虚拟人像是一个自动播放的录音机,你只能按播放键。现在的 Ditto 像是一个有经验的配音演员,你可以随时喊“停”,告诉他:“眼神看这里,表情再开心一点”,它能立刻调整。

总结:Ditto 带来了什么?

简单来说,Ditto 就是一个**“既快、又准、还能听指挥”**的虚拟人生成引擎。

  • 快: 能在普通显卡上实时运行,像真人聊天一样没有延迟。
  • 准: 口型对得上,表情自然,而且不管怎么动,长相都不会变。
  • 听话: 你可以控制它的眼神、情绪和动作幅度,甚至能把它的头和身体完美拼接,做出全身动画。

这项技术让未来的 AI 助手、虚拟主播、甚至电影特效制作,变得更加真实、互动性更强,而且不再需要昂贵的计算资源等待。作者还开源了代码,让大家都可以用上这个“魔法”。