See the Speaker: Crafting High-Resolution Talking Faces from Speech with Prior Guidance and Region Refinement

该论文提出了一种仅凭单路语音输入即可生成高分辨率说话人脸视频的新方法,通过结合语音条件扩散模型、统计面部先验、区域增强模块以及基于离散码本的图像渲染网络,实现了从语音直接驱动高质量、高保真且口型同步的说话人脸生成。

Jinting Wang, Jun Wang, Hei Victor Cheng, Li Liu

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一项名为 "See the Speaker"(看见说话者) 的新技术。简单来说,它能让计算机仅凭一段声音(比如你说话的声音),就生成一段高清、逼真的“说话人脸”视频

以前,如果你想要生成一个说话的视频,通常需要一张参考照片(比如某人的照片)作为“底片”,然后让计算机根据声音去“动”这张照片。但这有个大问题:如果你没有某人的照片,或者不想泄露隐私,这就没法做了。

这项新技术就像是一个**“读心术”大师**,它不需要照片,直接听声音就能“脑补”出说话人的长相,并让他动起来。

为了让你更容易理解,我们可以把整个过程想象成**“一位天才画师和一位动画师的接力赛”**:

第一阶段:听声画像(从声音到肖像)

任务: 画师只听到一段声音,就要画出说话人的脸。

  • 以前的困难: 就像让你只凭“他说话声音很粗”这一条线索,去画一个具体的人。你可能会画出一个大胡子,也可能画出一个光头,因为声音里包含的长相信息太少了,画出来的人往往不像本人,或者每次画都不一样(太随机)。
  • 我们的创新(统计人脸先验 + 自适应权重):
    • 统计人脸先验(The Average Face): 画师脑子里先有一个“人类平均脸”的概念(就像把所有人脸的特征平均一下,得到一个标准的骨架)。这保证了画出来的人脸结构是合理的,不会长出三只眼睛。
    • 样本自适应权重(The Customizer): 画师会根据声音里的细微差别(比如口音、语调),动态调整这个“平均脸”。如果声音听起来像个年轻女性,画师就会把“平均脸”往女性特征上微调;如果声音低沉,就往男性特征上微调。
    • 结果: 画师不仅画出了合理的脸,还精准地捕捉到了说话人的独特气质(身份一致性),而且画得非常像。

第二阶段:让画像动起来(从肖像到视频)

任务: 让刚才画好的静止肖像,根据声音动起来,变成说话视频。

  • 以前的困难: 很多旧方法就像是用“提线木偶”的方式,先算出嘴巴要动多少度,眼睛要眨几次,然后再去动脸。这容易导致嘴巴和声音对不上(口型不同步),或者表情僵硬。
  • 我们的创新(整体运动 + 嘴唇精修):
    • 整体运动(Holistic Motion): 我们不单独计算嘴巴怎么动,而是让计算机在“潜空间”(一种计算机内部的高级抽象空间)里直接学习“说话时的整体感觉”。就像你学游泳,不是先学划手再学蹬腿,而是直接感受水流的整体律动。这样,眨眼、转头、微笑都会自然发生。
    • 嘴唇精修(Lip Refinement): 虽然整体感觉对了,但嘴巴是说话的关键。我们专门给嘴巴区域加了个“放大镜”和“修正器”,确保嘴巴的开合和声音完美同步,不会出现“嘴在动,声音没对上”的尴尬。

第三阶段:高清渲染(从草稿到电影级画质)

任务: 把生成的视频变得非常清晰,达到电影级别。

  • 以前的困难: 很多方法生成的视频像马赛克,或者需要分好几步处理(先画低清,再放大),速度慢且容易失真。
  • 我们的创新(离散码本):
    • 我们使用了一种类似“乐高积木”的高级数据库(离散码本)。计算机不是从零开始画每一个像素,而是从数据库里挑选最完美的“高清积木块”来拼凑画面。
    • 这就像是用最高级的 4K 打印机直接输出,而不是先打印黑白草稿再上色。最终生成的视频细节丰富,牙齿、皮肤纹理都清晰可见。

总结:这项技术厉害在哪里?

  1. 不需要照片(隐私友好): 你不需要提供任何人的照片,只要给他一段声音,他就能“变”出那个人说话的视频。
  2. 像本人(身份一致): 生成的脸和声音的主人非常像,不会张冠李戴。
  3. 高清且自然(画质与同步): 视频分辨率高,嘴巴动作和声音完美同步,表情丰富自然。
  4. 端到端(效率高): 整个过程流畅,不需要复杂的中间步骤,就像变魔术一样直接出结果。

一句话概括:
这项技术就像给计算机装上了一双“透视眼”和“神笔马良”的手,让它能只听声音就画出逼真的人脸,并让这张脸像真人一样自然、高清地说话,彻底解决了“没照片就不能生成说话视频”的难题。