UniTalking: A Unified Audio-Video Framework for Talking Portrait Generation

本文提出了 UniTalking,一种基于多模态 Transformer 块和预训练视频先验的统一端到端扩散框架,旨在生成高保真、唇形同步且支持个性化语音克隆的说话人像视频,其性能在多项指标上超越了现有开源方法。

Hebeizi Li, Zihao Liang, Benyuan Sun, Zihao Yin, Xiao Sha, Chenliang Wang, Yi Yang

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 UniTalking 的新 AI 技术,它的核心能力是:看着一张照片,听着一段声音,就能生成一个既会说话、声音又像本人,而且口型完美匹配的“数字人”视频。

为了让你更容易理解,我们可以把这项技术想象成**“给数字人找了一位全能导演和一位完美配音员”**。

以下是用大白话和比喻对这篇论文的解读:

1. 现在的痛点:为什么以前的 AI 不够好?

想象一下,你想拍一部电影,让一个虚拟角色说话。

  • 以前的做法(分步走): 就像先让一个编剧写好台词(生成音频),再让另一个演员根据台词去对口型(生成视频)。
    • 问题: 这两个步骤是分开进行的,就像“先写剧本再排戏”,经常会出现对不上嘴的情况(比如嘴巴动了但声音没出来,或者声音到了嘴巴还没动),而且声音和画面缺乏那种“灵魂共鸣”的感觉。
  • 大公司的秘密武器(黑盒): 像 Google 的 Veo3 或 OpenAI 的 Sora2 这样的公司,虽然能做出完美的效果,但它们是**“黑盒”**,代码不公开,我们不知道它们是怎么做到的,也没法学习或改进。

UniTalking 的目标就是:我们要造一个公开的、大家都能用的“黑盒”,而且效果要能和大公司的秘密武器一较高下。

2. 核心魔法:UniTalking 是怎么做到的?

UniTalking 不像以前那样“分步走”,它采用了一种**“双轨并行、同步思考”**的架构。

🎭 比喻一:双胞胎兄弟的“心灵感应”

以前的模型是“哥哥做视频,弟弟做音频”,两人各干各的,偶尔喊一声“喂,我这边开始了”。
UniTalking 则像是一对拥有“心灵感应”的双胞胎兄弟

  • 视频流音频流在同一个大脑(模型)里同时运作。
  • 它们使用一种叫**“联合注意力机制”(Joint Attention)的魔法。这就好比这两个兄弟在说话时,眼睛一直盯着对方,“你动一下嘴唇,我马上就知道该发什么音;我发一个音,你马上就知道嘴巴该张多大”**。
  • 这种机制确保了**口型(Visemes)和发音(Phonemes)**在每一帧上都严丝合缝,就像真人在说话一样自然。

🎨 比喻二:万能画师与声音模仿秀

UniTalking 不仅能说话,还能**“换脸”“变声”**:

  • 视觉身份(Identity): 你给它一张照片(比如你朋友的照片),它就能让照片里的人动起来,而且长得完全像你的朋友,不会变成陌生人。
  • 声音克隆(Voice Cloning): 你给它一段你朋友说话的声音(哪怕只有几秒),它就能学会你朋友的声线、语气和语调
  • 比喻: 就像你给一个演员一张照片和一段录音,他就能立刻穿上你的衣服,用你的声音,完美地演完整个剧本。

3. 训练过程:如何教会它?

为了让这个“双胞胎”模型学会完美的配合,作者设计了一个**“先练基本功,再练合奏”**的两阶段训练法:

  • 第一阶段(单练): 先只训练“声音弟弟”。让它专门练习把文字变成好听的声音(TTS 任务)。这就好比让配音演员先单独练声,确保声音本身就很专业、很自然。
  • 第二阶段(合奏): 把练好的“声音弟弟”和“视频哥哥”(基于强大的 Wan2.2 视频模型)放在一起,让它们一起练习。
    • 这时候,它们不仅要各自做好,还要互相配合。比如,模型会看到视频里嘴巴在动,就强制声音必须跟上;听到声音在笑,就强制视频里的人要笑。
    • 通过这种**“多任务交替训练”,模型学会了理解:“原来这个口型对应这个声音,那个表情对应那种语气”**。

4. 效果怎么样?

作者做了很多测试,结果非常亮眼:

  • 口型同步率(Lip-sync): 就像两个人跳舞,步调完全一致。在测试中,它的口型准确度超过了目前开源界的其他所有模型,甚至能和大公司的 Sora2 媲美。
  • 声音自然度: 生成的声音听起来不像机器人,而是像真人在说话,情感丰富。
  • 声音相似度: 如果你给它一段参考音频,它模仿出来的声音,相似度能达到行业顶尖水平(比如和 ElevenLabs 这样的专业配音软件差不多)。

5. 总结:这有什么意义?

UniTalking 就像是为普通人和研究人员打开了一扇大门:

  1. 它打破了垄断: 以前只有大公司能做出来的“完美数字人”,现在开源了,大家都能用。
  2. 它解决了“假”的问题: 以前的数字人说话像“假人”,嘴对不上;现在的 UniTalking 让数字人说话像“真人”,口型、声音、表情浑然一体。
  3. 应用场景广阔: 它可以用来做自动电影配音(让演员说不同语言)、虚拟数字人主播、或者让老照片里的人开口说话,甚至未来可能用于制作更逼真的虚拟偶像。

一句话总结:
UniTalking 就像是一个拥有“读心术”的超级导演,它能同时指挥画面和声音,让数字人不仅“长得像”、“声音像”,而且“说话像”得让人分不清真假,而且这一切都是免费开源的!

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →