Learning to Generate Conditional Tri-plane for 3D-aware Expression Controllable Portrait Animation

本文提出了 Export3D 方法,通过引入将 3DMM 表情参数融入源图像的三平面生成器,并结合消除身份外观干扰的对比预训练框架,实现了仅需单张图像即可生成视角可控且无身份外观交换的 3D 感知表情可控肖像动画。

Taekyung Ki, Dongchan Min, Gyeongsu Chae

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Export3D 的新技术,它的核心功能是:让你用一张静态的人脸照片,就能“变”出各种表情和视角的生动视频,而且还能让这张脸模仿别人的表情,同时保持原本人的长相不变。

为了让你轻松理解,我们可以把这项技术想象成**“给照片穿上可换装的 3D 戏服”**。

以下是用通俗语言和比喻对这篇论文的详细解读:

1. 核心难题:为什么以前的方法容易“穿帮”?

想象一下,你想让照片里的人(源人物)模仿另一个人的表情(驱动人物)。

  • 以前的方法(像“强行扭曲”): 就像是用橡皮泥把照片里的人脸硬生生地捏成另一个人的样子。虽然表情像了,但往往连原本人的眉毛形状、脸型轮廓都被一起“偷”走了,导致照片里的人看起来既不像自己,也不像对方,或者表情和长相混在一起分不开。
  • 以前的 3D 方法(像“笨拙的木偶”): 有些方法试图建立 3D 模型,但它们要么需要大量的数据训练,要么在换表情时,模型会“抽搐”或者闪烁,就像木偶的关节不够灵活。

Export3D 的突破点在于: 它不仅能换表情,还能把“长相”和“表情”彻底分开,就像把“演员的脸”和“演员做的动作”完全解绑。

2. 核心技术一:给表情“洗个澡”(CLeBS 对比学习)

这是论文最聪明的地方。

  • 问题: 当我们从 3D 模型(3DMM)中提取表情参数时,这些参数里其实偷偷混进了“长相信息”。比如,提取“微笑”参数时,可能也带上了“这个人的眼睛很大”的信息。
  • 比喻: 想象你要把“微笑”这个动作从一个人身上提取出来,但提取器是个“贪心鬼”,它把微笑时露出的牙齿、眼角的皱纹(长相特征)也一起打包带走了。
  • 解决方案(CLeBS): 作者设计了一个**“对比学习过滤器”**。
    • 它让 AI 看同一个人的不同视频片段(长相不变,表情在变)。
    • 它强迫 AI 学习:“不管表情怎么变,长相必须被忽略;不管长相是谁,表情必须被提取。”
    • 就像给表情参数“洗了个澡”,把附带的“长相污渍”洗掉,只留下纯净的“动作指令”。这样,当你把“微笑”指令给另一个人时,他只会微笑,而不会突然长出对方的大眼睛。

3. 核心技术二:三张“魔法画板”(Tri-plane Generator)

  • 传统做法: 以前的 3D 生成像是在画一个立体的球体,计算量巨大,或者像画一张平面的画,转个角度就穿帮了。
  • Export3D 的做法: 它使用了**“三平面(Tri-plane)”**技术。
    • 比喻: 想象你要描述一个 3D 物体,不需要画一个复杂的球,只需要画三张互相垂直的透明玻璃板(分别代表 XY、YZ、ZX 三个方向)。
    • 这三张板上记录了物体的所有 3D 信息。
    • 作者设计了一个**“混合生成器”**(结合了 ViT 视觉 Transformer 和卷积层),它能直接根据源照片和刚才洗干净的“表情指令”,瞬间生成这三张魔法画板。
    • EAdaLN 技术: 这是一个特殊的“调节器”,它能把“表情指令”精准地注入到画板的生成过程中,就像给画板上的颜料注入了“微笑”的魔法,让画板自动变成微笑的样子。

4. 核心技术三:光影渲染(Volume Rendering)

  • 有了这三张魔法画板,怎么变成视频呢?
  • 比喻: 想象有一束光(相机视角)穿过这三张画板。计算机通过**“可微体积渲染”**技术,计算光线穿过画板时遇到的颜色和密度,最终在屏幕上合成出一张新的照片。
  • 优势: 因为画板是 3D 的,所以你可以随意旋转相机角度(比如从正面转到侧面),照片里的人脸依然保持立体、自然,不会出现 2D 图片那种“纸片人”的扭曲。

5. 最终效果:像变魔术一样

  • 同一个人换表情: 让照片里的人眨眼、张嘴,非常自然。
  • 跨身份换表情(Cross-identity): 这是最厉害的一点。你可以让照片里的人(比如你)去模仿电影明星(驱动者)的夸张表情。
    • 以前的结果: 你的脸可能会变成明星的脸,或者表情很僵硬。
    • Export3D 的结果: 你的脸还是你的脸(保留了你的五官),但你做出了明星那个夸张的表情,而且没有奇怪的闪烁或变形。

总结

这篇论文就像发明了一套**“高级换装系统”**:

  1. 它先给表情指令**“去污”**(去掉长相干扰)。
  2. 然后用**“三张魔法画板”**快速构建 3D 场景。
  3. 最后通过**“光影魔法”**渲染出任意角度的视频。

这使得我们不仅能控制照片里的人做什么表情,还能控制摄像机怎么拍,而且最重要的是,照片里的人永远是他自己,不会在模仿别人时“变成”别人。 这对于虚拟数字人、电影配音、视频会议等应用来说,是一个巨大的进步。