Motion Manipulation via Unsupervised Keypoint Positioning in Face Animation

该论文提出了一种名为 MMFA 的新方法,通过自监督表征学习、新型关键点计算及变分自编码器,成功在人脸动画中解耦身份与运动信息,实现了无监督框架下的表情插值与任意运动控制。

Hong Li, Boyu Liu, Xuhui Liu, Baochang Zhang

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 MMFA 的新技术,它的核心目标是让电脑能更聪明、更自然地“换脸”和“做表情”。

为了让你轻松理解,我们可以把这项技术想象成是在玩一个高级的“数字木偶”游戏

1. 以前的“木偶”有什么问题?(背景与痛点)

想象一下,你想让一张静态的照片动起来,模仿另一个人说话或做鬼脸。以前的方法(比如“无监督关键点定位”)就像是在照片上贴了一些隐形的橡皮筋(关键点)。

  • 旧方法的缺陷:这些橡皮筋太“粘人”了。当你想让木偶转头(旋转)或者张嘴(表情)时,橡皮筋会把长相(身份)和动作混在一起。
    • 比喻:就像你试图让一个穿着紧身衣的人转头,结果因为衣服太紧,不仅头转了,连他的脸都被拉扯变形了,甚至看起来不像原本的那个人了。
    • 结果:以前的技术要么让脸变形,要么在换人(跨身份)时,把原主人的脸弄丢了,变成了“四不像”。

2. MMFA 是怎么做的?(核心创新)

MMFA 就像给这个木偶换了一套全新的、模块化的关节系统。它把脸拆解成了三个独立的零件,互不干扰:

A. 把“长相”和“动作”彻底分开(解耦)

以前的系统是一锅炖,MMFA 则像是一个精密的乐高工厂

  • 身份(Identity):这是乐高的底座。不管怎么动,底座永远是那个人的脸。
  • 动作(Pose):这是旋转和移动的关节。你想让头向左转,就只动这个关节,底座不动。
  • 表情(Expression):这是面部的肌肉。你想笑,就只动肌肉,不改变头的位置。

关键突破:以前的技术分不清“因为脸大了所以看起来像张嘴”还是“真的在张嘴”。MMFA 引入了一个缩放因子(就像相机的变焦),专门处理因为距离远近造成的脸的大小变化,确保它不会误把“脸变大”当成“张嘴”。

B. 给表情装上了“调音台”(VAE 变分自编码器)

这是这篇论文最酷的地方。以前的表情控制是“死板”的,要么完全模仿驱动视频,要么完全不动。

MMFA 引入了一个变分自编码器(VAE),你可以把它想象成一个表情调音台或者魔法调色盘

  • 原理:它把各种表情(笑、哭、惊讶)都压缩成一个连续的“数字空间”。在这个空间里,表情不是一个个孤立的点,而是一条平滑的河流。
  • 效果:你可以像调节音量旋钮一样,在“完全中性”和“大笑”之间随意滑动,创造出中间状态的表情(比如“似笑非笑”)。以前没人能在没有驱动视频的情况下,凭空生成这种连续、自然的表情变化。

3. 具体流程是怎样的?(通俗版)

  1. 扫描与拆解:系统先扫描源照片(谁的脸)和驱动视频(谁的动作)。
  2. 提取“骨架”:它不直接看像素,而是先找到脸上的关键点(眼睛、鼻子、嘴巴),并把这些点分解成:
    • 标准骨架(这个人的脸长什么样)。
    • 旋转/平移(头怎么动)。
    • 缩放(脸离镜头多远)。
    • 表情变形(肌肉怎么动)。
  3. 自监督学习:系统通过“自我考试”来学习。比如,把一张脸旋转一下,它必须能认出“这还是同一个人,只是转了头”,从而学会把“长相”和“动作”彻底分开。
  4. 重新组装:把源照片的“长相骨架”,套上驱动视频的“动作骨架”和“表情骨架”,生成新的视频。
  5. 魔法插值:如果你想让表情从“平静”慢慢变到“大笑”,系统会在刚才提到的“表情调色盘”里,沿着平滑的曲线生成中间帧,让过渡非常自然。

4. 这有什么用?(应用场景)

  • 远程会议/客服:你可以用一张静态照片,配合你的声音,生成一个像真人一样自然说话、点头、微笑的虚拟形象,而且不会显得僵硬或恐怖。
  • 娱乐与游戏:玩家可以自定义角色的表情,甚至创造出游戏中原本没有的微妙表情。
  • 视频修复:让老照片里的人“活”过来,自然地眨眼和说话。

总结

简单来说,MMFA 就像是一个懂解剖学的数字导演
以前的导演只会让演员“硬转”或“硬挤”,导致动作僵硬、脸变形。
而 MMFA 导演知道:“转头”是转脖子,“笑”是动嘴角,“脸大”是离镜头近。 它把这些动作拆解得清清楚楚,再完美地组合在一起,还能让你随意调节表情的“浓度”,让生成的虚拟人像既真实又听话。

这项技术的最大贡献,就是第一次在不需要大量预设数据(无监督)的情况下,实现了身份、姿态、表情的完全独立控制,并且能创造出以前做不到的连续表情变化