DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

该论文提出了 DISPLAY 框架,通过仅依赖手腕关节坐标和物体边界框的稀疏运动引导、物体感知注意力机制以及多任务辅助训练策略,实现了高保真且可灵活控制的人与物体交互视频生成。

Jiazhi Guan, Quanwei Yang, Luying Huang, Junhao Liang, Borong Liang, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Jingdong Wang

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 DISPLAY 的新系统,它的核心能力是:让你用极其简单的指令,就能指挥视频里的人去“拿”、"放”或“玩”任何你指定的物体。

想象一下,以前你想让视频里的人拿起一个苹果,可能需要专业的动画师画几百帧,或者需要复杂的 3D 建模。而 DISPLAY 就像是一个**“超级导演助手”**,你只需要给它几个简单的“路标”,它就能自动把剩下的动作演得栩栩如生。

为了让你更容易理解,我们可以用几个生活中的比喻来拆解它的核心魔法:

1. 核心魔法:稀疏运动指引 (Sparse Motion Guidance)

比喻:就像玩“连点成线”的游戏,或者给木偶只系两根线。

以前的视频生成方法,往往需要给视频里的人穿上全套的“动作捕捉服”(比如标记全身 20 多个关节点),还要给物体画复杂的 3D 模型。这就像要求导演必须把演员的每一个手指关节都画出来才能开拍,太麻烦了,而且一旦物体形状变了(比如从苹果换成 iPad),之前的“衣服”就不合身了。

DISPLAY 的做法非常“极简”:

  • 只抓手腕: 它只关心人的手腕在哪里。就像你指挥木偶,只需要拉手腕的线,手自然就会动。
  • 只画个框: 对于物体,它不关心物体是圆的还是方的,只画一个**“形状无关”的方框**告诉物体“大概在这个位置”。

效果: 你只需要在视频的关键帧上点两下(告诉它手腕要去哪),再画个框(告诉它物体在哪),剩下的细节(手指怎么弯曲、物体怎么变形)全部交给 AI 去脑补。这让操作变得像画画一样简单。

2. 核心难点:物体总是“长歪”或“穿模”

比喻:就像让一个不听话的厨师,只凭一张模糊的菜单做菜。

当指令很少时(比如只告诉手腕位置),AI 很容易犯错。比如,它可能让人的手直接“穿过”杯子,或者把杯子捏扁了。这是因为 AI 太关注人的动作,而忽略了物体。

DISPLAY 的解决方案:物体强化注意力 (Object-Stressed Attention)
比喻:给物体戴上“扩音器”。

在 AI 的大脑里,它通常会把人的脸、衣服、背景都看得很重。DISPLAY 发明了一种机制,强行让 AI 在思考时**“大声喊出”**物体的存在。

  • 它告诉 AI:“别光顾着看手怎么动,盯着那个杯子! 杯子必须保持杯子的形状,手必须围着杯子转,不能穿过去。”
  • 这就保证了生成的视频里,物体看起来真实、坚固,而且和人的互动(比如抓握)非常符合物理规律。

3. 数据难题:好素材太少

比喻:想学做“红烧肉”,但家里只有几块生肉,不够练手。

训练这种 AI 需要大量“人拿物体”的高质量视频。但现实是,这种视频很难找,而且很多视频里手被挡住了(遮挡),或者物体不清晰。数据太少,AI 就学不会。

DISPLAY 的解决方案:多任务辅助训练 (Multi-Task Auxiliary Training)
比喻:不仅学做“红烧肉”,还顺便学做“炒青菜”和“炖汤”。

既然专门的人拿物体视频不够,DISPLAY 就“曲线救国”:

  • 它让 AI 同时学习有物体的视频(练拿东西)和没物体的视频(练走路、挥手)。
  • 在训练时,它还会故意把视频里的人或物体“遮住”一部分,强迫 AI 去猜:“如果这里被挡住了,后面应该是什么?”
  • 这种“混合训练”让 AI 变得非常聪明,即使面对从未见过的物体或场景,也能举一反三,生成高质量的视频。

4. 它能做什么?

有了这套系统,你可以轻松实现三种场景:

  1. 换物 (Object Replacement): 视频里的人手里拿着个旧手机,你给它一张新 iPad 的图,它就能把旧手机变成新 iPad,动作自然流畅。
  2. 加物 (Object Insertion): 视频里的人手是空的,你给它一个“杯子”的图,并指点它“把手伸到胸前”,AI 就会生成一个人凭空拿起杯子的视频。
  3. 环境互动 (Environmental Interaction): 视频里桌上有个杯子但没人碰,你可以指挥人去拿起来喝一口。

总结

DISPLAY 就像是一个**“懂物理、会演戏的 AI 导演”
它不需要你提供复杂的动作剧本,只需要你画几个简单的
“路标”(手腕去哪、物体在哪),它就能利用“物体强化”技术保证物体不变形,利用“混合训练”**保证动作自然。这让普通人也能轻松制作出以前只有好莱坞特效团队才能做到的“人机互动”视频。

一句话概括: 以前做这种视频像“手搓泥人”,现在有了 DISPLAY,就像“搭乐高”一样简单又好玩。