LayerT2V: A Unified Multi-Layer Video Generation Framework

本文提出了 LayerT2V 框架,通过利用视频生成骨干网络的高压缩特性将多层表示序列化并联合建模,首次实现了单次推理即可生成包含背景、前景及透明通道且语义一致的可编辑分层视频,并配套发布了首个大规模分层视频数据集 VidLayer。

Guangzhao Li, Kangrui Cen, Baixuan Zhao, Yi Xin, Siqi Luo, Guangtao Zhai, Lei Zhang, Xiaohong Liu

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 LayerT2V 的新系统,它能让电脑根据文字描述,直接生成“分层”的视频。

为了让你更容易理解,我们可以把现在的视频生成技术比作做三明治,而 LayerT2V 则像是做可拆卸的乐高积木

1. 现在的痛点:只能吃“夹心”三明治

目前的视频生成 AI(比如 Sora 或 Runway),就像是一个只会做成品三明治的厨师。

  • 你告诉它:“我要一个有火腿、生菜和面包的三明治。”
  • 它立刻吐出一个做好的三明治。
  • 问题在于:一旦三明治做好了,你就没法单独把里面的火腿拿出来换掉,也没法把生菜换成菠菜。如果你想改一下,只能把整个三明治扔掉,重新让厨师做一个新的。这在专业视频制作中非常麻烦,因为导演通常需要单独调整背景、人物或特效。

2. LayerT2V 的突破:生成“乐高积木”

LayerT2V 就像是一个乐高大师。当你给它同样的指令时,它不会直接给你拼好的模型,而是给你一堆分好类的积木块

  • 底层积木(背景层):比如森林、街道或天空。
  • 中间积木(前景人物层):比如一个奔跑的人或一只猫。
  • 透明胶带(Alpha 遮罩层):这是一层看不见的“轮廓线”,告诉电脑哪里是人物,哪里是背景,方便把它们完美地拼在一起。
  • 成品展示(合成视频):它也会同时给你看拼好后的最终效果。

最神奇的是:它是在一次思考过程中(一次推理)同时生成所有这些层的,而不是分好几次做。

3. 它是如何做到的?(核心秘诀)

秘诀一:把时间变成“传送带”

以前的 AI 处理视频时,是把每一帧画面按时间顺序排好。LayerT2V 发现,现在的 AI 压缩技术很厉害,于是它想出了一个绝招:把不同的层(背景、人物、遮罩)像排队一样,按时间顺序串在一起

  • 比喻:想象一条长长的传送带。以前传送带上只放“成品三明治”。现在,LayerT2V 把传送带切成了四段:第一段放背景,第二段放人物,第三段放遮罩,第四段放成品。AI 只要看着这条长传送带,就能一次性学会怎么同时处理它们。这样,背景里的人怎么动,前景里的人怎么动,它们之间自然就“心意相通”了,不会出现背景里的人还在走,前景里的人却突然瞬移的尴尬情况。

秘诀二:给每层积木贴上“专属标签”

既然把背景、人物和遮罩都串在一起了,AI 怎么知道哪块积木属于哪一层呢?

  • LayerAdaLN(层自适应调节):这就好比给每层积木贴上了不同颜色的标签。AI 看到“红色标签”就知道这是背景,要处理得静态一点;看到“蓝色标签”就知道这是人物,要处理得动感一点。这样它们就不会互相干扰。
  • Layered Cross-Attention(分层注意力):这就像给 AI 戴上了分色眼镜。当 AI 处理背景时,它只“看”背景的文字描述(比如“森林”);处理人物时,只“看”人物的描述(比如“奔跑的猫”)。这防止了 AI 把“森林”的特征错误地画到了“猫”的身上。

4. 数据哪里来?(VidLayer 数据集)

训练这种 AI 需要大量的“分层视频”数据,但互联网上全是成品视频,没有分层数据。

  • 解决方案:作者们自己造了一个叫 VidLayer 的数据库。
  • 比喻:他们找来了 5 万段普通视频,然后用一套自动化的“魔法流水线”:
    1. 用 AI 识别视频里的主角(比如一个人)。
    2. 用 AI 像“抠图”一样,把这个人从背景里“切”出来。
    3. 把切下来的人、剩下的背景、以及切下来的轮廓(遮罩)重新打包。
    4. 最后用另一个 AI(GPT-4o)当“质检员”,检查抠图有没有把背景弄脏,或者人物有没有缺胳膊少腿。
    5. 通过这一套流程,他们收集了 400 万帧高质量的“分层视频”数据。

5. 这有什么用?

  • 对普通人:你可以更自由地编辑视频。比如生成一个“在火星上跑步的人”,然后你可以单独把“火星”换成“地球”,或者把“跑步的人”换成“骑自行车的人”,而不需要重新生成整个视频。
  • 对专业领域:电影特效师、广告设计师可以像搭积木一样快速修改视频细节,大大节省时间和成本。

总结

LayerT2V 就像是视频生成界的“乐高大师”。它不再只给你看最终拼好的模型,而是直接给你提供背景、人物、轮廓等所有分开的积木块,并且保证这些积木块在拼在一起时严丝合缝、动作协调。这让未来的视频创作变得更加灵活、可控,就像搭积木一样简单有趣。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →