Frame Guidance: Training-Free Guidance for Frame-Level Control in Video Diffusion Models

本文提出了无需训练的"Frame Guidance"方法,通过创新的潜在空间处理与优化策略,实现了基于关键帧、风格参考图、草图或深度图等帧级信号对任意视频扩散模型的高效可控生成。

Sangwon Jang, Taekyung Ki, Jaehyeong Jo, Jaehong Yoon, Soo Ye Kim, Zhe Lin, Sung Ju Hwang

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 Frame Guidance(帧引导) 的新方法,它能让现有的视频生成 AI 变得“听话”,而且不需要重新训练,也不需要消耗巨大的算力。

为了让你更容易理解,我们可以把现在的视频生成 AI 想象成一位才华横溢但有点“随性”的画家

1. 核心痛点:画家太“随性”,且教他太贵

  • 现状:现在的 AI 画家(视频扩散模型)画出来的视频很逼真,但如果你想让他画特定的东西(比如“让一只猫在画面中间跳来跳去”或者“把视频变成水墨画风格”),现有的方法通常有两种:
    1. 重新训练:给画家上一整年的课,专门教他怎么画猫。但这太贵了,而且每出一个新画家(新模型),你就得重新上一遍课。
    2. 特定工具:给画家配一个专门的“猫画助手”,但这个助手只能画猫,不能画风景,也不能画水墨画。
  • 问题:用户想要的是通用、免费、即插即用的方法。

2. 解决方案:Frame Guidance(帧引导)—— 给画家递“参考图”

Frame Guidance 就像是一位聪明的艺术总监。他不需要教画家怎么画画,而是通过在关键帧上递一张参考图,就能指挥画家画出整部视频。

核心比喻:

想象你在指挥一个自动生成的电影

  • 传统方法:你需要把整个剧本(视频)重新写一遍,甚至要把整个剧组(模型)重新培训。
  • Frame Guidance:你只需要在剧本的第 1 页、第 10 页和第 50 页贴上几张你喜欢的照片(关键帧、草图、深度图或风格图)。
    • 告诉 AI:“第 1 页要这样,第 10 页要那样,第 50 页要变成这样。”
    • AI 就会自动把中间的画面“脑补”出来,让整部电影流畅地过渡,既符合你的要求,又保持连贯。

3. 两大“黑科技”:如何做到既快又省?

为了让这个“艺术总监”能在巨大的 AI 模型上工作而不把电脑内存撑爆,论文提出了两个巧妙的技巧:

技巧一:切片解码 (Latent Slicing) —— “只盯着局部看”

  • 问题:现在的视频 AI 为了保持画面连贯,通常会把整部电影(比如 50 秒的视频)压缩成一串长长的“密码”(潜变量)。如果要修改其中一帧,传统方法需要把整串密码都重新解码一遍,这非常消耗内存(就像为了改一个错别字,要把整本书重新打印一遍)。
  • 发现:作者发现,视频中的“密码”其实有局部性。改第 10 秒的画面,主要只影响第 9 秒和第 11 秒的密码,不会波及到第 50 秒。
  • 做法:他们发明了一种“切片”技术。当需要修改某一帧时,只解码那一小段附近的密码,而不是整部电影。
    • 比喻:就像修路,以前是修好整条高速公路才能修一个坑;现在只需要挖开那个坑周围的一小块路面就能修好,省下了 90% 的力气(显存)。

技巧二:视频潜变量优化 (VLO) —— “先定骨架,再填肉”

  • 问题:在视频生成的早期,画面的“大轮廓”(比如物体在哪里、怎么动)就定下来了。如果这时候用一种随机性很强的方法去修改,就像在画骨架的时候手抖了,后面怎么补都歪。
  • 做法:他们设计了一个分阶段的策略:
    1. 早期(定骨架):用确定性的方法,稳稳地把画面的大结构(布局)按你的要求定好。这时候不能乱抖,必须精准。
    2. 后期(填细节):等大结构稳了,再用随机性的方法去丰富细节,让画面更自然、更有质感。
    • 比喻:就像盖房子。先打地基、立梁柱(早期确定性优化),确保房子不歪;然后再刷墙、装修(后期随机优化),让房子好看。

4. 它能做什么?(万能工具箱)

这个方法非常灵活,就像给画家递什么参考图,他就能画什么:

  • 关键帧控制:给首尾两张图,AI 自动补全中间的动作(比如一个人从左边走到右边)。
  • 风格迁移:给一张“水墨画”或“赛博朋克”风格的图,整个视频就会变成那个风格。
  • 循环视频:让视频的首尾完美衔接,做成无限循环的动图。
  • 草图/深度图控制:你画个火柴人,或者给个深度图(表示远近),AI 就能生成对应的 3D 视频。
  • 色块涂鸦:甚至你只需要在屏幕上涂几个色块(比如这里涂红,那里涂蓝),AI 就能理解你想让画面哪里变色。

5. 总结

Frame Guidance 就像是给现有的视频 AI 装上了一个通用的“遥控器”

  • 不需要重新训练模型(省钱、省时)。
  • 不需要特定的硬件(普通显卡就能跑)。
  • 支持各种输入(图、草图、深度图、文字)。

它让普通人也能轻松控制视频生成的每一个细节,让 AI 从“随机生成者”变成了“听话的创作者”。