FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance

FlashMotion 提出了一种结合轨迹适配器预训练、生成器蒸馏及混合策略微调的新框架,旨在解决现有轨迹可控视频生成方法在加速至少步生成时质量与精度下降的问题,并显著提升了生成视频的视觉质量与轨迹一致性。

Quanhao Li, Zhen Xing, Rui Wang, Haidong Cao, Qi Dai, Daoguo Dong, Zuxuan Wu

发布于 2026-03-13
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 FlashMotion 的新技术,它的核心目标是:让 AI 生成视频时,既能精准控制物体的运动轨迹,又能像“闪电”一样快。

为了让你轻松理解,我们可以把整个过程想象成**“教一个新手司机(AI)在复杂的赛道上飙车”**。

1. 现在的困境:要么慢,要么糊

  • 以前的方法(慢速但精准): 就像教一个新手司机开车。为了让他稳稳地沿着画好的路线(轨迹)开,教练(AI 模型)必须让他反复练习几十次(多步去噪)。虽然最后能开得准,但太费时间了,而且每次练习都要消耗大量体力(计算资源)。
  • 想加速的尝试(快速但翻车): 有人想:“能不能让他只练几次就上路?”于是,有人把那个练了很久的老司机(多步模型)强行压缩成“速成班”(少步蒸馏)。
    • 问题出现了: 如果你直接把老司机的“路线指南”(轨迹适配器)拿来给速成班的新手用,结果就是:车开得飞快,但要么撞墙了(轨迹不准),要么车都糊成一团看不清了(画面模糊)。 就像给 F1 赛车装上了自行车的导航,根本带不动。

2. FlashMotion 的解决方案:三步走的“特训营”

FlashMotion 提出了一套全新的训练方案,分三步走,把“慢速精准”和“快速高效”完美结合:

第一步:先当“慢速教练” (Training Slow Adapter)

  • 做什么: 先在一个慢速、多步骤的 AI 模型上,专门训练一个“轨迹适配器”。
  • 比喻: 这就像先让教练在模拟驾驶舱里,手把手教新手司机如何完美地沿着画好的弯道行驶。这时候不追求速度,只追求**“准”**。这个教练(适配器)已经非常懂怎么控制路线了。

第二步:打造“极速赛车” (Training Fast Generator)

  • 做什么: 把那个慢吞吞的 AI 模型,通过“蒸馏”技术,压缩成一个只需要几步就能生成视频的“极速模型”。
  • 比喻: 就像把一辆重型卡车改装成了一辆F1 赛车。它的引擎(生成能力)变快了,但它的“导航系统”还没换,还是老司机的配置,直接开肯定不行。

第三步:给赛车换上“新导航”并特训 (Training Fast Adapter)

  • 这是最核心的创新!
  • 问题: 直接把老教练(慢速适配器)塞进 F1 赛车(极速模型)里,车会失控。
  • FlashMotion 的做法:
    1. 混合训练: 它没有只用一种方法教,而是用了**“双管齐下”**的策略。
      • 左眼(扩散损失): 盯着像素点,确保车还是沿着那条线走(保证轨迹准)。
      • 右眼(对抗损失/判别器): 请了一位“毒舌评委”(判别器),专门挑刺。如果生成的视频看起来模糊、像假的一样,评委就大喊“不合格”!这迫使 AI 必须把画面修得清晰、真实(保证画质好)。
    2. 动态平衡: 刚开始训练时,AI 容易“顾此失彼”,FlashMotion 就像一个聪明的教练,动态调整这两个任务的权重。一开始多关注“别画错线”,后来多关注“把画面修清晰”,防止 AI 练偏了。
  • 结果: 经过这短短的特训,这个“极速赛车”不仅跑得快(4 步生成,比原来快几十倍),而且依然能精准地沿着画好的路线跑,画面还清晰得不得了。

3. 新的“考场”:FlashBench

以前的考试题目(基准测试)都很短,只有几秒钟,像是在考“倒车入库”。但 FlashMotion 能跑长距离,所以作者自己设计了一个**“长途拉力赛” (FlashBench)**。

  • 这个考场里不仅有简单的直线,还有很多个物体同时运动的复杂场景(比如一群鸭子在飞,或者一辆车带着几个乘客)。
  • 在这个新考场上,FlashMotion 完胜了所有以前的方法,无论是画质还是路线控制,都是第一。

总结

FlashMotion 就像是给 AI 视频生成装上了一个**“超级加速器”**。

  • 以前: 想控制物体怎么动?得等很久,或者画面糊成一团。
  • 现在: 只要几秒钟(4 步),就能生成高清视频,而且物体想往哪飞就往哪飞,分毫不差。

一句话概括: 它让 AI 从“慢吞吞的优等生”变成了“既快又准的赛车手”,而且还能带着好几个乘客(多个物体)一起飙车。