Consistency-Preserving Diverse Video Generation

本文提出了一种基于流匹配模型的联合采样框架,通过仅在潜在空间计算目标并移除破坏时间一致性的更新,在显著提升文本生成视频批次多样性的同时,有效保持了视频帧间的时序连贯性并避免了昂贵的解码器反向传播。

Xinshuang Liu, Runfa Blark Li, Truong Nguyen

发布于 2026-02-18
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种让 AI 生成视频更“聪明”的新方法。为了让你轻松理解,我们可以把 AI 生成视频的过程想象成让一群画家在同一个主题下,同时创作多幅画作

1. 核心难题:既要“百花齐放”,又要“连贯自然”

想象一下,你是一位艺术总监,你给 AI 画家们一个指令:“画一只在草地上奔跑的狗”。

  • 痛点一(太贵了): 让 AI 画画非常消耗算力(就像请画家要付很高的出场费)。所以,通常你只能让 AI 画一张图,或者画几幅。
  • 痛点二(要多样): 既然只能画几幅,你希望它们各不相同(有的狗是金色的,有的是黑色的;有的在跑,有的在跳)。这叫“多样性”。
  • 痛点三(要连贯): 视频不是单张画,而是一连串的画面。如果第一帧狗在左边,第二帧突然瞬移到右边,或者狗的头突然变成了猫,那视频就崩了。这叫“时间一致性”。

以前的困境:
以前的方法就像是一群画家在互相“打架”来追求多样性。他们为了画得不一样,拼命往相反的方向改笔触。结果就是:虽然画出来的每幅画(视频)确实不一样了,但每一幅画内部都变得乱七八糟(视频里的动作不连贯,颜色也怪怪的)。而且,为了检查画得好不好,他们还得把画放大到高清去检查,这非常慢且费钱。

2. 我们的新方案:给画家戴上“智能眼镜”

这篇论文提出了一种叫**“一致性保持的联合采样”的新方法。我们可以把它想象成给 AI 画家们戴上了一副“智能眼镜”**,并制定了一套新的作画规则:

A. 在“草稿纸”上画画(潜空间模型)

以前,画家们为了检查画得好不好,必须把画完的成品(高清视频)拿到大厅里(解码器)去展示,这太慢了。

  • 新方法: 我们训练了几个轻量级的“小助手”(潜空间模型)。这些助手不需要看高清大图,只需要看草稿纸上的线条(潜变量)就能判断:
    1. 这几幅画之间够不够不一样?(多样性检查)
    2. 这一幅画里的动作顺不顺畅?(一致性检查)
  • 好处: 就像在草稿纸上直接修改,速度快,不用把整张画都渲染出来,省下了大量时间和算力。

B. “推一把”但“不踩刹车”(梯度调节)

这是最核心的魔法。

  • 多样性推动: 系统会推一把 AI,让它生成的视频彼此之间拉开距离(比如让这只狗跑得快一点,那只慢一点)。这就像把一群挤在一起的人往不同方向推,让他们散开。
  • 一致性刹车: 但是,如果这一推会导致某个视频里的狗“瞬移”或者“变形”(破坏连贯性),系统就会立刻踩刹车,把那个破坏性的力抵消掉。
  • 比喻: 想象你在指挥一群风筝。你想让它们飞得散开(多样性),但你手里有一根绳子(一致性规则)。如果某只风筝飞得太偏,快要断线或者撞树了,你就轻轻拉一下绳子,把它拉回安全的轨迹,但不会把它拉回原点。

3. 结果如何?

实验证明,这套方法非常有效:

  • 更丰富: 生成的视频 batch(一组视频)之间,风格、动作、颜色都更加丰富多彩,不像以前那样千篇一律。
  • 更自然: 视频内部的画面非常流畅,不会出现“鬼畜”的跳跃或奇怪的颜色突变。
  • 更省钱: 因为不需要反复渲染高清视频来检查,计算成本大大降低。

总结

简单来说,这篇论文就是给 AI 视频生成器装了一个**“既懂创新又懂规矩”的导航系统**。它告诉 AI:“你可以大胆地尝试不同的创意(多样性),但千万别把视频里的动作搞乱了(一致性)。”而且,它用一种**“看草稿就能做决定”**的聪明办法,让这一切变得既快又省。

这就好比让一群画家在不破坏画作连贯性的前提下,高效地创作出风格各异的系列作品。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →