Velocity Disambiguation for Video Frame Interpolation

该论文提出了一种名为“距离索引”的新方法,通过显式提供物体运动距离信息并结合迭代参考估计策略,有效解决了视频帧插值中因速度模糊导致的轨迹歧义问题,从而显著提升了插值帧的感知质量并支持灵活的视频编辑。

Zhihang Zhong, Yiming Zhang, Wei Wang, Xiao Sun, Yu Qiao, Gurunandan Krishnan, Sizhuo Ma, Jian Wang

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种让视频插帧(把视频变慢或生成中间帧)变得更清晰、更聪明的新方法。为了让你轻松理解,我们可以把视频插帧想象成**“让两个演员在舞台上表演一段舞蹈,中间缺了几拍,我们需要补上这些动作”**。

以下是用通俗语言和比喻对这篇论文核心内容的解读:

1. 核心问题:为什么以前的方法会让画面变模糊?

以前的做法(时间索引):
想象导演对两个演员说:“你们俩现在站在这里(第 1 帧),一会儿站在那边(第 2 帧)。请在时间过半(0.5 秒)的时候,摆出一个姿势。”

  • 问题出在哪? 导演只给了“时间”,没给“速度”。
    • 演员 A 可能先慢走,最后冲刺。
    • 演员 B 可能先冲刺,最后慢走。
    • 演员 C 可能匀速走。
    • 甚至演员 D 可能先往左走,再往右折返。
  • 结果: 因为导演不知道演员具体怎么动,AI 模型为了“讨好”所有可能性,最后生成的画面是所有可能动作的平均值。就像把几个不同姿势的演员叠在一起,结果画面变得模糊不清(就像照片没对焦一样)。这就是论文里说的“速度歧义”。

2. 解决方案一:距离索引(Distance Indexing)—— 给演员发“进度条”

新的做法:
导演不再只说“时间过半”,而是直接给演员一个**“进度条”**。

  • “不管你是快是慢,现在你的身体已经走了全程的 50% 的距离。”
  • 或者:“走到全程的 30% 的位置。”

比喻:
这就好比导航软件。以前只告诉你“还有 10 分钟到达”,你不知道路况是堵还是通,车开得快还是慢。现在导航直接告诉你“你已经走了 50% 的路程”。

  • 效果: 模型不再需要猜测“速度是多少”,它只需要知道“物体现在在哪里”。这就消除了“速度歧义”,画面瞬间变得清晰锐利,因为模型不再需要把多种可能性“平均”掉。

3. 解决方案二:迭代参考策略(Iterative Reference)—— 走一步看一步

剩下的问题:
虽然知道了“走了多远”,但如果路程很长(比如从起点直接跳到终点的一半),方向可能还是模糊的。

  • 比如:一个球从左下角飞到右上角。如果直接让它飞一半,它可能飞到了中间,但也可能飞偏了。

新的做法(迭代):
不要一步到位!

  • 先让球飞到 1/4 处(参考起点和 1/4 处的位置)。
  • 再让球从 1/4 处飞到 1/2 处(参考 1/4 处和终点)。
  • 再让球从 1/2 处飞到 3/4 处……

比喻:
这就像**“盲人摸象”的反面**,或者是**“走楼梯”
如果你要爬 100 层楼,直接跳上去肯定摔得惨(方向模糊)。但如果你一层一层爬,每层都有扶手(参考帧)确认位置,你就不会走错方向。
这种方法把“长距离的猜测”拆解成了“短距离的精准移动”,进一步消除了
“方向歧义”**,让画面更稳。

4. 高级功能:像剪辑师一样控制每个物体(Manipulated Interpolation)

这是这篇论文最酷的地方。

  • 以前的视频: 整个画面只能统一变慢或变快。
  • 现在的能力: 利用“距离索引”,你可以单独控制画面里的每一个物体。
    • 比如:画面里有一只猫在跑,一个人在走。
    • 你可以对猫说:“你走快点,进度条拉到 80%!”
    • 对人说:“你慢点,进度条只到 20%!”
    • 甚至可以让猫倒着走(时间倒流),而人继续往前走。

比喻:
以前做慢动作视频,就像把整盘录像带放慢,所有东西都变慢。现在,你手里有了**“独立遥控器”**,可以单独给画面里的每个角色调整“时间流速”。这在视频编辑(比如让子弹时间里的子弹飞得慢,但背景的人正常走)中非常强大。

5. 多帧融合(Multi-frame):如果有更多线索呢?

如果只有起点和终点两张图,我们只能猜距离。但如果我们手里有起点前一张终点后一张图(一共 4 张),就像侦探有了更多线索。

  • 论文提出了一种方法,利用这些额外的帧,更精准地计算出物体到底走了多远(生成更精确的“距离地图”)。
  • 这就像不仅知道“走了 50%",还能通过前后的脚印,算出你刚才是不是加速了,从而让预测更完美。

总结

这篇论文的核心思想就是:别只问“时间到了没”,要问“走到哪了”。

  1. 从“时间索引”改为“距离索引”:不再让 AI 猜速度,直接告诉它物体走了多远,解决画面模糊问题。
  2. 化整为零:把长距离的预测拆成短距离的几步走,解决方向不准的问题。
  3. 万物可控:因为知道了每个物体的“距离进度”,我们可以单独控制画面里每个物体的快慢,甚至让它倒着走。

这项技术不需要改变现有的 AI 模型架构,就像给现有的手机装了一个新的“导航插件”,就能让生成的慢动作视频从“糊成一团”变成“清晰锐利”,甚至能玩出各种花哨的特效。