Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime!

本文提出了名为 REVEL 的流式拖拽导向交互式视频操纵新任务,并设计了无需训练的 DragStream 方法,通过自适应分布自校正和空频选择性优化机制,解决了自回归视频扩散模型中拖拽操作导致的潜在空间漂移及上下文干扰问题,实现了在任意时刻对任意对象的精细拖拽编辑。

Junbao Zhou, Yuan Zhou, Kesen Zhao, Qingshan Xu, Beier Zhu, Richang Hong, Hanwang Zhang

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一项名为 DragStream 的新技术,它解决了一个让视频生成 AI 变得“听话”的难题。

为了让你轻松理解,我们可以把这项技术想象成给 AI 视频导演配备了一位“实时剪辑师”和一位“稳像大师”

1. 背景:现在的 AI 视频像什么?

想象一下,你让 AI 生成一段视频(比如一只猫在走路)。

  • 以前的情况:AI 一旦开始生成,就像一列高速行驶的火车,你很难中途叫停或改变方向。如果你发现猫走错了路,或者你想让它转个身,你只能把整段视频删掉,重新生成。这就像你想在电影放映中途修改剧情,但导演说:“不行,胶片已经拍完了,重拍吧!”
  • 新的任务 (REVEL):作者提出了一个新任务,叫“流式拖拽交互”。简单说,就是在视频生成的过程中,你可以随时像用鼠标拖拽图片一样,拖拽视频里的物体,让它动起来、变形或旋转,而且 AI 要立刻听懂,继续生成后续的画面。

2. 遇到的两个大麻烦

作者发现,直接让 AI 在生成过程中被“拖拽”,会遇到两个像“车祸”一样的问题:

  • 麻烦一:记忆错乱(潜空间分布漂移)
    • 比喻:想象 AI 的“大脑”(潜空间)是一个装满各种颜色颜料的桶。当你第一次拖拽物体时,就像往桶里滴了一滴红墨水。如果你连续拖拽,红墨水越滴越多,整个桶里的颜料颜色都变了(分布漂移)。
    • 后果:AI 开始“发疯”,原本是一只猫,拖着拖着变成了一只红色的猪,或者画面直接崩坏。
  • 麻烦二:被过去带偏(上下文干扰)
    • 比喻:AI 在画下一帧时,会参考上一帧的样子。如果你把上一帧里的兔子耳朵拖歪了,AI 会以为“哦,原来兔子长这样”,于是把下一帧的兔子也画歪了,甚至画出了多余的耳朵。
    • 后果:画面里会出现奇怪的重复物体、扭曲的变形,看起来非常不自然。

3. DragStream 的解决方案:两个“超能力”

为了解决这两个问题,作者设计了一个不需要重新训练 AI(省钱、省时)的插件,叫 DragStream。它有两个核心“超能力”:

超能力一:自适应分布自我修正 (ADSR) —— “记忆校准器”

  • 作用:解决“记忆错乱”。
  • 比喻:这就好比给 AI 配了一个老练的导航员。每当 AI 因为拖拽而“走偏”(颜料桶颜色变了),导航员就会立刻看看刚才几帧的画面(邻居们),告诉 AI:“嘿,别慌,我们原来的颜色是这样的,快调整回来!”
  • 效果:无论你怎么拖拽,AI 都能保持“本色”,不会把猫拖成猪,也不会让画面崩坏。

超能力二:空间 - 频率选择性优化 (SFSO) —— “智能滤镜”

  • 作用:解决“被过去带偏”。
  • 比喻:想象你在修图,有些细节(高频信息,比如噪点、边缘)太尖锐,容易误导 AI;有些大轮廓(低频信息)比较稳,但不够精细。
    • SFSO 就像是一个智能滤镜,它知道什么时候该保留清晰的细节,什么时候该模糊掉那些会捣乱的“噪点”。
    • 它还会给修改区域画一个高斯模糊圈(就像用橡皮擦轻轻擦拭),只让修改的影响集中在你拖拽的那个物体上,不让这种影响“泄漏”到背景里,导致背景也跟着变形。
  • 效果:你拖拽兔子的耳朵,只有耳朵会动,背景里的草地和天空依然清晰自然,不会出现多余的耳朵。

4. 这项技术有多牛?

  • 即插即用:它不需要重新训练庞大的 AI 模型(省下了成千上万张显卡的算力),可以直接套用在现有的视频生成模型上。
  • 随心所欲:你可以随时拖拽。
    • 平移:把视频里的车从左边移到右边。
    • 变形:把气球吹大,或者把人的脸拉长。
    • 旋转:让物体在原地转圈,甚至 3D 旋转。
  • 长视频也能行:即使视频很长(比如 20 秒),一直拖拽下去,画面质量依然稳定,不会随着时间推移而越来越烂。

总结

DragStream 就像给 AI 视频生成加了一个实时、智能的“橡皮泥”功能
以前,AI 生成的视频是“定格的”,改不了;现在,你可以像捏橡皮泥一样,在视频播放的同时,随意拖动、变形、旋转里面的物体,而 AI 能聪明地保持画面的真实和连贯,不会“发疯”也不会“画蛇添足”。

这让未来的视频创作变得更加互动有趣:你不再是视频的观众,而是随时可以介入的“导演”。