Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

该论文针对现有指令驱动视频编辑方法在视觉控制精度上的不足,提出了一种利用图像生成模型构建大规模参考数据集(RefVIE)的可扩展数据生成流程,并设计了结合可学习查询与潜在视觉特征的统一架构 Kiwi-Edit,通过多阶段训练显著提升了视频编辑的指令遵循能力与参考保真度,确立了新的最先进水平。

Yiqi Lin, Guoqiang Liang, Ziyun Zeng, Zechen Bai, Yanzhe Chen, Mike Zheng Shou

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Kiwi-Edit 的新技术,它就像是一个**“超级视频剪辑大师”**,不仅能听懂你的话,还能看懂你给的“参考图”,帮你把视频改得完美无缺。

为了让你更容易理解,我们可以把视频编辑想象成**“装修房子”**。

1. 以前的痛点:只能“靠嘴说”,很难“靠图做”

  • 旧方法(只靠指令):
    想象你想装修房子,你只能对着装修工(AI 模型)说:“把墙刷成那种‘像夕阳一样温暖但又带点忧郁’的蓝色。”

    • 问题: 语言是模糊的。装修工可能听不懂你心里具体的“忧郁蓝”是什么样,结果刷出来的颜色可能太亮、太暗,或者根本不是你要的感觉。这就好比你想换辆车,只说“我要一辆红色的车”,结果给你换了一辆红色的拖拉机,而不是你心里想的那辆跑车。
  • 新方法的瓶颈(缺“参考图”数据):
    其实,如果你能直接给装修工看一张照片:“就照着这张图刷墙”,效果肯定好得多。这就是**“参考引导”**。

    • 问题: 以前,没人有足够多的“原视频 + 修改指令 + 参考图 + 修改后视频”这种四件套的高质量数据来训练 AI。就像你想教一个学徒怎么照着图装修,但你手里只有“原图”和“成品图”,没有“参考图”给他看,他学不会。

2. Kiwi-Edit 的三大绝招

为了解决这个问题,作者团队搞了一套“组合拳”:

第一招:变废为宝的“数据炼金术” (RefVIE 数据集)

  • 怎么做: 他们发现网上有很多“原视频”和“修改后视频”的配对数据(只有指令,没有参考图)。于是,他们发明了一个自动化工厂流水线
  • 比喻: 就像你有一堆“毛坯房”和“装修好的房子”的照片。AI 会自动分析:“哦,这里原本是个沙发,现在变成了床。”然后,它利用强大的图像生成能力,凭空画出一张“理想中的床”的参考图
  • 成果: 他们把 370 万组数据,通过这种“自动画图”的方式,变成了 47.7 万组高质量的**“四件套”数据**(原视频 + 指令 + 参考图 + 成品)。这就像给 AI 学徒提供了一本厚厚的、带精美参考图的《装修教科书》。

第二招:双管齐下的“超级大脑” (Kiwi-Edit 模型架构)

  • 怎么做: 他们设计了一个新的 AI 架构,把两个强大的工具结合在了一起:
    1. 语言理解员 (MLLM): 负责听懂你说的话(指令)。
    2. 视觉模仿者 (DiT): 负责实际动手修改视频。
  • 比喻: 想象你在指挥一个**“双核”装修队**:
    • 大脑 A(语言): 拿着你的指令说:“把那个人的帽子换成红色的。”
    • 大脑 B(视觉): 拿着你给的“红色帽子参考图”说:“哦,是这个样子的红,纹理要这样。”
    • 关键创新: 以前的 AI 要么只听指令,要么只看图。Kiwi-Edit 让这两个大脑同时工作。它用一种特殊的“混合注入”方式:
      • 保留原视频的结构(像房子的梁柱不能动),用**“加法”**轻轻融合。
      • 把参考图的细节(像墙纸的纹理)直接**“拼接”**进去,让 AI 能精准复制参考图的质感。

第三招:循序渐进的“特训营” (训练课程)

  • 怎么做: 他们不是一上来就教 AI 所有东西,而是分三步走:
    1. 第一阶段(对齐): 先让“语言员”和“视觉员”互相认识,学会怎么把文字指令翻译成视觉信号。
    2. 第二阶段(指令训练): 只练“听指令干活”,先学会基本的换衣服、换背景。
    3. 第三阶段(参考图特训): 最后引入那些珍贵的“参考图”数据,让 AI 学会如何精准地模仿参考图的细节。
  • 比喻: 就像教孩子学画画,先教他认识颜色(对齐),再教他按文字描述画画(指令),最后给他看名画临摹(参考图),这样他才能画得既像又准。

3. 效果如何?

  • 以前: 你让 AI 把视频里的“普通帽子”换成“参考图里的复古礼帽”,AI 可能会把帽子画歪,或者颜色不对,甚至把帽子画在人的耳朵上。
  • 现在 (Kiwi-Edit):
    • 指令精准: 你说“换背景”,它真的只换背景,人物不会乱跑。
    • 参考逼真: 你给一张“复古礼帽”的图,它就能把那个帽子的材质、光影、甚至上面的灰尘感都完美地“移植”到视频里,而且随着人物走动,帽子还稳稳地戴在头上。
    • 超越对手: 在测试中,它的表现甚至超过了目前一些闭源的、商业化的顶级视频编辑工具。

总结

简单来说,Kiwi-Edit 就是解决了“视频编辑太难描述清楚”的问题。它通过自动创造大量带参考图的教学数据,并设计了一个既能听懂话又能看图的超级模型,让普通人也能像专业剪辑师一样,通过“一句话 + 一张图”就能轻松搞定复杂的视频修改。

这就好比以前你只能对着修图师说“把天空变蓝”,现在你可以直接递给他一张你喜欢的蓝天照片说:“照着这个改”,而且改出来的效果天衣无缝。