Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Kiwi-Edit 的新技术，它就像是一个**“超级视频剪辑大师”**，不仅能听懂你的话，还能看懂你给的“参考图”，帮你把视频改得完美无缺。

为了让你更容易理解，我们可以把视频编辑想象成**“装修房子”**。

1. 以前的痛点：只能“靠嘴说”，很难“靠图做”

旧方法（只靠指令）：
想象你想装修房子，你只能对着装修工（AI 模型）说：“把墙刷成那种‘像夕阳一样温暖但又带点忧郁’的蓝色。”
- 问题： 语言是模糊的。装修工可能听不懂你心里具体的“忧郁蓝”是什么样，结果刷出来的颜色可能太亮、太暗，或者根本不是你要的感觉。这就好比你想换辆车，只说“我要一辆红色的车”，结果给你换了一辆红色的拖拉机，而不是你心里想的那辆跑车。
新方法的瓶颈（缺“参考图”数据）：
其实，如果你能直接给装修工看一张照片：“就照着这张图刷墙”，效果肯定好得多。这就是**“参考引导”**。
- 问题： 以前，没人有足够多的“原视频 + 修改指令 + 参考图 + 修改后视频”这种四件套的高质量数据来训练 AI。就像你想教一个学徒怎么照着图装修，但你手里只有“原图”和“成品图”，没有“参考图”给他看，他学不会。

2. Kiwi-Edit 的三大绝招

为了解决这个问题，作者团队搞了一套“组合拳”：

第一招：变废为宝的“数据炼金术” (RefVIE 数据集)

怎么做： 他们发现网上有很多“原视频”和“修改后视频”的配对数据（只有指令，没有参考图）。于是，他们发明了一个自动化工厂流水线。
比喻： 就像你有一堆“毛坯房”和“装修好的房子”的照片。AI 会自动分析：“哦，这里原本是个沙发，现在变成了床。”然后，它利用强大的图像生成能力，凭空画出一张“理想中的床”的参考图。
成果： 他们把 370 万组数据，通过这种“自动画图”的方式，变成了 47.7 万组高质量的**“四件套”数据**（原视频 + 指令 + 参考图 + 成品）。这就像给 AI 学徒提供了一本厚厚的、带精美参考图的《装修教科书》。

第二招：双管齐下的“超级大脑” (Kiwi-Edit 模型架构)

怎么做： 他们设计了一个新的 AI 架构，把两个强大的工具结合在了一起：
1. 语言理解员 (MLLM)： 负责听懂你说的话（指令）。
2. 视觉模仿者 (DiT)： 负责实际动手修改视频。
比喻： 想象你在指挥一个**“双核”装修队**：
- 大脑 A（语言）： 拿着你的指令说：“把那个人的帽子换成红色的。”
- 大脑 B（视觉）： 拿着你给的“红色帽子参考图”说：“哦，是这个样子的红，纹理要这样。”
- 关键创新： 以前的 AI 要么只听指令，要么只看图。Kiwi-Edit 让这两个大脑同时工作。它用一种特殊的“混合注入”方式：
  - 保留原视频的结构（像房子的梁柱不能动），用**“加法”**轻轻融合。
  - 把参考图的细节（像墙纸的纹理）直接**“拼接”**进去，让 AI 能精准复制参考图的质感。

第三招：循序渐进的“特训营” (训练课程)

怎么做： 他们不是一上来就教 AI 所有东西，而是分三步走：
1. 第一阶段（对齐）： 先让“语言员”和“视觉员”互相认识，学会怎么把文字指令翻译成视觉信号。
2. 第二阶段（指令训练）： 只练“听指令干活”，先学会基本的换衣服、换背景。
3. 第三阶段（参考图特训）： 最后引入那些珍贵的“参考图”数据，让 AI 学会如何精准地模仿参考图的细节。
比喻： 就像教孩子学画画，先教他认识颜色（对齐），再教他按文字描述画画（指令），最后给他看名画临摹（参考图），这样他才能画得既像又准。

3. 效果如何？

以前： 你让 AI 把视频里的“普通帽子”换成“参考图里的复古礼帽”，AI 可能会把帽子画歪，或者颜色不对，甚至把帽子画在人的耳朵上。
现在 (Kiwi-Edit)：
- 指令精准： 你说“换背景”，它真的只换背景，人物不会乱跑。
- 参考逼真： 你给一张“复古礼帽”的图，它就能把那个帽子的材质、光影、甚至上面的灰尘感都完美地“移植”到视频里，而且随着人物走动，帽子还稳稳地戴在头上。
- 超越对手： 在测试中，它的表现甚至超过了目前一些闭源的、商业化的顶级视频编辑工具。

总结

简单来说，Kiwi-Edit 就是解决了“视频编辑太难描述清楚”的问题。它通过自动创造大量带参考图的教学数据，并设计了一个既能听懂话又能看图的超级模型，让普通人也能像专业剪辑师一样，通过“一句话 + 一张图”就能轻松搞定复杂的视频修改。

这就好比以前你只能对着修图师说“把天空变蓝”，现在你可以直接递给他一张你喜欢的蓝天照片说：“照着这个改”，而且改出来的效果天衣无缝。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与核心问题 (Problem)

背景：
基于自然语言指令的视频编辑（Instruction-based Video Editing）近年来取得了显著进展，利用视频扩散模型（Video Diffusion Models）实现了从局部物体修改到全局风格迁移的多种操作。

核心痛点：
尽管基于文本的指令编辑发展迅速，但存在一个关键局限：自然语言在描述复杂视觉细节（如特定纹理、精确物体身份、细微风格特征）时具有固有的模糊性。用户往往希望提供视觉参考（例如“用这张图里的跑车替换”或“应用这幅画的风格”），但现有的纯文本模型难以精准执行此类任务。

现有挑战：
虽然“参考引导（Reference-guided）”编辑是解决上述问题的理想方案，但该领域的进展严重受制于高质量训练数据的匮乏。

训练此类模型需要“四元组”数据：源视频 ( $V_{src}$ )、编辑指令 ( $T_{inst}$ )、参考图像 ( $I_{ref}$ )、目标视频 ( $V_{tgt}$ )。
现有的大规模数据集大多仅提供“三元组”（源视频、指令、目标视频），缺乏参考图像。
少数包含参考图像的研究（如 Kling-Omni, InstructX）依赖私有数据，未开源，导致学术界无法复现或进一步研究。

2. 核心方法论 (Methodology)

为了解决数据稀缺和模型架构问题，作者提出了两个主要贡献：RefVIE 数据集构建流水线 和 Kiwi-Edit 统一编辑架构。

2.1 RefVIE 数据集构建流水线 (Scalable Data Generation Pipeline)

作者设计了一个自动化的可扩展流水线，将现有的指令编辑数据集转化为高质量的“指令 - 参考”四元组数据。

数据源： 整合了 Ditto-1M, ReCo, OpenVE-3M 等开源数据集，初始池包含 370 万样本。
四阶段处理流程：
1. 源聚合与过滤： 使用 EditScore 筛选高质量样本，特别筛选出“局部修改”和“背景替换”任务。
2. 定位与分割 (Grounding & Segmentation)： 利用 Qwen3-VL-32B 理解指令并定位目标区域，再结合 SAM3 生成像素级分割掩码。
  - 背景替换： 提取前景并移除，生成纯净背景作为参考。
  - 局部编辑： 提取目标物体，置于干净背景上作为参考。
3. 参考图像合成： 利用 Qwen-Image-Edit-2511 等图像编辑模型，根据分割区域生成高保真参考图像。
4. 质量控制与去重： 使用 MLLM 验证参考图与编辑结果的一致性，并利用 CLIP 特征进行全局去重。
成果： 最终构建了包含 47.7 万 高质量四元组的 RefVIE 数据集，这是首个大规模开源的指令 - 参考引导视频编辑数据集。

2.2 Kiwi-Edit 模型架构 (Unified Editing Architecture)

Kiwi-Edit 是一个统一框架，结合了多模态大语言模型（MLLM）和扩散 Transformer（DiT）。

双连接器机制 (Dual-Connector Mechanism)：
- Query Connector (查询连接器)： 将可学习的查询 Token 投影，用于提炼编辑意图（如“把天空变红”）。
- Latent Connector (潜变量连接器)： 从参考图像中提取视觉特征 Token，用于提供细粒度的视觉指导。
- 两者输出统一为上下文 Token，通过交叉注意力（Cross-Attention）引导 DiT。
混合潜变量注入策略 (Hybrid Latent Injection Strategy)：
- 源视频控制 (元素级相加)： 为了保持源视频的结构和时空一致性，将源视频潜变量与噪声潜变量进行元素级相加，并引入可学习的时间步依赖标量 $\gamma(t)$ 进行调制。这比简单的通道拼接更稳定且有效。
- 参考图像控制 (序列拼接)： 将参考图像的潜变量直接拼接到输入序列中，扩展时空注意力窗口，使模型能直接“复制”参考图的纹理细节。
三阶段课程训练 (Progressive Multi-Stage Training)：
1. MLLM-DiT 对齐： 冻结主干，仅训练连接器和查询 Token，建立语义映射。
2. 指令微调 (Instructional Tuning)： 解冻 DiT，在大规模指令数据上训练，学习通用编辑原语（如移除、风格迁移）。
3. 参考引导微调 (Reference-Guided Fine-tuning)： 引入 RefVIE 数据集，训练模型利用参考图像进行精细的纹理转移和身份保持。

3. 关键贡献 (Key Contributions)

RefVIE 数据集： 构建了首个大规模（47.7K 四元组）、开源的指令 - 参考引导视频编辑数据集，填补了该领域数据空白。
RefVIE-Bench 基准： 建立了包含 110 个经过人工验证样本的基准测试，专门评估参考图像遵循度、指令准确性和时间一致性。
Kiwi-Edit 模型： 提出了一种统一的 MLLM-DiT 架构，通过双连接器和混合注入策略，有效融合了文本指令和视觉参考。
SOTA 性能： 在指令编辑和参考引导编辑任务上均达到了最先进水平（State-of-the-Art）。

4. 实验结果 (Results)

指令编辑性能 (OpenVE-Bench)：
- Kiwi-Edit 在 OpenVE-Bench 上的整体得分为 3.02，显著优于之前的开源最佳模型 OpenVE-Edit (2.50)。
- 在“背景替换”任务上得分高达 3.84，甚至超过了闭源商业模型 Runway Aleph (2.62)。
参考引导编辑性能 (RefVIE-Bench)：
- 在参考图像相似度（Reference Similarity）和身份一致性（Identity Consistency）上表现优异。
- 使用 RefVIE 数据训练的模型整体得分为 3.31，略高于 Runway Aleph (3.29)，证明了开源数据的有效性。
- 消融实验表明，引入参考潜变量（Reference Latent）比仅使用查询 Token 能显著提升细粒度视觉细节的保持能力。
定性分析：
- 模型在复杂场景下（如添加帽子、替换衣服、背景风格迁移）能精准遵循指令，并保持参考图像中的纹理和身份特征，同时保证视频的时间连贯性。

5. 意义与影响 (Significance)

打破数据壁垒： 通过自动化流水线合成高质量数据，解决了参考引导视频编辑领域长期受困于数据稀缺的瓶颈， democratize（民主化）了该领域的研究。
提升可控性： 证明了结合文本指令与视觉参考能显著提升视频编辑的精度，使用户能更直观地表达编辑意图（“像这张图一样”）。
开源生态： 开源了数据集、模型代码和基准测试，为社区提供了坚实的研究基础，推动了可控视频生成技术的发展。
架构创新： 提出的混合注入策略（元素级相加 vs 序列拼接）为多模态条件控制提供了新的设计范式，平衡了结构保持与细节迁移的需求。

总结： Kiwi-Edit 通过“数据合成 + 架构创新”的双轮驱动，成功解决了视频编辑中“指令模糊”和“数据稀缺”两大难题，实现了从纯文本控制向“文本 + 视觉参考”精准控制的跨越。