VINCIE: Unlocking In-context Image Editing from Video

本文提出了一种名为 VINCIE 的模型,通过从视频中学习并采用块因果扩散变换器架构,实现了无需依赖专家模型或特定任务流程的强大多轮上下文图像编辑能力,并在多项基准测试中取得了最先进成果。

Leigang Qu, Feng Cheng, Ziyan Yang, Qi Zhao, Shanchuan Lin, Yichun Shi, Yicong Li, Wenjie Wang, Tat-Seng Chua, Lu Jiang

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 VINCIE 的新 AI 模型,它的核心能力是**“看图说话,连续修改图片”**。

为了让你轻松理解,我们可以把这项技术想象成**“教 AI 看连环画”**,而不是传统的“教 AI 做填空题”。

1. 以前的做法:死记硬背的“填空题”

以前的图片编辑 AI(比如 InstructPix2Pix),就像是一个只会做**“填空题”**的学生。

  • 老师(训练数据):给出一张“修改前”的图,一张“修改后”的图,还有一句指令(比如“把猫变成狗”)。
  • 学生(AI):死记硬背这种“输入 A -> 输出 B"的对应关系。
  • 缺点:如果老师让它连续改五次(比如先加个帽子,再换件衣服,再换个背景,再换表情,再换姿势),这个学生就晕了。因为它只记得“单步”怎么改,一旦步骤多了,它就开始胡编乱造,画面变得乱七八糟(这就是论文里说的“伪影积累”)。而且,收集这种“修改前/后”的配对数据非常昂贵且困难。

2. VINCIE 的做法:看“视频”学“连环画”

VINCIE 的聪明之处在于,它不再看“填空题”,而是去看“视频”

  • 核心直觉:视频是什么?视频就是一连串连续变化的画面。
    • 想象你在看一部电影:一个人走进房间(画面变了),他坐下(画面又变了),他拿起杯子(画面再变)。
    • 这些变化是自然发生的,而且包含了“前因后果”。
  • 学习方法
    • 研究人员把视频切成一段一段的“小片段”(比如 5 帧画面)。
    • 他们用大语言模型(LLM)给这些变化“写旁白”:“第 1 帧有个杯子,第 2 帧杯子被拿起来了,第 3 帧杯子被放到了桌上。”
    • 同时,它们还标注了**“哪里变了”**(就像给视频里的物体画个圈,告诉 AI 只有这个圈里的东西在动,其他背景不动)。
    • 这样,AI 学到的不是死板的“把 A 变成 B",而是**“在什么背景下,发生了什么动作,导致了什么结果”**。

3. 三个“特训”任务(Proxy Tasks)

为了让 AI 真正学会这种“连环画”逻辑,研究人员设计了三个特训游戏:

  1. 猜下一张图(Next-Image Prediction)
    • 游戏:给你前几张图,让你猜下一张图长什么样。
    • 目的:这是核心任务,让 AI 学会根据上下文生成新图片。
  2. 找不同(Current Segmentation Prediction)
    • 游戏:给你两张图,让你圈出哪里变了。
    • 目的:让 AI 学会“聚焦”。它必须知道哪些地方该动,哪些地方要保持原样(比如背景不能乱跑)。
  3. 预判未来(Next Segmentation Prediction)
    • 游戏:还没发生呢,让你先猜猜下一张图里,哪个物体可能会动?
    • 目的:让 AI 学会“规划”。就像下棋一样,提前想好下一步棋子会落在哪。

4. 惊人的效果:从“单步”到“多步”

因为是从视频里学的,VINCIE 拥有了**“上下文理解能力”**。

  • 多轮对话编辑

    • 用户:“把猫变成狗。” -> AI 改好了。
    • 用户:“给这只狗戴个帽子。” -> AI 知道刚才那是只狗,现在给它加帽子,不会把帽子加到原来的猫身上,也不会把背景里的树给改了。
    • 用户:“把背景换成雪山。” -> AI 依然记得那是只戴帽子的狗。
    • 结果:即使连续修改 5 次,画面依然清晰、连贯,不会像以前的模型那样越改越糊。
  • 意想不到的超能力

    • 故事生成:因为它看过很多视频,它知道故事是怎么发展的。你可以让它:“画一个男孩在跑步,然后他摔倒了,然后他哭了,然后有人扶他起来。”它能生成这一系列连贯的图,就像在画连环漫画。
    • 组合创意:它能把“一只穿着宇航服的猫”和“一个在火星上的冰淇淋店”组合在一起,而且逻辑通顺。

5. 总结:为什么这很重要?

这就好比:

  • 以前的 AI 是背了字典的翻译官,你给它一个词,它翻一个词,但不懂整篇文章的语境。
  • VINCIE 是读了很多小说的作家,它理解情节的流动、人物的关系和场景的转换。

VINCIE 的最大突破在于: 它不需要昂贵的“修改前/后”配对数据,只需要海量的普通视频就能学会复杂的图片编辑。这意味着未来我们可以用更少的成本,训练出更聪明、更能理解人类意图的 AI 艺术家,让我们能像导演一样,通过简单的对话,一步步指挥 AI 创作出完美的故事画面。