Imagine How To Change: Explicit Procedure Modeling for Change Captioning

本文提出了 ProCap 框架,通过从静态图像对比转向动态过程建模,利用稀疏关键帧和可学习的过程查询来显式捕捉变化过程,从而生成更准确描述图像间差异及其发生方式的变化描述。

Jiayang Sun, Zixin Guo, Min Cao, Guibo Zhu, Jorma Laaksonen

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 ProCap 的新方法,它的任务是:给两张非常相似的图片写一段“变化描述”(比如:“那个黄色的小圆柱体从左边移到了右边”)。

为了让你更容易理解,我们可以把这项任务想象成**“侦探破案”“制作电影”**。

1. 以前的做法:只看“案发现场”和“结局”

以前的 AI 模型(就像老派的侦探)拿到两张照片:一张是“作案前”,一张是“作案后”。

  • 局限性:它们只能盯着这两张静止的照片看,试图找出哪里不一样。
  • 问题:这就像你只看了电影的第一帧和最后一帧,中间发生了什么?物体是怎么移动的?是先变色再移动,还是先移动再变色?老方法完全不知道中间的过程,所以经常猜错,或者描述得很生硬。
    • 比喻:就像你只看到一个人站在门口,又看到他在厨房,你只能猜“他去了厨房”,但不知道他是跑过去的、走过去的,还是飞过去的。

2. ProCap 的新思路:把“过程”演出来

ProCap 的聪明之处在于,它不只看头尾,而是把中间缺失的“过程”给补全了。它把“静态对比”变成了“动态过程建模”。

我们可以把 ProCap 的工作流程想象成拍一部微电影,分为两个阶段:

第一阶段:导演排戏(显式过程建模)

在这个阶段,AI 就像一个导演,它的任务是“脑补”出两张照片之间到底发生了什么。

  1. 生成剧本(Procedure Generation):AI 利用现有的技术,在“前图”和“后图”之间,自动生成一堆中间帧。这就好比导演在两个场景之间,把演员从 A 点走到 B 点的动作,一帧一帧地补全了。
  2. 精选镜头(Confidence-based Sampling):生成的中间帧太多了,而且很多是重复的(比如走了 1 米和走了 1.1 米看起来差不多)。AI 会像一个精明的剪辑师,只挑选那些最关键、变化最明显的几帧(关键帧)。
    • 比喻:就像拍动作片,不需要把走路的过程每一秒都拍下来,只需要保留“起步”、“转身”、“到达”这几个关键动作。
  3. 学习规律(Procedure Modeling):AI 看着这些精选的关键帧,学习变化的规律。它会问自己:“在这个故事里,物体是怎么动的?颜色是怎么变的?”它通过一种“填空题”游戏(把画面遮住一部分,让 AI 猜被遮住的部分)来强化这种理解。

第二阶段:编剧写稿(隐式过程描述)

在这个阶段,AI 变成了一个编剧,负责把刚才学到的“过程”写成文字。

  • 以前的笨办法:每次写描述时,都要重新把中间那几百帧画面生成一遍,再一张张看。这太慢了,而且生成的画面可能有噪点(画错了)。
  • ProCap 的聪明办法(隐式过程):AI 在脑子里直接插入了几个**“可学习的提问”**(Learnable Queries)。
    • 比喻:这就像编剧不需要真的把电影放一遍,而是手里拿着几个“魔法提示词”(比如“移动过程”、“变色过程”)。这些提示词直接告诉 AI:“嘿,根据你之前学到的规律,告诉我中间发生了什么?”
    • AI 利用这些提示词,直接从“前图”和“后图”中推断出中间的过程,然后直接写出描述。
    • 好处:既快又准,不需要真的去渲染那些中间画面,省去了大量的计算时间。

3. 为什么这很重要?(核心优势)

  • 更懂“为什么”和“怎么做”:以前的 AI 只能说“球变红了”,ProCap 能说出“球先滚到了桌子边,然后变红了”。它理解了变化的动态逻辑
  • 抗干扰能力强:如果两张照片的拍摄角度变了(比如从左边拍变成了右边拍),老方法会晕头转向,以为物体变了。ProCap 因为“演”过中间过程,知道这只是视角的旋转,物体其实没变,所以能写出更准确的描述。
  • 效率高:因为它在推理时不需要真的生成中间视频,所以速度很快。

总结

简单来说,ProCap 就像是一个拥有“时间机器”的超级侦探

  • 别的侦探只能看“案发现场”和“结局”来猜案情。
  • ProCap 则能倒带,把中间发生的过程“演”一遍,看清每一个细节,然后再写出最准确、最生动的“案情报告”(文字描述)。

这种方法让 AI 在理解图片变化时,不再只是死记硬背,而是真正理解了事物是如何随时间演变的