Interpretable Motion-Attentive Maps: Spatio-Temporally Localizing Concepts in Video Diffusion Transformers

本文提出了一种无需梯度计算或参数更新的无监督方法,通过引入 GramCol 和运动特征选择算法生成可解释的运动注意力图(IMAP),从而在视频扩散 Transformer 中实现了对运动及非运动概念时空定位的精准解释。

Youngjun Jun, Seil Kang, Woojung Han, Seong Jae Hwang

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 IMAP(可解释运动注意力图)的新方法,专门用来“透视”现代 AI 视频生成模型(比如 CogVideoX 或 HunyuanVideo)的大脑,看看它们到底是如何理解并生成“动作”的。

为了让你轻松理解,我们可以把这篇论文的核心思想想象成给 AI 导演配了一位“超级场记”

1. 背景:AI 导演的“黑盒”困境

现在的 AI 视频生成模型非常厉害,你输入一句话(比如“一只羊驼在草地上奔跑,天空中闪电划过”),它就能生成一段逼真的视频。

  • 问题在于:我们不知道这个 AI 导演在生成视频时,脑子里到底在想什么。它真的知道“奔跑”的是羊驼,而不是草地吗?它知道“闪电”是在天空中,而不是在羊驼身上吗?
  • 以前的技术只能告诉我们要“哪里”有物体(空间位置),但很难告诉我们要“什么时候”物体在动(时间位置)。

2. 核心方案:IMAP(超级场记)

这篇论文提出的 IMAP,就像是一个能同时看清空间(哪里)和时间(何时)的超级场记。它不需要重新训练 AI,也不需要复杂的计算,直接利用 AI 内部已有的“注意力机制”来工作。

它的工作流程分为两步,我们可以用两个生动的比喻来解释:

第一步:GramCol —— “找替身演员” (空间定位)

  • 比喻:想象 AI 在生成视频时,脑子里有无数个“小演员”(Token)在扮演不同的词(如“羊驼”、“草地”、“闪电”)。
  • 问题:直接问 AI“羊驼在哪里”,它可能会因为太忙乱而指错地方,或者把“羊驼”和“草地”搞混。
  • IMAP 的做法:它不直接问 AI,而是先找一个**“替身演员”**(Text-Surrogate Token)。
    • 它会在 AI 的“视觉演员”中,找出一个和“羊驼”这个词最像的视觉片段。
    • 一旦找到了这个“替身”,它就拿着这个替身去问:“谁和它长得像?”
    • 结果:所有长得像“羊驼”的区域(比如羊驼的腿、身体)都会亮起红灯。这就解决了**“在哪里”**的问题。
    • 创新点:以前的方法像直接拿文本去比对,容易出错;IMAP 像是先找个“替身”再找同类,更精准,而且不会产生奇怪的负数干扰。

第二步:运动头选择 —— “挑出动作专家” (时间定位)

  • 比喻:AI 的神经网络里有很多层、很多个“注意力头”(可以想象成很多个不同的观察员)。有的观察员擅长看“谁在画面里”(静态),有的擅长看“谁在动”(动态)。
  • 问题:如果我们把所有观察员的报告都混在一起,就会看到一片模糊,分不清谁在动。
  • IMAP 的做法:它发明了一个**“分离度测试”**。
    • 它检查每个观察员:如果你看同一只羊驼,它在第 1 帧和第 2 帧的位置变化大吗?
    • 如果某个观察员能敏锐地捕捉到帧与帧之间的巨大差异(比如羊驼从左边跑到了右边),那它就是**“运动专家”**。
    • 如果某个观察员觉得帧与帧之间没啥变化(比如背景里的山),那它就是“静态观察员”,IMAP 会直接忽略它。
    • 结果:只保留那些对“变化”最敏感的观察员,把它们看到的画面叠加起来。这就解决了**“什么时候在动”**的问题。

3. 成果:看得清清楚楚

通过这套组合拳(找替身 + 挑专家),IMAP 生成了一张**“运动热力图”**:

  • 空间上:它精准地圈出了“奔跑的羊驼”,而不是圈住草地。
  • 时间上:它只在羊驼奔跑的那几帧亮起,羊驼停下来时,热力图就熄灭了。
  • 零样本能力:它不需要重新教 AI,直接就能用。甚至可以用来做视频分割(把视频里的物体自动抠出来)。

4. 总结:为什么这很重要?

这就好比以前我们看魔术,只知道魔术师变出了兔子,但不知道他是怎么变出来的。

  • 以前:我们只能看到变出来的兔子(生成的视频),不知道魔术师(AI)的手在动哪里。
  • 现在 (IMAP):我们给魔术师戴上了透视眼镜,能清晰地看到他的哪只手(哪个注意力头)在什么时候(哪一帧)动了,从而精准地变出了兔子。

一句话总结
这篇论文发明了一种**“透视眼”,让我们能直接看到 AI 在生成视频时,究竟是哪个物体什么时间**动了,而且不需要给 AI 上任何补习班,直接就能用。这让 AI 生成的视频变得更透明、更可控,也更容易被人类理解。