Novel Semantic Prompting for Zero-Shot Action Recognition

该论文提出了 SP-CLIP 框架,通过利用描述意图、运动和物体交互等多层级抽象的结构化语义提示,在不修改视觉编码器或增加可学习参数的情况下,显著提升了预训练视觉 - 语言模型在零样本动作识别任务中的性能。

Salman Iqbal, Waheed Rehman

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“如何教电脑看懂它从未见过的动作”**的故事。

想象一下,你正在教一个从未出过门的孩子认识世界。如果你只给他看一张“游泳”的照片,他可能记住了。但如果你让他去识别“在激流中游泳”、“在泳池里游泳”或者“在浴缸里假装游泳”,他可能会懵掉,因为他没见过这些具体场景。

在人工智能领域,这就叫**“零样本动作识别”(Zero-Shot Action Recognition)**:让 AI 识别它训练时从未见过的动作。

1. 以前的做法:只给“名字”太单薄

以前的 AI 老师教学生时,通常只给一个标签,比如“跑步”、“跳跃”或“游泳”。

  • 比喻:这就像你只告诉孩子:“这是‘苹果’。”然后让他去认苹果。如果给他看一个红富士、一个青苹果,或者一个被咬了一口的苹果,他可能还能认出来。但如果给他看一个“正在被切开的苹果”或者“苹果派”,他就可能因为没见过而认不出了。
  • 问题:人类动作太复杂了。仅仅知道动作叫“打篮球”,AI 很难理解“运球过人”、“投篮”和“抢篮板”之间的细微差别,更别提识别它没见过的“在雨中打篮球”了。

2. 这篇论文的妙招:讲“故事”而不是给“标签”

作者(Salman Iqbal 和 Waheed Rehman)提出了一个聪明的新方法,叫 SP-CLIP。他们的核心思想是:别只给名字,给 AI 讲个故事!

他们利用了一个叫 Stories 的数据集,里面不仅有动作的名字,还有详细的文字描述

  • 比喻
    • 旧方法:告诉孩子“这是‘打篮球’"。
    • 新方法(SP-CLIP):告诉孩子“这是一个人在球场上,双手拍着球,快速奔跑,然后跳起来把球投进篮筐,周围有观众在欢呼,他的目标是得分。”
    • 这就好比给 AI 提供了一份**“动作说明书”,里面包含了动作的意图**(为什么要做)、过程(怎么做)和互动(和什么物体互动)。

3. 他们是怎么做的?(SP-CLIP 框架)

他们并没有重新发明一个复杂的 AI 大脑,而是给现有的“聪明大脑”(一种叫 CLIP 的视觉 - 语言模型)加了一个**“翻译器”**。

  1. 看视频:AI 先看一段视频,提取出画面特征(比如人的姿势、物体的位置)。
  2. 读故事:AI 同时阅读关于这个动作的详细文字故事(来自 Stories 数据集)。
  3. 对暗号:AI 把“看到的画面”和“读到的故事”放在一起比对。
    • 如果视频里的人真的在“运球”,而故事里也描述了“运球”,它们就匹配成功
    • 如果视频里的人在“踢足球”,而故事是“打篮球”,它们就不匹配。

关键点:他们不需要重新训练 AI 去“看”视频(因为 AI 本来就会看),也不需要教它新的动作。他们只是优化了 AI 理解文字的方式,让它能更敏锐地捕捉到文字描述中的细节,从而更好地去匹配视频。

4. 效果怎么样?

他们在几个著名的测试集(UCF101 和 HMDB51,相当于 AI 界的“高考题”)上做了实验。

  • 结果:这种“讲故事”的方法效果非常好!特别是在那些细节很丰富或者动作很复杂的情况下,AI 的识别率大幅提升。
  • 对比
    • 以前的方法(只给名字)就像只给一个模糊的剪影。
    • 最近的一些新方法(比如 EZ-CLIP)专注于教 AI 看“时间流逝”和“动作连贯性”(比如看人是怎么动起来的)。
    • SP-CLIP 的独门绝技:它专注于**“语义理解”**(动作的含义)。
    • 结论:这就好比,EZ-CLIP 擅长看“动作有多流畅”,而 SP-CLIP 擅长看“动作到底是什么意思”。两者其实是互补的,如果以后把它们结合起来,AI 就会变得超级聪明。

5. 总结一下(一句话人话版)

这篇论文告诉我们,想让 AI 识别它没见过的动作,不要只给它贴个标签,要给它讲清楚这个动作的“前因后果”和“具体细节”。通过把详细的文字故事视频画面强行“配对”,AI 就能像人类一样,通过理解“意图”和“场景”来认出那些它从未见过的动作。

打个比方
以前的 AI 像是个只会背单词的学生,看到“猫”就认猫,看到“狗”就认狗,但看到“一只正在追蝴蝶的猫”就傻眼了。
现在的 SP-CLIP 像是个读过很多故事书的学生,即使它没见过这只特定的猫,只要它读到“猫在追蝴蝶”这个故事,它就能立刻在视频里认出这一幕。