Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

本文系统评估了多模态大语言模型在零样本视频异常检测中的表现,发现其虽具备高置信度但存在严重的保守偏差导致召回率极低,而通过特定指令提示可显著提升性能,但仍面临开放世界监控场景下召回率不足的严峻挑战。

Shanle Yao, Armin Danesh Pazho, Narges Rashvand, Hamed Tabkhi

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一次对**“超级 AI 保安”**的突击考试。

想象一下,你给一个拥有超级大脑、读过万卷书、看过无数电影的 AI(也就是多模态大语言模型,MLLM)戴上了监控摄像头,问它:“嘿,这段视频里有没有坏人或者奇怪的事情发生?”

这篇论文就是想知道:这个“超级 AI 保安”真的能胜任现实世界的监控工作吗?

1. 核心故事:从“学霸”到“保安”的落差

  • 背景: 现在的 AI 很厉害,能看懂电影剧情,能回答“视频里的人在做什么”这种复杂问题。它们就像天才学霸,在考试(标准数据集)里总是拿满分。
  • 挑战: 但是,现实世界的监控(比如商场、街道)和考试不一样。那里光线不好、画面模糊、人挤人,而且“奇怪的事情”千奇百怪(比如有人在公园跑步很正常,但在银行门口跑步就很可疑)。
  • 实验: 作者们把几个最顶尖的 AI 模型(像 Gemini、GPT 等)扔进了两个真实的监控数据集(ShanghaiTech 和 CHAD)里,让它们直接判断视频里有没有“异常”。

2. 发现了一个大问题:AI 太“怂”了!

实验结果让人大跌眼镜。这些 AI 模型表现出了一种**“极度保守”**的倾向。

  • 比喻: 想象一个过度谨慎的保安。哪怕看到有人翻墙,他也觉得“也许人家只是跳个舞呢?”,于是选择**“没事,继续睡”**。
  • 数据表现:
    • 准确率(Precision)极高: 只要 AI 真的报警了,那通常是真的有异常(它很少误报)。
    • 召回率(Recall)极低: 但是,它漏掉了绝大多数真正的异常!就像那个保安,一年只报了一次警,而且那次是真的,但这一年里它漏掉了 99 次真正的盗窃。
    • 结论: 在“零样本”(没专门训练过)的情况下,AI 倾向于**“宁可漏掉,不可错杀”**。这对安防来说是致命的,因为漏掉一个坏人比误报一次更可怕。

3. 找到了解药:给它“开小灶”(提示词工程)

既然 AI 太保守,作者们试着改变一下**“提问的方式”**(Prompting)。

  • 普通提问: “这段视频正常吗?” -> AI 回答:“看起来挺正常的。”(因为它觉得大部分视频都是正常的)。
  • 针对性提问(Class-specific): “请像抓小偷一样,专门寻找打架、翻墙、奔跑等特定异常行为。如果看到任何不对劲的,立刻报警!”
  • 效果惊人:
    • 加上这种“特定指令”后,AI 的召回率(发现坏人能力)瞬间飙升了 5 倍甚至更多!
    • 在最好的情况下(ShanghaiTech 数据集),AI 的表现从“几乎没用”(F1 分数 0.09)提升到了“相当不错”(F1 分数 0.64)。
    • 比喻: 这就像给那个“怂”保安发了一张**“通缉令”**,上面画着具体的坏人特征。一旦有了目标,他就不再犹豫,能迅速识别出目标。

4. 其他有趣的发现

  • 视频越长越好吗?
    • 作者测试了 1 秒、2 秒、3 秒的视频片段。
    • 发现: 稍微长一点的视频(比如 3 秒)通常比 1 秒好,因为给 AI 更多时间观察“前因后果”。但在某些复杂场景下,视频太长反而会让 AI 分心,就像看太长的电影容易走神一样。
  • 指令越详细越好吗?
    • 作者发现,并不是指令写得越长越好。有时候,长篇大论的指令反而会让 AI 困惑(就像给保安读了一万字的说明书,他反而忘了怎么抓人)。
    • 最佳策略: 简洁、明确、带有具体目标的指令(“中等长度”的指令往往效果最好)。
  • 画质好就能解决一切吗?
    • 即使使用了更高清、更复杂的监控数据集(CHAD),AI 的表现并没有像我们预期的那样突飞猛进。
    • 结论: 光有高清摄像头(数据质量)没用,AI 的**“理解力”“判断力”**才是瓶颈。它需要学会理解“意图”,而不仅仅是“看见画面”。

5. 总结:AI 保安准备好了吗?

答案是:还没完全准备好,但很有希望。

  • 现状: 现在的 AI 就像是一个**“理论满分但缺乏实战经验”**的新手保安。它很聪明,但太保守,容易漏掉坏人。
  • 未来方向: 我们不能只指望 AI 自己“变聪明”,而是需要更好地教它怎么思考
    • 我们需要设计更聪明的**“提问方式”**(提示词),明确告诉它要警惕什么。
    • 我们需要调整它的**“心态”,让它知道在安防领域,“宁可误报,不可漏报”**。

一句话总结:
这篇论文告诉我们,把最先进的 AI 直接扔进监控室当保安,它可能会因为太谨慎而“装睡”。但如果我们给它一张清晰的**“通缉令”(特定的提示词),它就能瞬间变身成“神探”**,真正帮我们要抓住那些“坏家伙”。