Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一次对**“超级 AI 保安”**的突击考试。

想象一下，你给一个拥有超级大脑、读过万卷书、看过无数电影的 AI（也就是多模态大语言模型，MLLM）戴上了监控摄像头，问它：“嘿，这段视频里有没有坏人或者奇怪的事情发生？”

这篇论文就是想知道：这个“超级 AI 保安”真的能胜任现实世界的监控工作吗？

背景： 现在的 AI 很厉害，能看懂电影剧情，能回答“视频里的人在做什么”这种复杂问题。它们就像天才学霸，在考试（标准数据集）里总是拿满分。
挑战： 但是，现实世界的监控（比如商场、街道）和考试不一样。那里光线不好、画面模糊、人挤人，而且“奇怪的事情”千奇百怪（比如有人在公园跑步很正常，但在银行门口跑步就很可疑）。
实验： 作者们把几个最顶尖的 AI 模型（像 Gemini、GPT 等）扔进了两个真实的监控数据集（ShanghaiTech 和 CHAD）里，让它们直接判断视频里有没有“异常”。

实验结果让人大跌眼镜。这些 AI 模型表现出了一种**“极度保守”**的倾向。

比喻： 想象一个过度谨慎的保安。哪怕看到有人翻墙，他也觉得“也许人家只是跳个舞呢？”，于是选择**“没事，继续睡”**。
数据表现：
- 准确率（Precision）极高： 只要 AI 真的报警了，那通常是真的有异常（它很少误报）。
- 召回率（Recall）极低： 但是，它漏掉了绝大多数真正的异常！就像那个保安，一年只报了一次警，而且那次是真的，但这一年里它漏掉了 99 次真正的盗窃。
- 结论： 在“零样本”（没专门训练过）的情况下，AI 倾向于**“宁可漏掉，不可错杀”**。这对安防来说是致命的，因为漏掉一个坏人比误报一次更可怕。

既然 AI 太保守，作者们试着改变一下**“提问的方式”**（Prompting）。

普通提问： “这段视频正常吗？” -> AI 回答：“看起来挺正常的。”（因为它觉得大部分视频都是正常的）。
针对性提问（Class-specific）： “请像抓小偷一样，专门寻找打架、翻墙、奔跑等特定异常行为。如果看到任何不对劲的，立刻报警！”
效果惊人：
- 加上这种“特定指令”后，AI 的召回率（发现坏人能力）瞬间飙升了 5 倍甚至更多！
- 在最好的情况下（ShanghaiTech 数据集），AI 的表现从“几乎没用”（F1 分数 0.09）提升到了“相当不错”（F1 分数 0.64）。
- 比喻： 这就像给那个“怂”保安发了一张**“通缉令”**，上面画着具体的坏人特征。一旦有了目标，他就不再犹豫，能迅速识别出目标。

视频越长越好吗？
- 作者测试了 1 秒、2 秒、3 秒的视频片段。
- 发现： 稍微长一点的视频（比如 3 秒）通常比 1 秒好，因为给 AI 更多时间观察“前因后果”。但在某些复杂场景下，视频太长反而会让 AI 分心，就像看太长的电影容易走神一样。
指令越详细越好吗？
- 作者发现，并不是指令写得越长越好。有时候，长篇大论的指令反而会让 AI 困惑（就像给保安读了一万字的说明书，他反而忘了怎么抓人）。
- 最佳策略： 简洁、明确、带有具体目标的指令（“中等长度”的指令往往效果最好）。
画质好就能解决一切吗？
- 即使使用了更高清、更复杂的监控数据集（CHAD），AI 的表现并没有像我们预期的那样突飞猛进。
- 结论： 光有高清摄像头（数据质量）没用，AI 的**“理解力”和“判断力”**才是瓶颈。它需要学会理解“意图”，而不仅仅是“看见画面”。

答案是：还没完全准备好，但很有希望。

现状： 现在的 AI 就像是一个**“理论满分但缺乏实战经验”**的新手保安。它很聪明，但太保守，容易漏掉坏人。
未来方向： 我们不能只指望 AI 自己“变聪明”，而是需要更好地教它怎么思考。
- 我们需要设计更聪明的**“提问方式”**（提示词），明确告诉它要警惕什么。
- 我们需要调整它的**“心态”，让它知道在安防领域，“宁可误报，不可漏报”**。

一句话总结：
这篇论文告诉我们，把最先进的 AI 直接扔进监控室当保安，它可能会因为太谨慎而“装睡”。但如果我们给它一张清晰的**“通缉令”（特定的提示词），它就能瞬间变身成“神探”**，真正帮我们要抓住那些“坏家伙”。

类似论文