Leveraging Multimodal LLM Descriptions of Activity for Explainable Semi-Supervised Video Anomaly Detection

该论文提出了一种利用多模态大语言模型生成物体活动与交互文本描述的新框架,通过对比训练与测试阶段的文本描述来实现可解释且高效的半监督视频异常检测,在复杂交互异常及传统基准数据集上均取得了优异性能。

Furkan Mumcu, Michael J. Jones, Anoop Cherian, Yasin Yilmaz

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种全新的视频异常检测(VAD)方法。简单来说,就是教电脑如何像人类保安一样,不仅能在监控录像里发现“不对劲”的事情,还能用人话告诉你“哪里不对劲”以及“为什么不对劲”。

为了让你轻松理解,我们可以把这项技术想象成一位**“超级观察员”**,它的工作流程是这样的:

1. 核心难题:以前的保安太“死板”

以前的监控算法(就像老式的保安)主要靠**“数像素”**。它们盯着画面看,如果某个人的动作幅度太大,或者颜色突然变了,就报警。

  • 缺点:它们不懂“剧情”。比如,一个人坐在长椅上很正常,但如果一个人坐在别人的汽车引擎盖上,老算法可能觉得“哦,只是有个人在移动”,因为它只看到了“人”和“车”这两个物体,却没看懂它们之间奇怪的互动。而且,老算法只会报警说“这里出事了”,却说不出来具体发生了什么,让人摸不着头脑。

2. 新方案:请了一位“会说话的翻译官” (MLLM)

作者团队引入了一个多模态大语言模型(MLLM),我们可以把它想象成一位**“超级翻译官”**。

  • 它的任务:它不看像素,而是看**“故事”**。
  • 它的工作方式
    1. 抓重点:它先找出视频里的关键角色(比如人、狗、车)。
    2. 看互动:它特别关注两个角色靠在一起时发生了什么(比如“一个人推着一辆自行车”)。
    3. 写日记:它把看到的画面瞬间翻译成文字描述
      • 正常画面:它写道:“两个人并排走在人行道上,互不干扰。”
      • 异常画面:它写道:“一个人被另一个人推进了一个大箱子里,手里还举着手机拍照。”

3. 如何发现异常?(“找不同”游戏)

这个系统不需要重新学习,它玩的是**“找不同”**的游戏:

  • 训练阶段(建立“正常档案库”)
    系统先观看一段只有正常活动的视频(比如正常的街道监控)。它让“翻译官”把看到的正常互动都写成句子,存进一个**“正常行为档案库”**。

    • 档案库里的例子:“人在走路”、“车在行驶”、“狗在散步”。
  • 测试阶段(实时比对)
    当新的监控视频进来时,系统再次让“翻译官”写日记。然后,它把新写的日记和“正常档案库”里的句子做对比。

    • 如果新句子是“人在走路”,和档案库里的很像 \rightarrow 安全
    • 如果新句子是“人被推进箱子里”,而档案库里从来没有这种描述 \rightarrow 报警!

4. 为什么这个方法很厉害?(三大亮点)

  • 🔍 看得懂“复杂剧情”
    以前的系统看不懂“人坐在车上”这种互动,但这个方法专门盯着物体之间的互动。就像它不仅能认出“猫”和“老鼠”,还能认出“猫在追老鼠”这种动态关系。

  • 🗣️ 自带“解说员” (可解释性)
    这是最大的创新!当系统报警时,它不会只给个冷冰冰的分数。它会直接告诉你:

    “警报!因为这段视频里,一个人被推进了箱子里,而我们在正常视频里只见过人在走路,这两者完全不一样。”
    这让保安或警察能瞬间明白发生了什么,而不是对着屏幕发呆。

  • 🚀 哪里都能用 (无需重新训练)
    以前的方法换个监控地点(比如从商场换到公园),往往需要重新训练模型,费时费力。而这个方法像是一个通用的“翻译官”,只要给它看一段正常的视频,它就能立刻理解那个场景的“正常规则”,不需要重新“上学”。

5. 实验结果:它真的行吗?

作者在几个著名的监控数据集上做了测试:

  • ComplexVAD(专门测试复杂互动异常的数据集)上,它的表现超越了所有现有方法,准确率最高。
  • AvenueStreet Scene(传统数据集)上,如果把它的“文字描述能力”和传统的“动作捕捉能力”结合起来,也能达到世界顶尖水平
  • 人类测试:作者让人类志愿者评价它的解释,结果发现,它生成的文字描述非常像人类保安写的,既准确又易懂。

6. 小缺点与未来

当然,这个方法也有点“娇气”:

  • 有点慢:因为要调用强大的“翻译官”(大模型)来写日记,计算量很大,目前还很难做到像普通摄像头那样实时处理每一帧画面。
  • 可能会“胡编”:大模型偶尔会 hallucinate(幻觉),编造一些细节。不过作者设计了一套机制,只要它描述的“大意”和正常情况不符,就会报警,所以即使有点小错误也不影响大局。

总结

这就好比给监控系统装上了一颗**“懂人情世故的大脑”。它不再只是机械地数数,而是能理解场景、描述故事**,并在发现“剧情不对劲”时,用人话告诉你:“嘿,这里有个奇怪的故事,快去看看!”

这项技术未来可以极大地帮助我们在商场、街道等公共场所更智能、更透明地保障安全。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →