No Need For Real Anomaly: MLLM Empowered Zero-Shot Video Anomaly Detection

本文提出了 LAVIDA 框架,通过利用多模态大语言模型增强语义理解、采用异常暴露采样器生成伪异常进行零样本训练,并结合基于反向注意力的 Token 压缩技术,在无需真实异常数据的情况下实现了视频异常检测的 SOTA 性能。

Zunkai Dai, Ke Li, Jiajia Liu, Jie Yang, Yuanyuan Qiao

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 LAVIDA 的新方法,用来解决一个非常棘手的问题:如何在从未见过的视频场景中,自动发现各种奇怪的“异常”行为?

为了让你轻松理解,我们可以把传统的视频监控系统想象成**“只会背课本的保安”,而 LAVIDA 则像是一个“拥有超级大脑和丰富阅历的侦探”**。

以下是用通俗语言和创意比喻对这篇论文的解读:

1. 传统方法的困境:死记硬背的保安

想象一下,你雇了一个保安来监视学校。

  • 传统方法(旧保安): 你只教他:“如果看到有人打架,就报警;如果看到有人奔跑,就报警。”
  • 问题所在: 这个保安只背了“打架”和“奔跑”这两个词。
    • 如果学校里突然有人放烟花(爆炸),或者有人抢劫,保安会一脸茫然,因为课本里没教过。
    • 如果场景从“学校”换到了“火车站”,保安可能连“奔跑”算不算异常都搞不清楚了。
  • 核心痛点: 以前的 AI 模型就像这个保安,它们必须用大量的“异常视频”去训练(死记硬背)。但现实世界中,异常事件太罕见了,而且千奇百怪,根本收集不全。一旦遇到没见过的情况(比如新的犯罪手法或新的场景),它们就失效了。

2. LAVIDA 的解决方案:拥有“超级大脑”的侦探

LAVIDA 换了一种思路。它不靠死记硬背,而是靠**“理解”。它引入了一个多模态大语言模型(MLLM),这相当于给系统装上了一个“博学的侦探大脑”**。

这个侦探不仅懂视频,还懂语言,知道“打架”、“爆炸”、“抢劫”在人类语言里是什么意思,也知道这些词在不同场景下代表什么。

核心黑科技一:不用真异常也能训练(“假人”演习)

挑战: 我们手里没有足够的“异常视频”来训练这个侦探。
LAVIDA 的妙招:异常暴露采样器(Anomaly Exposure Sampler)

  • 比喻: 既然没有真实的“罪犯”来演习,我们就用**“普通路人”**来扮演。
  • 怎么做: 系统从普通的图片分割数据集(比如识别猫、狗、汽车的数据)里,随机抓一些物体。
    • 比如,它把一张图里的“猫”标记为“异常”,把“汽车”标记为“正常”。
    • 然后它告诉侦探:“在这个场景里,是异常,汽车是正常。”
    • 下一张图,它又反过来:“这次汽车是异常,是正常。”
  • 效果: 通过这种“指鹿为马”的随机训练,侦探学会了**“只要有人指定某个东西是异常,我就能把它找出来”。它不再依赖特定的“异常视频”,而是学会了“如何识别被定义为异常的东西”**。这就像让保安通过玩“找茬”游戏,学会了识别任何被指认的奇怪行为。

核心黑科技二:反向注意力压缩(“去噪”滤镜)

挑战: 视频里大部分画面都是背景(比如天空、墙壁),只有很小一部分是异常(比如一个正在打架的人)。让大模型去分析每一帧的每一像素,就像让侦探去数沙滩上每一粒沙子,太累且效率低。
LAVIDA 的妙招:Token 压缩

  • 比喻: 侦探戴上了一副**“智能墨镜”**。
  • 怎么做: 系统会自动计算视频里哪些部分是“背景噪音”(大家长得都很像,比如蓝天),哪些是“可疑分子”(长得和背景很不一样)。
    • 它把那些像背景一样的像素点(Token)直接压缩、合并,只保留最精华的部分。
    • 这就好比侦探直接忽略了背景,只盯着那个和周围格格不入的“可疑分子”看。
  • 效果: 既大大减少了计算量(省钱、省电),又让模型能更专注地发现那些微小的异常。

核心黑科技三:语义理解与多尺度检测(“既看大局又看细节”)

  • 比喻: 侦探不仅能说出“这里有人打架”(帧级检测),还能精准地画出“打架的人在哪里”(像素级检测)。
  • 怎么做: 利用大语言模型的理解能力,把视频里的动作和文字描述(如“暴力”、“受伤”)联系起来。同时,通过一个特殊的“投影器”,让模型既能看到整个视频片段的上下文,又能看清每一帧的细节。

3. 最终成果:真正的“零样本”能力

什么是“零样本”(Zero-Shot)?
就是**“没见过的也能抓”**。

  • 训练时: 模型完全没看过任何真实的“异常视频数据集”(比如没有看过真实的抢劫视频)。它只用了普通的“找茬”游戏数据。
  • 测试时: 把它扔到全新的场景(比如从未见过的火车站、从未见过的暴力类型),它依然能准确报警。

实验结果:
在四个著名的视频异常检测数据集上,LAVIDA 的表现超越了所有现有的方法,甚至超过了那些需要大量标注数据的“弱监督”方法。

  • 它不仅能告诉你“这一秒出事了”(帧级),还能告诉你“出事的具体位置在哪里”(像素级)。
  • 它就像一个万能侦探,不管你是想抓“打架的”、“爆炸的”还是“乱停车的”,只要你能用语言描述出来,它就能在视频里找出来。

总结

这篇论文的核心思想就是:别死记硬背“异常”长什么样,要理解“异常”是什么意思。

通过让大语言模型(MLLM)来理解语义,配合巧妙的“假人演习”训练法和“智能去噪”技术,LAVIDA 成功打造了一个不需要真实异常数据训练,就能在开放世界中识别任何未知异常的超级系统。这为未来的智能监控、安全预警带来了巨大的希望。