Language-guided Open-world Video Anomaly Detection under Weak Supervision

本文提出了语言引导的开放世界视频异常检测范式及 LaGoVAD 模型,通过引入动态视频合成与对比学习等弱监督策略,并结合新构建的大规模多模态 PreVAD 数据集,实现了利用自然语言在推理阶段灵活定义并检测动态变化的异常事件。

Zihao Liu, Xiaoyu Wu, Jianqin Wu, Xuxu Wang, Linlin Yang

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 LaGoVAD 的新系统,专门用来解决视频监控中的“异常检测”问题。为了让你轻松理解,我们可以把这项技术想象成一位**“超级智能的保安队长”**。

1. 以前的保安队长遇到了什么麻烦?(旧方法的局限)

想象一下,你雇佣了一位传统的保安队长(现有的视频异常检测模型)。

  • 死记硬背: 这位队长只学过一本《异常行为手册》。手册里写着:“打架是坏的”、“爆炸是坏的”。
  • 场景僵化: 如果他在图书馆看到有人“奔跑”,他会立刻报警,因为手册里说“图书馆奔跑=异常”。
  • 现实困境: 但如果这个场景突然变成了火灾现场,或者是在体育比赛中,“奔跑”就变成了正常甚至必要的行为。
  • 概念漂移(Concept Drift): 现实世界是变化的。比如,在流感爆发期间,“不戴口罩”是异常行为;但在平时,这完全正常。以前的保安队长只会死板地按照旧手册执行,无法理解**“规则变了”**这一事实,导致要么漏报,要么误报。

2. 新方案:LaGoVAD 是什么?(语言引导的开放世界检测)

这篇论文提出的 LaGoVAD,就像是一位**“能听懂人话、随时调整规则”的超级保安队长**。

  • 核心能力:听指挥(语言引导)
    你不需要重新培训这位队长,只需要在检查时告诉他:“今天我们的重点是**‘不戴口罩’"或者“今天‘在高速公路上走路’**是危险的”。

    • 他就能立刻根据你口头(文字)给出的定义,去视频里寻找符合这个定义的行为。
    • 如果定义变了(比如从“抓小偷”变成“抓乱扔垃圾”),他不需要重新学习,只要换个指令就行。
  • 开放世界(Open-World):
    他不仅能识别训练时见过的“打架”,还能识别从未见过的“新式诈骗”或“新型破坏”,只要你能用语言描述出来。

3. 怎么训练这位“超级队长”?(两大创新策略)

要让这位队长既灵活又准确,作者用了两个巧妙的“训练秘籍”:

秘籍一:动态视频合成(像“剪辑师”一样制造素材)

  • 问题: 现实中的异常事件(比如车祸)通常只占视频的一小部分,大部分时间都是正常的。但网上的视频往往被剪辑过,异常部分太长,导致队长学不会区分“正常背景”和“异常瞬间”。
  • 比喻: 就像教学生认“苹果”,如果只给他看全是苹果的图片,他就不认识苹果了。
  • 做法: 系统会自动把视频像**“乐高积木”**一样拆解和重组。它把一段正常的视频和一段异常的视频拼在一起,或者把异常事件拉长、缩短。
  • 效果: 这样队长就能学会:“哦,原来在这么长的正常背景里,突然出现一小段异常,这才是真正的异常。”

秘籍二:对比学习与“找茬”(像“魔鬼教练”一样强化记忆)

  • 问题: 有时候“正常”和“异常”的界限很模糊(比如一个人走路快是正常,但在特定区域跑就是异常)。
  • 比喻: 就像教学生分辨“狼”和“狗”。如果只给看狼,学生可能觉得所有四条腿的动物都是狼。
  • 做法: 系统会专门挑那些**“长得像异常但其实正常”**(或者反之)的难例(Hard Negatives)出来,让队长反复对比、找不同。
  • 效果: 队长的眼力变得非常毒辣,能精准抓住那些细微的差别。

4. 他们的“教材”:PreVAD 数据集

为了训练这位队长,作者还收集了一本超级大教材,叫 PreVAD

  • 规模巨大: 以前最大的教材只有几千个视频,这本有3.5 万个视频。
  • 内容详尽: 以前教材只给个标签(比如“抢劫”),这本教材不仅给标签,还给详细的文字描述(比如“一个戴面具的人拿着枪威胁店员”)。
  • 多样性: 涵盖了车祸、暴力、火灾、动物攻击等各种场景,就像一本包罗万象的《世界异常行为百科全书》。

5. 总结:这项技术有什么用?

这项技术让视频监控系统变得真正智能和灵活

  • 医院场景: 流感季,输入“不戴口罩”,系统自动报警;平时,系统忽略此行为。
  • 交通场景: 平时“行人上高速”是异常;但在施工封路时,如果定义变了,系统也能适应。
  • 零样本能力: 即使系统从未见过某种特定的异常(比如某种新型无人机入侵),只要你能用语言描述出来,它就能立刻检测出来。

一句话总结:
以前的监控是“死记硬背的复读机”,现在的 LaGoVAD 是“能听懂指令、灵活应变的聪明管家”,它通过语言来定义什么是“异常”,从而解决了现实世界中规则千变万化的难题。