Language-guided Open-world Video Anomaly Detection under Weak Supervision

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 LaGoVAD 的新系统，专门用来解决视频监控中的“异常检测”问题。为了让你轻松理解，我们可以把这项技术想象成一位**“超级智能的保安队长”**。

1. 以前的保安队长遇到了什么麻烦？（旧方法的局限）

想象一下，你雇佣了一位传统的保安队长（现有的视频异常检测模型）。

死记硬背： 这位队长只学过一本《异常行为手册》。手册里写着：“打架是坏的”、“爆炸是坏的”。
场景僵化： 如果他在图书馆看到有人“奔跑”，他会立刻报警，因为手册里说“图书馆奔跑=异常”。
现实困境： 但如果这个场景突然变成了火灾现场，或者是在体育比赛中，“奔跑”就变成了正常甚至必要的行为。
概念漂移（Concept Drift）： 现实世界是变化的。比如，在流感爆发期间，“不戴口罩”是异常行为；但在平时，这完全正常。以前的保安队长只会死板地按照旧手册执行，无法理解**“规则变了”**这一事实，导致要么漏报，要么误报。

2. 新方案：LaGoVAD 是什么？（语言引导的开放世界检测）

这篇论文提出的 LaGoVAD，就像是一位**“能听懂人话、随时调整规则”的超级保安队长**。

核心能力：听指挥（语言引导）
你不需要重新培训这位队长，只需要在检查时告诉他：“今天我们的重点是**‘不戴口罩’"或者“今天‘在高速公路上走路’**是危险的”。
- 他就能立刻根据你口头（文字）给出的定义，去视频里寻找符合这个定义的行为。
- 如果定义变了（比如从“抓小偷”变成“抓乱扔垃圾”），他不需要重新学习，只要换个指令就行。
开放世界（Open-World）：
他不仅能识别训练时见过的“打架”，还能识别从未见过的“新式诈骗”或“新型破坏”，只要你能用语言描述出来。

3. 怎么训练这位“超级队长”？（两大创新策略）

要让这位队长既灵活又准确，作者用了两个巧妙的“训练秘籍”：

秘籍一：动态视频合成（像“剪辑师”一样制造素材）

问题： 现实中的异常事件（比如车祸）通常只占视频的一小部分，大部分时间都是正常的。但网上的视频往往被剪辑过，异常部分太长，导致队长学不会区分“正常背景”和“异常瞬间”。
比喻： 就像教学生认“苹果”，如果只给他看全是苹果的图片，他就不认识苹果了。
做法： 系统会自动把视频像**“乐高积木”**一样拆解和重组。它把一段正常的视频和一段异常的视频拼在一起，或者把异常事件拉长、缩短。
效果： 这样队长就能学会：“哦，原来在这么长的正常背景里，突然出现一小段异常，这才是真正的异常。”

秘籍二：对比学习与“找茬”（像“魔鬼教练”一样强化记忆）

问题： 有时候“正常”和“异常”的界限很模糊（比如一个人走路快是正常，但在特定区域跑就是异常）。
比喻： 就像教学生分辨“狼”和“狗”。如果只给看狼，学生可能觉得所有四条腿的动物都是狼。
做法： 系统会专门挑那些**“长得像异常但其实正常”**（或者反之）的难例（Hard Negatives）出来，让队长反复对比、找不同。
效果： 队长的眼力变得非常毒辣，能精准抓住那些细微的差别。

4. 他们的“教材”：PreVAD 数据集

为了训练这位队长，作者还收集了一本超级大教材，叫 PreVAD。

规模巨大： 以前最大的教材只有几千个视频，这本有3.5 万个视频。
内容详尽： 以前教材只给个标签（比如“抢劫”），这本教材不仅给标签，还给详细的文字描述（比如“一个戴面具的人拿着枪威胁店员”）。
多样性： 涵盖了车祸、暴力、火灾、动物攻击等各种场景，就像一本包罗万象的《世界异常行为百科全书》。

5. 总结：这项技术有什么用？

这项技术让视频监控系统变得真正智能和灵活：

医院场景： 流感季，输入“不戴口罩”，系统自动报警；平时，系统忽略此行为。
交通场景： 平时“行人上高速”是异常；但在施工封路时，如果定义变了，系统也能适应。
零样本能力： 即使系统从未见过某种特定的异常（比如某种新型无人机入侵），只要你能用语言描述出来，它就能立刻检测出来。

一句话总结：
以前的监控是“死记硬背的复读机”，现在的 LaGoVAD 是“能听懂指令、灵活应变的聪明管家”，它通过语言来定义什么是“异常”，从而解决了现实世界中规则千变万化的难题。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的论文，题为 《Language-Guided Open-World Video Anomaly Detection Under Weak Supervision》（弱监督下的语言引导式开放世界视频异常检测）。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

传统局限： 现有的视频异常检测（VAD）方法大多基于“封闭集”设定，假设异常的定义是固定不变的。然而，在**开放世界（Open-World）**场景中，异常的定义是动态变化的。
- 例子： “不戴口罩”在流感爆发期间是异常行为，但在平时是正常行为；“行人上路”在犯罪监控中可能是正常行为，但在高速公路监控中则是异常。
核心挑战： 这种异常定义的动态变化导致了概念漂移（Concept Drift），即训练阶段和测试阶段的条件概率分布 $P(Y|V)$ 不一致（ $P_{train}(Y|V) \neq P_{test}(Y|V)$ ）。现有的开放集或域泛化方法通常假设异常类别固定，无法处理这种由用户定义变化引起的标签改变。
数据瓶颈： 现有的 VAD 数据集通常缺乏细粒度的语义描述，难以支持基于自然语言的动态定义训练。

2. 核心方法论 (Methodology)

作者提出了一个新的范式：语言引导的开放世界视频异常检测（Language-Guided Open-World VAD），并设计了 LaGoVAD 模型和 PreVAD 数据集。

2.1 理论范式：定义决定的异常性

假设： 异常标签 $Y$ 仅由视频内容 $V$ 和异常定义 $Z$ （作为随机变量）共同决定，即 $Y = F(V, Z)$ 。
解决漂移： 传统方法建模 $\Phi: V \to Y$ ，容易受概念漂移影响。本文建模 $\Phi: (V, Z) \to Y$ ，将异常定义作为输入条件。只要定义 $Z$ 给定，标签 $Y$ 就是确定的，从而在理论上消除了概念漂移。

2.2 模型架构：LaGoVAD

模型采用弱监督学习，输入为视频 $v$ 和文本定义 $z$ （类别名或详细描述），输出异常分数。

骨干网络： 使用预训练的 CLIP 图像编码器提取视觉特征，Transformer 进行时序编码；使用 CLIP 文本编码器提取定义特征。
融合模块： 基于 Transformer 的视觉 - 文本融合模块，将两者特征对齐。
输出头： 包含二分类检测头（输出帧级异常分数）和多分类头（输出类别概率）。

2.3 关键正则化策略 (Regularization Strategies)

为了解决多模态联合空间中样本密度衰减导致的过拟合问题，提出了两种策略：

动态视频合成 (Dynamic Video Synthesis, $L_{dvs}$ ):
- 目的： 模拟真实场景中异常事件占比小、正常上下文长的特点，增加训练数据的多样性。
- 机制： 动态拼接语义相似的视频片段，生成具有不同异常时长比例的合成视频，并生成对应的伪标签（Pseudo-labels）。这迫使模型学习不同时间尺度下的异常模式。
带困难负样本挖掘的对比学习 (Contrastive Learning with Hard Negative Mining, $L_{neg}$ ):
- 目的： 增强特征的鲁棒性和细粒度对齐。
- 机制： 利用异常视频中的“正常片段”作为困难负样本（Hard Negatives），与异常描述进行对比学习。通过温度系数调整负样本的挖掘难度，提升模型区分细微异常的能力。

3. 数据集贡献：PreVAD

为了训练上述模型，作者构建了 PreVAD (Pre-training Video Anomaly Dataset)，这是目前规模最大、多样性最高的视频异常数据集。

规模： 包含 35,279 个视频（11,979 个异常，23,300 个正常），总时长约 209.5 小时。
多样性： 覆盖犯罪、交通、动物、事故、生产等 7 大类、35 个子类。
标注创新： 每个异常视频不仅有多级类别标签，还包含细粒度的自然语言描述（平均 22.9 词/条），明确定义了异常的具体表现。
构建流程： 采用可扩展的自动化流水线，利用基础模型（LLM/MLLM）进行数据清洗、一致性验证和描述生成，大幅降低了人工标注成本。

4. 实验结果 (Results)

作者在 7 个主流数据集（UCF-Crime, XD-Violence, MSAD, UBNormal, DoTA, TAD, LAD）上进行了**零样本（Zero-Shot）**评估。

协议 1（跨域泛化）： 在 7 个数据集上均取得了 SOTA 性能。
- 在 XD-Violence 上，检测性能比之前的弱监督 SOTA 提升了 20%，分类性能提升了 32%。
- 在概念漂移场景下（不同定义），LaGoVAD 显著优于传统的开放集方法和基于大语言模型（LLM）的方法。
协议 2（概念漂移鲁棒性）： 通过改变异常定义的子集（Drift@5）来模拟用户需求变化。LaGoVAD 在 XD 和 MSAD 数据集上均表现出最强的鲁棒性，证明了其适应动态定义的能力。
消融实验： 移除了动态合成或对比学习任一模块，性能均显著下降，证明了两者对防止过拟合和提升泛化性的必要性。
定性分析： 可视化结果显示，LaGoVAD 能根据用户输入的不同定义（如“垃圾桶被打翻是正常”vs“是异常”）动态调整检测结果，而传统方法（如 VadCLIP）无法处理这种变化。

5. 意义与贡献 (Significance)

范式革新： 首次将 VAD 中的概念漂移问题形式化，并提出“定义决定异常”的联合建模范式，解决了开放世界中异常定义动态变化的核心难题。
交互性提升： 实现了通过自然语言动态引导检测过程，使模型能够适应不同场景（如医院、学校、街道）下用户自定义的监控需求。
数据基石： 发布的 PreVAD 数据集填补了大规模、多类别、带细粒度文本描述的视频异常数据空白，为未来开放世界 VAD 研究提供了重要基准。
效率与性能平衡： 相比基于大参数量的多模态大模型（MLLM），LaGoVAD 在保持 SOTA 性能的同时，推理速度更快，计算成本更低，更具实际应用价值。

总结： 该论文通过理论创新（联合建模）、模型设计（动态合成与对比学习）和数据建设（PreVAD），成功解决了开放世界视频异常检测中的概念漂移问题，为构建灵活、可解释且适应性强的人工智能监控系统奠定了坚实基础。