Decoupled Sensitivity-Consistency Learning for Weakly Supervised Video Anomaly Detection

本文提出了名为 DeSC 的解耦敏感度 - 一致性学习框架,通过采用不同优化策略训练两个专用流(分别捕捉高频突变和保持长期语义一致性)并融合其互补优势,有效解决了弱监督视频异常检测中敏感度与稳定性难以兼顾的矛盾,在 UCF-Crime 和 XD-Violence 数据集上取得了新的最先进水平。

Hantao Zheng, Ning Han, Yawen Zeng, Hao Chen

发布于 2026-03-23
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 DeSC 的新方法,用来解决视频异常检测(比如监控摄像头自动发现打架、抢劫或爆炸)中的一个核心难题。

为了让你轻松理解,我们可以把这项技术想象成招聘两名性格截然不同的“安全保安”,让他们联手工作

1. 以前的难题:让一个人“既快又稳”太难了

在以前的监控系统中,我们通常只训练一个超级模型来负责所有工作。这就好比让同一个保安同时负责两件事:

  • 抓瞬间的坏人:比如有人突然掏枪射击(发生得极快,只有几秒)。这需要保安反应极快,像猎豹一样敏锐。
  • 抓持续的坏人:比如有人正在慢慢撬门或长时间斗殴(持续很久)。这需要保安有耐心,观察要连贯,不能因为对方停顿一下就以为没事了。

问题出在哪?

  • 如果让保安太敏锐(反应快),他会被风吹草动吓到,把树叶飘落、光影变化都当成异常,导致报警断断续续,像信号不好的老式收音机(论文里叫“碎片化”)。
  • 如果让保安太稳重(反应慢),他为了保持判断的连贯性,会把那些真正的突发枪击案给“平滑”掉,导致反应迟钝,甚至漏报(论文里叫“过度平滑”)。

这就是论文指出的**“敏感度与稳定性的权衡困境”:你想让他既快又稳,结果往往是既不够快,也不够稳**。

2. DeSC 的解决方案:请两个专家,各管一摊

DeSC 不再试图培养一个“全能保安”,而是聘请了两名 specialists(专家),让他们各自发挥特长,最后再一起商量结果。

👮‍♂️ 专家 A:急性子保安(时间敏感度流)

  • 性格:反应极快,像装了雷达。
  • 任务:专门盯着那些突然发生、转瞬即逝的异常,比如爆炸、枪击、突然的推搡。
  • 训练方式:给他“激进”的训练策略(高学习率),让他对任何细微的剧烈变化都保持极度敏感,哪怕有点“神经过敏”也没关系,先抓出来再说。
  • 缺点:容易误报,把正常的晃动也当成异常。

🧐 专家 B:慢性子保安(语义一致性流)

  • 性格:沉稳老练,像老侦探。
  • 任务:专门盯着那些持续时间长、有逻辑的异常,比如长时间的斗殴、抢劫过程。
  • 训练方式:给他“稳健”的训练策略(低学习率),并给他加了一个“平滑滤镜”(高斯混合先验)。这让他相信:如果一件事是异常的,它通常会持续一段时间,不会突然跳一下又消失。
  • 缺点:对突发的小动作反应慢,容易漏掉瞬间的枪击。

3. 最后的“联席会议”:合作推理

当视频播放时,这两位保安会同时看视频,然后给出各自的判断:

  • 急性子大喊:“这里不对劲!刚才有个黑影!”(可能有点吵,但抓到了瞬间)。
  • 慢性子冷静地说:“这里不对劲,这个动作持续了 10 秒,肯定是异常。”(可能漏了瞬间,但确认了持续事件)。

DeSC 的“联席会议”机制
系统会把两人的意见融合在一起:

  • 如果急性子说“有爆炸”,慢性子没反应,系统会采纳急性子的意见(因为爆炸确实快)。
  • 如果急性子因为树叶晃动乱报警,但慢性子说“没持续,不是异常”,系统就会忽略急性子的误报。
  • 如果两人同时说“有打架”,系统就会给出一个高置信度的警报。

通过这种**“取长补短”**的方式,DeSC 既抓住了瞬间的突发,又保证了长时间的连贯,还消除了误报。

4. 成果如何?

在两个著名的监控视频数据集(UCF-Crime 和 XD-Violence)上,DeSC 的表现刷新了历史记录(State-of-the-Art)

  • 它比之前最好的方法准确率高出了不少(比如在 UCF-Crime 上提升了 1.29%)。
  • 甚至单独让“急性子”或“慢性子”中的一个去工作,成绩都比以前的“全能保安”要好。这证明了**“分而治之”**的策略非常有效。

总结

这篇论文的核心思想就是:不要试图让一个人既当短跑冠军又当马拉松冠军。
在视频异常检测中,把“抓瞬间”和“抓持续”分开训练,最后再合作,就能得到最完美的监控效果。这就好比一个优秀的团队,不是靠一个全才,而是靠一群各司其职的专才配合完成的。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →