Contrastive learning-based video quality assessment-jointed video vision transformer for video recognition

该论文提出了一种名为 SSL-V3 的自监督视频分类框架,通过联合无参考视频质量评估(VQA)与视频视觉 Transformer,利用对比学习机制将视频质量分数作为特征调节因子,有效解决了 VQA 标签稀缺问题并显著提升了在模糊视频等场景下的分类性能。

Jian Sun, Mohammad H. Mahoor

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“如何教电脑更聪明地看视频”**的故事。

想象一下,你正在教一个学生(也就是人工智能模型)辨认视频里的人是在“思考”还是“发呆”(这是医学上检测轻度认知障碍的任务)。

1. 遇到的问题:模糊的镜头会“骗人”

研究人员发现,如果给这个学生看高清、清晰的视频,他学得很快,准确率很高(100%)。但是,如果给他看模糊、抖动或者画质很差的视频,他就开始犯迷糊,准确率直接掉到了 58%。

这就好比:你让一个视力好的人去猜远处模糊照片里的人是谁,他肯定猜不准。以前,电脑模型也面临同样的问题:它太在意“画质差”带来的干扰,而忽略了视频里真正的“内容”。

2. 核心思路:给模型配一个“质检员”

为了解决这个问题,作者提出了一个叫 SSL-V3 的新方法。你可以把它想象成给这个学生配了一位**“视频质检员”**。

  • 以前的做法:学生直接看视频,猜答案。如果视频模糊,他就瞎猜。
  • 现在的做法(SSL-V3)
    1. 质检员先上岗:在视频进入学生大脑之前,先由“质检员”快速扫一眼,给这个视频打个分(比如:90 分是高清,30 分是模糊)。
    2. 调整信心
      • 如果质检员说“这视频很清晰(90 分)”,学生就会自信满满地给出答案,并且这个答案的权重会被放大。
      • 如果质检员说“这视频太糊了(30 分)”,学生就会谨慎小心,甚至降低对这个答案的自信度,避免被模糊的图像误导。
    3. 互相学习:最神奇的是,这个“质检员”本身也是学生。它没有标准答案(没人告诉它这个视频到底算几分),但它通过观察学生猜得准不准,反过来修正自己的打分能力。学生猜对了,说明质检员打分准;学生猜错了,可能因为视频太糊,质检员下次就会更敏锐地识别出模糊。

3. 技术亮点:不用“老师”也能学(自监督学习)

通常,训练一个“质检员”需要成千上万个视频,并且每个视频都要有人工标注的分数(比如:这个视频画质 8 分,那个 5 分)。但这太贵、太慢了,就像让老师给每个视频都写评语一样不现实。

这篇论文的厉害之处在于,它发明了一种**“自监督”**的魔法:

  • 不需要老师:它不需要人工标注画质分数。
  • 对比学习:它把同一个视频稍微变变样(比如翻转一下),让模型自己去对比。如果两个变样后的视频内容一样,模型就认为它们“是好朋友”;如果不一样,就是“陌生人”。
  • 链条反应:通过这种“找朋友”的游戏,模型自己学会了如何判断视频质量,并且把这个能力用在了分类任务上。这就像学生通过自己观察,悟出了“画面越清晰,我越要相信自己的眼睛”这个道理。

4. 实验结果:真的管用吗?

作者在两个完全不同的领域测试了这个方法:

  1. 医疗领域(I-CONECT 数据集):检测老年人是否有轻度认知障碍。
    • 结果:在“学校科目”这个主题的视频测试中,准确率达到了 94.87%。这比那些不看画质、直接硬猜的模型高出了一大截。
  2. 监控领域(冰球打架数据集):检测冰球比赛中有没有打架。
    • 结果:准确率高达 98.6%。哪怕视频里动作很快、画面很糊,模型也能通过“质检员”的辅助,精准识别出打架动作。

5. 总结:给 AI 戴上一副“智能眼镜”

简单来说,这篇论文的核心贡献是:

  • 不再盲目:让 AI 在分析视频前,先学会评估视频的质量。
  • 自我进化:在没有人工标注画质分数的情况下,让 AI 自己学会怎么打分,并把这个能力用到正事(分类)上。
  • 双重保险:通过“质检员”和“分类员”的互相配合,解决了数据不平衡和画质差的问题。

一句话比喻
以前的 AI 像个近视眼,不管视频清不清楚都硬猜;现在的 SSL-V3 像个戴了智能眼镜的专家,先看一眼眼镜(画质评估),如果眼镜清晰就大胆判断,如果眼镜模糊就小心求证,甚至能根据判断结果反过来把眼镜擦得更亮。这让它在各种复杂的现实场景中(无论是看病还是看监控)都变得超级靠谱。