Contrastive learning-based video quality assessment-jointed video vision transformer for video recognition

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“如何教电脑更聪明地看视频”**的故事。

想象一下，你正在教一个学生（也就是人工智能模型）辨认视频里的人是在“思考”还是“发呆”（这是医学上检测轻度认知障碍的任务）。

1. 遇到的问题：模糊的镜头会“骗人”

研究人员发现，如果给这个学生看高清、清晰的视频，他学得很快，准确率很高（100%）。但是，如果给他看模糊、抖动或者画质很差的视频，他就开始犯迷糊，准确率直接掉到了 58%。

这就好比：你让一个视力好的人去猜远处模糊照片里的人是谁，他肯定猜不准。以前，电脑模型也面临同样的问题：它太在意“画质差”带来的干扰，而忽略了视频里真正的“内容”。

2. 核心思路：给模型配一个“质检员”

为了解决这个问题，作者提出了一个叫 SSL-V3 的新方法。你可以把它想象成给这个学生配了一位**“视频质检员”**。

以前的做法：学生直接看视频，猜答案。如果视频模糊，他就瞎猜。
现在的做法（SSL-V3）：
1. 质检员先上岗：在视频进入学生大脑之前，先由“质检员”快速扫一眼，给这个视频打个分（比如：90 分是高清，30 分是模糊）。
2. 调整信心：
  - 如果质检员说“这视频很清晰（90 分）”，学生就会自信满满地给出答案，并且这个答案的权重会被放大。
  - 如果质检员说“这视频太糊了（30 分）”，学生就会谨慎小心，甚至降低对这个答案的自信度，避免被模糊的图像误导。
3. 互相学习：最神奇的是，这个“质检员”本身也是学生。它没有标准答案（没人告诉它这个视频到底算几分），但它通过观察学生猜得准不准，反过来修正自己的打分能力。学生猜对了，说明质检员打分准；学生猜错了，可能因为视频太糊，质检员下次就会更敏锐地识别出模糊。

3. 技术亮点：不用“老师”也能学（自监督学习）

通常，训练一个“质检员”需要成千上万个视频，并且每个视频都要有人工标注的分数（比如：这个视频画质 8 分，那个 5 分）。但这太贵、太慢了，就像让老师给每个视频都写评语一样不现实。

这篇论文的厉害之处在于，它发明了一种**“自监督”**的魔法：

不需要老师：它不需要人工标注画质分数。
对比学习：它把同一个视频稍微变变样（比如翻转一下），让模型自己去对比。如果两个变样后的视频内容一样，模型就认为它们“是好朋友”；如果不一样，就是“陌生人”。
链条反应：通过这种“找朋友”的游戏，模型自己学会了如何判断视频质量，并且把这个能力用在了分类任务上。这就像学生通过自己观察，悟出了“画面越清晰，我越要相信自己的眼睛”这个道理。

4. 实验结果：真的管用吗？

作者在两个完全不同的领域测试了这个方法：

医疗领域（I-CONECT 数据集）：检测老年人是否有轻度认知障碍。
- 结果：在“学校科目”这个主题的视频测试中，准确率达到了 94.87%。这比那些不看画质、直接硬猜的模型高出了一大截。
监控领域（冰球打架数据集）：检测冰球比赛中有没有打架。
- 结果：准确率高达 98.6%。哪怕视频里动作很快、画面很糊，模型也能通过“质检员”的辅助，精准识别出打架动作。

5. 总结：给 AI 戴上一副“智能眼镜”

简单来说，这篇论文的核心贡献是：

不再盲目：让 AI 在分析视频前，先学会评估视频的质量。
自我进化：在没有人工标注画质分数的情况下，让 AI 自己学会怎么打分，并把这个能力用到正事（分类）上。
双重保险：通过“质检员”和“分类员”的互相配合，解决了数据不平衡和画质差的问题。

一句话比喻：
以前的 AI 像个近视眼，不管视频清不清楚都硬猜；现在的 SSL-V3 像个戴了智能眼镜的专家，先看一眼眼镜（画质评估），如果眼镜清晰就大胆判断，如果眼镜模糊就小心求证，甚至能根据判断结果反过来把眼镜擦得更亮。这让它在各种复杂的现实场景中（无论是看病还是看监控）都变得超级靠谱。

Each language version is independently generated for its own context, not a direct translation.

以下是基于论文《Contrastive Learning-based Video Quality Assessment-jointed Video Vision Transformer for Video Recognition》（基于对比学习的视频质量评估联合视频视觉 Transformer 用于视频识别）的详细技术总结：

1. 研究背景与问题 (Problem)

核心痛点：视频分类任务（如轻度认知障碍 MCI 检测、暴力行为检测）的性能严重受视频质量（清晰度、模糊度等）的影响。高质量视频能带来高准确率，而低质量（模糊、噪声）视频会导致模型性能显著下降。
现有挑战：
1. 标签缺失：现有的视频数据集通常缺乏“视频质量评分”（Video Quality Score, VQS）的 Ground Truth（真值标签）。
2. 评估困难：传统的无参考视频质量评估（NR-VQA）依赖人工主观评分（MOS），成本高、耗时长，难以大规模应用。
3. 任务割裂：目前的视频分类模型往往忽略视频质量因素，导致在低质量数据上泛化能力差。
研究目标：提出一种机制，将视频质量评估（VQA）与视频分类任务有机结合，利用自监督学习解决 VQA 标签稀缺问题，从而提升分类模型的鲁棒性。

2. 方法论 (Methodology)

论文提出了 SSL-V3 模型，即基于自监督学习（SSL）的 ViViT（Video Vision Transformer）与无参考视频质量评估（NR-VQA）的联合框架。

2.1 核心架构：SSL-V3

模型基于 ViViT (Factorised Encoder) 作为骨干网络，提取时空特征。整体架构包含两个并行分支（上分支和下分支），共享权重，采用对比学习结构。

输入处理：上分支输入原始视频片段 $X_1$ ，下分支输入经过打乱（Shuffled）的 $X_1$ （ $X_2$ ）。
特征提取：ViViT 输出时空特征 $f_S$ 。
双任务头（Dual Heads）：
1. 分类头 (CLS Head)：使用多分支分类器（MC）进行视频分类。
2. VQA 头：用于回归视频质量评分。包含两个级联模块：
  - 序列评分回归器 (SSR)：对每个序列的时空特征进行加权求和，生成序列级质量分（SQS）。
  - 视频评分回归器 (VSR)：基于序列评分，通过三个通道（时序运动效应、综合评分、时序滞后效应）融合，生成最终的视频质量分（VQS）。

2.2 关键创新机制：Combined-SSL

为了解决 VQA 标签缺失问题，作者提出了 Combined-SSL 机制，将 VQA 作为“预训练任务（Pretext Task）”，分类作为“下游任务（Downstream Task）”，利用链式法则和对比学习实现联合优化。

Tune-CLS 模块：
- 利用 VQA 输出的视频质量分（VQS）作为权重因子，直接调整分类头的特征图。
- 逻辑：高质量视频的预测特征被放大（增加置信度），低质量视频的预测特征被抑制。
- 作用：VQS 成为连接 VQA 和分类任务的“交点”。
反向传播与链式法则：
- 由于分类任务有标签，而 VQA 没有，模型利用分类任务的梯度通过 VQS 反向传播到 VQA 模块。
- 公式逻辑： $\nabla \theta_{VQA} = \frac{\partial \text{Softmax}(CLS)}{\partial VQS} \times \frac{\partial VQS}{\partial \theta_{VQA}}$ 。
- 这使得 VQA 模块可以在没有直接标签的情况下，通过分类任务的监督信号进行自我优化。
对比学习 (Contrastive Learning)：
- 构建平行分支，计算两个分支输出特征之间的欧氏距离。
- 如果两个输入属于同一类别（正样本对），拉近特征距离；否则（负样本对）推远。
- 这增强了特征的区分度，并辅助解决了类内不平衡问题。

2.3 损失函数：CBS Loss

提出了 Combined Batch- and Subject-level Loss (CBS Loss)，包含三个部分：

Focal Loss (FL)：解决类别间（Inter-class）不平衡。
对比损失 (Contrastive Loss, CL)：解决批次内（Intra-class）不平衡，增强特征一致性。
二值交叉熵 (BCE)：在**Subject Level（受试者级别）**计算损失。由于同一受试者的多个视频片段应属于同一类别，该损失在 Epoch 的最后一个 Batch 计算，确保模型对每个受试者的整体预测一致性。

3. 主要贡献 (Key Contributions)

Combined-SSL 框架：理论创新，利用 VQA 任务与对比学习的互惠关系，在无 VQA 标签的情况下实现了客观的视频分类。
SSL-V3 模型：实现了基于 ViViT 和 NR-VQA 的联合模型，包含层级化的 VQA 回归头（SSR + VSR）。
Tune-CLS 机制：提出了一种无需额外全连接层的模块，利用质量评分动态校准分类特征。
CBS Loss 损失函数：同时优化 Batch 级别和 Subject 级别的损失，有效应对数据不平衡问题。
实证有效性：在医疗（I-CONECT 数据集）和安防（Hockey Fight 数据集）两个领域的真实噪声数据上验证了模型的有效性。

4. 实验结果 (Results)

实验在两个数据集上进行：

I-CONECT 数据集（轻度认知障碍 MCI 检测）：
- 在"School Subjects"主题上，SSL-V3 达到了 94.87% 的准确率，显著优于其他模型（如纯文本模型 79.15%，纯视频模型 90.63%）。
- 引入 VQA 后，相比不使用 VQA 的 SSL-V3 版本，准确率提升了约 7%。
- 消融实验证明，VQA 头、对比结构和 CBS Loss 缺一不可。
Hockey Fight Detection 数据集（暴力检测）：
- 在低质量、快速运动的模糊视频场景下，SSL-V3 达到了 98.6% 的平均准确率（标准差 0.8%）。
- 性能与当前最先进模型（SepConvLSTM-C, 99.5%）相当，且证明了在低质量数据上的鲁棒性。

消融研究结论：

VQA 头：引入 VQA 头比单独使用 SSR 或 VSR 效果更好，证明了层级回归的必要性。
对比结构：移除对比学习会导致准确率大幅下降（约 12.5% 的跌幅），证明其对特征区分至关重要。
损失函数：CBS Loss 优于单一损失或组合损失，特别是 Subject-level 损失对提升整体预测一致性非常关键。

5. 意义与影响 (Significance)

解决标签稀缺：提供了一种无需人工标注视频质量评分即可进行高质量视频质量评估和分类的新范式，降低了数据标注成本。
提升鲁棒性：证明了在视频分类中显式建模“视频质量”的重要性，特别是在医疗诊断和监控等对数据质量敏感的实际应用场景中。
自监督新路径：展示了如何将无标签的回归任务（VQA）与有标签的分类任务通过自监督机制（链式法则 + 对比学习）深度融合，为多任务学习提供了新的思路。
实际应用价值：模型在 I-CONECT 和 Hockey Fight 数据集上的成功，表明其具有在真实世界噪声视频流中进行实时、可靠分类的潜力。

6. 局限与未来工作

非完全多任务模型：由于缺乏 VQA 真值标签，无法使用 Spearman 或 Pearson 系数直接评估 VQA 模块的绝对回归精度。
过拟合风险：在小样本或短片段数据集上可能存在过拟合。
未来方向：计划在拥有质量评分标签的公开数据集上验证；探索结合生成模型进行视频去噪，直接生成高质量视频后再进行分类。