Each language version is independently generated for its own context, not a direct translation.
这篇论文讲述了 HSEmotion 团队在第 10 届 ABAW 竞赛(一个关于“在真实世界中分析人类情感和行为”的顶级比赛)中的表现。
简单来说,他们的目标是让计算机像人一样,通过看视频来理解人的表情、情绪强度、面部微动作,甚至能识别出视频里有没有暴力行为。
为了让你更容易理解,我们可以把这项技术想象成**“训练一个超级聪明的视频观察员”**。以下是他们如何做到这一点的通俗解释:
1. 核心任务:观察员要学什么?
比赛给了观察员四个主要任务:
- 表情识别 (FER): 看到一个人,判断他是开心、生气还是难过。
- 情绪强度 (VA): 判断这个人的情绪有多“高涨”(兴奋度)和有多“积极/消极”(愉悦度)。
- 面部动作检测 (AU): 捕捉极其细微的肌肉变化,比如“眉毛挑了一下”或“嘴角动了”,就像法医分析微表情。
- 暴力检测 (VD): 判断视频里有没有打架或暴力行为。
2. 他们的“独门秘籍”:聪明的“双保险”策略
对于前三个任务(表情、情绪、微动作),他们设计了一个非常聪明的流程,我们可以把它比作**“老专家 + 新手助手”**的搭档模式:
第一步:老专家快速扫描(预训练模型)
他们先请了一位在海量照片上训练过的“老专家”(基于 EfficientNet 的模型)。这位老专家看视频的每一帧,能迅速提取出面部特征(就像给脸拍了一张“情感指纹”)。
- 如果老专家非常有把握(比如它说“这绝对是大笑”,且信心超过 90%),那就直接听它的,不用麻烦别人。
- 如果老专家拿不准(比如光线太暗,或者表情很模糊),它就退居二线,把提取到的“指纹”交给下面的助手。
第二步:新手助手精修(MLP 分类器)
这个助手是一个专门针对比赛数据(AffWild2)训练过的简单神经网络。它接收老专家的“指纹”,结合比赛数据的特殊性进行修正。
- 解决“偏科”问题: 就像学校里“开心”的学生很多,“恐惧”的学生很少,导致模型容易忽略少数派。他们使用了一种叫**GLA(广义对数调整)**的技术,相当于给少数派(如恐惧、厌恶)加了“加权分”,让模型不再忽视它们。
第三步:平滑处理(去噪)
视频是一帧一帧的,有时候老专家或助手会“犯迷糊”,比如上一秒说“笑”,下一秒突然说“哭”。为了解决这种抖动,他们加了一个**“滑动窗口”**。
- 比喻: 就像看一场电影,如果中间有一帧画面闪烁了一下,我们会忽略它,认为那是噪点,而看整体趋势。他们把连续几帧的结果平均一下,让情绪变化看起来更自然、更连贯。
第四步:听音辨位(多模态融合)
除了看脸,他们还让观察员**“听”**声音(使用 wav2vec 技术)。有时候人嘴上说着“没事”,但声音在颤抖。他们把“看”和“听”的结果结合起来,做出最终判断。
3. 暴力检测:换个角度看世界
对于暴力检测任务,因为暴力往往涉及全身动作(比如挥拳、推搡),光看脸是不够的。
- 他们换了一套装备:使用ConvNeXt-T(一种强大的图像识别骨干)来提取每一帧的全身特征。
- 然后,他们像看连续剧一样,用TCN(时间卷积网络)或BiLSTM来分析这些帧之间的时间关系,捕捉动作的连贯性。
- 进阶版: 他们还尝试了**“骨架追踪”**,就像在视频里给每个人画一个火柴人骨架,分析骨架的运动轨迹。虽然这很酷,但实验发现,单纯靠强大的图像识别(RGB)配合简单的时间分析,效果就已经非常好了。
4. 为什么他们赢了?(结果与意义)
- 简单即正义: 很多竞争对手使用了极其复杂的巨型模型(像大怪兽一样),计算量巨大。而 HSEmotion 团队的方法更像是一个**“轻量级特种兵”**:核心模型很轻,但通过“老专家把关 + 助手修正 + 平滑去噪”的组合拳,效果却出奇的好。
- 数据说话: 在四个任务中,他们的表现都显著超过了比赛设定的基准线(Baseline),甚至在某些指标上超过了往年其他参赛者的最好成绩。
- 实用性强: 他们特别强调,这套系统不仅准确,而且计算速度快,不需要超级计算机也能跑,非常适合用在手机、监控摄像头等实际场景中。
总结
这就好比他们并没有造一个全知全能的“超级大脑”,而是组建了一个分工明确、互相补位的“观察小组”:
- 有一个经验丰富的老手负责快速判断;
- 有一个细心严谨的助手负责处理模糊情况和纠正偏差;
- 有一个平滑器负责把结果理顺,不让情绪忽上忽下;
- 最后,他们甚至兼听则明,把声音也考虑进去。
这种务实、高效且聪明的策略,让他们在充满挑战的“真实世界”情感分析比赛中脱颖而出。
Each language version is independently generated for its own context, not a direct translation.
HSEmotion 团队在 ABAW-10 竞赛中的技术总结
本文介绍了 HSEmotion 团队在第十届“野外情感行为分析”(ABAW-10)竞赛中的研究成果。该团队在四个核心任务中取得了显著进展:逐帧面部表情识别(EXPR)、效价 - 唤醒度估计(VA)、动作单元检测(AU)以及细粒度暴力检测(VD)。
以下是该论文的详细技术总结:
1. 研究问题与挑战
ABAW 竞赛旨在解决非受控环境(In-the-Wild)下的人类情感与行为分析难题。主要挑战包括:
- 数据特性:情感信号微妙且短暂,存在遮挡、姿态和光照变化、领域偏移以及标注噪声。
- 任务复杂性:
- EXPR/VA/AU:需要处理逐帧的面部情感理解,面临严重的类别不平衡(如某些表情样本极少)和标注噪声。
- 暴力检测(VD):需要分析完整视频帧以捕捉肢体运动、人物交互和场景上下文,属于细粒度行为理解任务。
- 实际需求:应用端要求算法计算高效、对类别不平衡鲁棒,并能提供时间上一致的输出。
2. 方法论 (Proposed Approach)
团队提出了一套轻量级、校准感知(Calibration-aware)的流水线,核心思想是结合预训练模型的高置信度预测与针对特定数据集微调的分类器。
2.1 面部情感分析任务 (EXPR, VA, AU)
针对基于 AffWild2 数据集的三项任务,团队采用了统一的框架(如图 1 所示):
- 特征提取:使用在 AffectNet 数据集上预训练的轻量级模型(如 EfficientNet, DDAMFN, MobileViT 等,来自 EmotiEffLib 库)提取面部嵌入(Embeddings)。
- 混合预测策略:
- 高置信度过滤:首先使用预训练模型进行预测。如果其输出概率超过阈值(p0≈0.8−0.9),且类别有效,则直接使用该预测结果。
- MLP 微调:若置信度不足,则将提取的嵌入输入到一个简单的多层感知机(MLP)中。该 MLP 在 AffWild2 数据集上训练,用于学习特定领域的分布。
- 类别不平衡处理:
- 引入 GLA (Generalized Logit Adjustment) 技术,在验证集上搜索最优偏置(Biases),以校正预训练模型在 AffWild2 上的类别偏差,优化 F1 分数。
- 在 AU 检测中,对正类样本使用加权损失函数。
- 时间平滑:使用固定大小的滑动窗口对逐帧预测概率进行平滑处理,以消除帧间噪声,提高时间一致性。
- 多模态融合:
- 提取 wav2vec 2.0 音频特征。
- 通过加权融合(Blending)将音频 MLP 输出与面部 MLP 输出结合。
2.2 细粒度暴力检测 (VD)
针对 DVD 数据集的暴力检测任务,团队采用了不同的架构:
- 骨干网络:比较了多种 2D 和 3D 骨干网络。最佳单流模型采用 ConvNeXt-T(在 ImageNet-1K 上预训练)提取每帧 768 维特征。
- 时序建模:
- 单流最佳:ConvNeXt-T 后接 5 层空洞 TCN (Temporal Convolutional Network)。
- 多模态变体:结合 MediaPipe Pose 提取的骨架特征(关键点坐标、速度、交互距离),通过交叉注意力机制(Cross-Attention)与 RGB 特征融合,后接 BiLSTM。
- 训练策略:使用加权交叉熵损失(暴力类权重 1.15)处理类别不平衡,采用 OneCycleLR 调度器和 TrivialAugmentWide 数据增强。
3. 关键贡献 (Key Contributions)
- 高效且鲁棒的流水线设计:提出了一种结合“预训练模型高置信度直接推理”与“轻量级 MLP 微调”的混合策略。这种方法既利用了大规模预训练数据的泛化能力,又解决了特定数据集(AffWild2)的分布偏移问题。
- GLA 校准技术:在面部情感识别中系统性地应用了广义对数调整(GLA),有效缓解了 AffWild2 数据集中严重的表情类别不平衡问题,显著提升了 F1 分数。
- 性能与效率的平衡:
- 在 EXPR、VA 和 AU 任务中,证明了简单的 MLP + 平滑策略配合强预训练编码器,性能可媲美甚至超越复杂的时序 Transformer 或 TCN 融合架构,且计算成本更低。
- 在暴力检测中,发现强 2D 骨干(ConvNeXt-T)+ 轻量时序头(TCN)的表现优于复杂的 3D 视频骨干网络(如 SlowFast, R(2+1)D)。
- 工程实践改进:团队从 TensorFlow 2.x 全面迁移至 PyTorch 框架,提供了可复现的开源代码,降低了研究门槛。
4. 实验结果 (Experimental Results)
团队在 ABAW-10 的四个任务验证集上均取得了优异表现,显著优于基线模型:
- 面部表情识别 (EXPR):
- 最终方案(EmotiEffNet + GLA + 过滤 + 平滑 + 音频融合)在验证集上达到 47.40% 的宏平均 F1 分数 和 57.98% 的准确率。
- 相比 ABAW-9 的基线(VGGFACE, 25.0% F1)有巨大提升,也优于许多复杂的 CLIP 或 Transformer 融合方法。
- 效价 - 唤醒度估计 (VA):
- 使用 MT-DDAMFN 预训练模型 + MLP + 平滑,达到 CCC V = 0.510 和 CCC A = 0.615,平均 CCC 为 0.562。
- 显著优于 ResNet-50 基线(0.22)和纯音频模型。
- 动作单元检测 (AU):
- 结合 Embedding 和 Logits 的混合策略,配合平滑和阈值调整,达到 54.7% 的宏平均 F1 分数。
- 虽然略低于部分顶级融合方案(~58%),但大幅超越了简单基线(39.0%),且模型更轻量。
- 细粒度暴力检测 (VD):
- ConvNeXt-T + TCN 架构在 DVD 验证集上达到 0.783 的宏平均 F1 分数。
- 相比 ABAW-9 的基线(ResNet-50 + BiLSTM, 0.640)提升了超过 0.14,证明了 2D 骨干 + 轻量时序模型的有效性。
5. 意义与结论
该论文展示了一种务实(Pragmatic)的解决方案,证明了在野外情感分析任务中,并不一定需要极其复杂的深度学习架构。通过精心设计的特征提取、类别不平衡校正(GLA)、置信度过滤以及时间平滑,轻量级系统可以在保持高计算效率的同时,达到甚至超越复杂模型的性能。
这一成果对于将情感计算技术部署到实际应用场景(如人机交互、心理健康监测、内容审核)具有重要的指导意义,特别是在资源受限或对实时性要求高的场景中。团队开源的代码也为后续研究提供了坚实的基础。