HSEmotion Team at ABAW-10 Competition: Facial Expression Recognition, Valence-Arousal Estimation, Action Unit Detection and Fine-Grained Violence Classification

本文介绍了 HSEmotion 团队在第十届 ABAW 竞赛中提出的基于预训练 EfficientNet 模型提取面部嵌入并结合多层感知机与滑动窗口平滑策略的帧级情感分析方法,以及针对细粒度暴力检测的视频分类方案,实验表明该方法在四项任务上均显著优于现有基线。

Andrey V. Savchenko, Kseniia Tsypliakova

发布于 2026-03-16
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了 HSEmotion 团队在第 10 届 ABAW 竞赛(一个关于“在真实世界中分析人类情感和行为”的顶级比赛)中的表现。

简单来说,他们的目标是让计算机像人一样,通过看视频来理解人的表情、情绪强度、面部微动作,甚至能识别出视频里有没有暴力行为

为了让你更容易理解,我们可以把这项技术想象成**“训练一个超级聪明的视频观察员”**。以下是他们如何做到这一点的通俗解释:

1. 核心任务:观察员要学什么?

比赛给了观察员四个主要任务:

  • 表情识别 (FER): 看到一个人,判断他是开心、生气还是难过。
  • 情绪强度 (VA): 判断这个人的情绪有多“高涨”(兴奋度)和有多“积极/消极”(愉悦度)。
  • 面部动作检测 (AU): 捕捉极其细微的肌肉变化,比如“眉毛挑了一下”或“嘴角动了”,就像法医分析微表情。
  • 暴力检测 (VD): 判断视频里有没有打架或暴力行为。

2. 他们的“独门秘籍”:聪明的“双保险”策略

对于前三个任务(表情、情绪、微动作),他们设计了一个非常聪明的流程,我们可以把它比作**“老专家 + 新手助手”**的搭档模式:

  • 第一步:老专家快速扫描(预训练模型)
    他们先请了一位在海量照片上训练过的“老专家”(基于 EfficientNet 的模型)。这位老专家看视频的每一帧,能迅速提取出面部特征(就像给脸拍了一张“情感指纹”)。

    • 如果老专家非常有把握(比如它说“这绝对是大笑”,且信心超过 90%),那就直接听它的,不用麻烦别人。
    • 如果老专家拿不准(比如光线太暗,或者表情很模糊),它就退居二线,把提取到的“指纹”交给下面的助手。
  • 第二步:新手助手精修(MLP 分类器)
    这个助手是一个专门针对比赛数据(AffWild2)训练过的简单神经网络。它接收老专家的“指纹”,结合比赛数据的特殊性进行修正。

    • 解决“偏科”问题: 就像学校里“开心”的学生很多,“恐惧”的学生很少,导致模型容易忽略少数派。他们使用了一种叫**GLA(广义对数调整)**的技术,相当于给少数派(如恐惧、厌恶)加了“加权分”,让模型不再忽视它们。
  • 第三步:平滑处理(去噪)
    视频是一帧一帧的,有时候老专家或助手会“犯迷糊”,比如上一秒说“笑”,下一秒突然说“哭”。为了解决这种抖动,他们加了一个**“滑动窗口”**。

    • 比喻: 就像看一场电影,如果中间有一帧画面闪烁了一下,我们会忽略它,认为那是噪点,而看整体趋势。他们把连续几帧的结果平均一下,让情绪变化看起来更自然、更连贯。
  • 第四步:听音辨位(多模态融合)
    除了看脸,他们还让观察员**“听”**声音(使用 wav2vec 技术)。有时候人嘴上说着“没事”,但声音在颤抖。他们把“看”和“听”的结果结合起来,做出最终判断。

3. 暴力检测:换个角度看世界

对于暴力检测任务,因为暴力往往涉及全身动作(比如挥拳、推搡),光看脸是不够的。

  • 他们换了一套装备:使用ConvNeXt-T(一种强大的图像识别骨干)来提取每一帧的全身特征。
  • 然后,他们像看连续剧一样,用TCN(时间卷积网络)BiLSTM来分析这些帧之间的时间关系,捕捉动作的连贯性。
  • 进阶版: 他们还尝试了**“骨架追踪”**,就像在视频里给每个人画一个火柴人骨架,分析骨架的运动轨迹。虽然这很酷,但实验发现,单纯靠强大的图像识别(RGB)配合简单的时间分析,效果就已经非常好了。

4. 为什么他们赢了?(结果与意义)

  • 简单即正义: 很多竞争对手使用了极其复杂的巨型模型(像大怪兽一样),计算量巨大。而 HSEmotion 团队的方法更像是一个**“轻量级特种兵”**:核心模型很轻,但通过“老专家把关 + 助手修正 + 平滑去噪”的组合拳,效果却出奇的好。
  • 数据说话: 在四个任务中,他们的表现都显著超过了比赛设定的基准线(Baseline),甚至在某些指标上超过了往年其他参赛者的最好成绩。
  • 实用性强: 他们特别强调,这套系统不仅准确,而且计算速度快,不需要超级计算机也能跑,非常适合用在手机、监控摄像头等实际场景中。

总结

这就好比他们并没有造一个全知全能的“超级大脑”,而是组建了一个分工明确、互相补位的“观察小组”

  1. 有一个经验丰富的老手负责快速判断;
  2. 有一个细心严谨的助手负责处理模糊情况和纠正偏差;
  3. 有一个平滑器负责把结果理顺,不让情绪忽上忽下;
  4. 最后,他们甚至兼听则明,把声音也考虑进去。

这种务实、高效且聪明的策略,让他们在充满挑战的“真实世界”情感分析比赛中脱颖而出。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →