Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

该论文针对真实场景下的表情识别挑战,提出了一种结合安全交叉注意力机制与模态丢弃策略的鲁棒多模态 Transformer 框架,通过动态融合视听特征及优化长尾分布,在 Aff-Wild2 验证集上实现了 60.79% 的准确率和 0.5029 的 F1 分数。

Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个非常聪明的“读心术”系统,专门用来在混乱的现实生活中识别人的情绪。想象一下,你正在看一部电影,但有时候主角的脸被手挡住了,或者画面太黑看不清,甚至主角直接走出了镜头。这时候,普通的“读心”系统就会傻眼,但作者提出的这个新系统却能像一位经验丰富的老侦探一样,即使线索不全,也能猜出主角的心情。

下面我用几个生动的比喻来拆解这个系统的核心秘密:

1. 核心任务:在“大杂烩”里找情绪

现实世界不像摄影棚,光线忽明忽暗,人可能会转头、被遮挡,甚至突然消失。这个系统要做的,就是看着视频(视觉)和听着声音(听觉),判断人现在是生气、开心、悲伤还是惊讶。

  • 难点:数据里大部分是“开心”和“中性”的,像“恐惧”或“厌恶”这种情绪很少见(这叫长尾分布),而且经常有人脸被挡住(模态缺失)。

2. 系统的“大脑”架构:双耳双眼,互相补位

这个系统有两个“大脑分支”:

  • 左脑(视觉):像戴着一副超级眼镜(BEiT-large 模型),专门看人脸表情。
  • 右脑(听觉):像戴着一副超级耳机(WavLM-large 模型),专门听语气、语调。

关键创新:安全的“交叉注意力”机制(Safe Cross-Attention)
通常,如果眼镜坏了(脸被挡住),系统就瞎了。但这个系统有一个**“安全网”**:

  • 比喻:想象你在开车,突然大雾(视觉信号丢失)。普通的司机可能会急刹车或乱撞。但这个系统像一位老司机,当它发现“看不清路”时,会立刻把注意力完全转移到“听引擎声和导航”(听觉)上。
  • 技术实现:它设计了一种特殊的逻辑,如果检测到某段时间没脸了,它不会强行去猜,而是自动把“视觉”的权重降为零,完全依赖“听觉”来做决定。这就像在盲盒里,如果看不到盒子,就全靠摇一摇听声音来判断里面是什么。

3. 训练秘诀:故意“蒙眼”练功(Modality Dropout)

为了让系统学会在“看不见”的时候也能工作,作者在训练时故意搞破坏:

  • 比喻:就像教一个盲人钢琴家。教练在训练时,会随机把钢琴盖盖上(随机遮挡视觉输入),强迫学生必须靠听觉和肌肉记忆来弹琴。
  • 效果:这样练出来的系统,即使到了真实世界脸被挡住,也不会慌,因为它早就习惯了“没脸也能猜”的情况。

4. 解决“偏科”问题:给稀有情绪“开小灶”(Focal Loss)

现实数据里,大家大多时候是“中性”或“开心”的,很少人“愤怒”或“恐惧”。普通的系统会偷懒,只猜“中性”就能得高分,但这对识别稀有情绪没用。

  • 比喻:就像老师批改作业,如果大部分学生都考了 100 分(常见情绪),老师就会忽略那些考 60 分的学生(稀有情绪)。
  • 对策:作者用了一种叫Focal Loss的“惩罚机制”。它告诉系统:“别管那些容易猜对的常见情绪了,把精力集中在那些难猜的、少见的情绪上,猜对它们给双倍奖励!”这样系统就会努力去学习那些稀有的表情。

5. 平滑处理:像剪辑师一样“去抖动”(滑动窗口与软投票)

人的情绪是流动的,不会上一秒笑下一秒就哭。但视频是一帧一帧的,如果每一帧都单独判断,结果可能会像坏掉的信号灯一样乱闪(比如:笑 - 哭 - 笑 - 哭)。

  • 比喻:这就像剪辑电影。如果只看某一帧,可能主角刚好眨眼被误判为惊讶。但如果你把前后几十帧连起来看(滑动窗口),再综合大家的意见(软投票),就能看出主角其实是在“微笑”。
  • 效果:通过这种“ averaging(平均)”和“平滑滤波”,系统输出的情绪变化就像流畅的河流,而不是断断续续的瀑布,大大减少了误判。

总结:它厉害在哪里?

这个系统之所以在 ABAW 比赛中拿高分(准确率 60.79%),是因为它:

  1. 不挑食:既看脸也听声,谁有用听谁的。
  2. 抗造:脸被挡住了也能靠声音猜,不会死机。
  3. 公平:不只看常见情绪,也努力识别那些少见的情绪。
  4. 稳重:不会情绪大起大落,判断结果平滑自然。

简单来说,这就好比给机器人装上了一套**“既能看又能听,还能在瞎眼时靠耳朵猜,并且懂得照顾少数派情绪”的超级大脑**,让它真正能在混乱的现实生活中读懂人类的心情。