Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach

本文介绍了 Team LEYA 在第十届 ABAW 竞赛中提出的一种融合场景、人脸、音频和文本四种模态的 ambivalence/hesitancy(犹豫/矛盾)识别方法,通过引入 Mamba 时序编码器和原型增强融合策略,在 BAH 语料库上实现了显著优于单模态基线的性能,最终测试集 MF1 达到 71.43%。

Elena Ryumina, Alexandr Axyonov, Dmitry Sysoev, Timur Abdulkadirov, Kirill Almetov, Yulia Morozova, Dmitry Ryumin

发布于 2026-03-16
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个名为 Team LEYA 的研究团队,如何像“超级侦探”一样,通过观察视频中的各种细节,来判断一个人是否处于犹豫不决内心矛盾(Ambivalence/Hesitancy)的状态。

为了让你更容易理解,我们可以把这项技术想象成**“破案”**,而他们的目标就是找出视频中那个“心里打鼓、拿不定主意”的人。

以下是用通俗语言和生动比喻对这篇论文的解读:

1. 任务背景:我们要找什么样的“嫌疑人”?

在现实生活中,当一个人真正下定决心做某事时,通常言行一致,干脆利落。但当他们犹豫矛盾时,身体会发出很多微妙的信号:

  • 嘴上说:“我想吃早饭。”
  • 语气里:带着迟疑和不确定。
  • 表情上:眉头微皱,眼神飘忽。
  • 动作上:坐立不安,或者背景环境显得杂乱无章。

这项比赛(ABAW 第 10 届)的任务就是:给电脑看一段视频,让它判断这个人**“心里有没有在打架”**(即是否存在犹豫/矛盾)。这很难,因为这种状态不像“大笑”或“大哭”那么明显,它藏在细节里。

2. 核心策略:组建“四人侦探团”

Team LEYA 没有只靠一种线索,而是组建了一个**“四人侦探团”**,每个人负责一个不同的领域,最后大家把线索拼凑起来。

👮‍♂️ 侦探 A:场景观察员 (Scene)

  • 负责什么:不看人脸,只看背景和环境
  • 比喻:就像看一个人是在嘈杂的菜市场还是在安静的图书馆,环境能暗示人的状态。
  • 技术:他们用一个叫 VideoMAE 的 AI 模型,像看连续剧一样,把视频切成 16 帧的小片段,分析画面的动态变化。如果背景里的人或物在晃动、混乱,可能暗示着内心的不安。

👮‍♀️ 侦探 B:微表情专家 (Face)

  • 负责什么:盯着人的脸看。
  • 比喻:就像福尔摩斯观察微表情。哪怕人嘴上在笑,如果眉毛微微抽动,可能心里在纠结。
  • 技术:他们提取每一帧脸部的表情,然后用一种叫**“统计池化”**的方法(就像把几百个表情数据算出平均值和波动范围),把这些碎片化的表情汇总成一个“情绪报告”。

👮‍♂️ 侦探 C:声音分析师 (Audio)

  • 负责什么:只听声音的起伏和语调
  • 比喻:犹豫的人说话往往吞吞吐吐、音调不稳,或者在关键地方停顿。
  • 技术:他们先用 Wav2Vec2.0 提取声音特征,然后用一个叫 Mamba 的“时间序列编码器”来听声音的前后逻辑。这就像听一个人说话的节奏,是像机关枪一样快,还是像蜗牛一样慢吞吞。

👮‍♀️ 侦探 D:语言翻译官 (Text)

  • 负责什么:分析说话的内容
  • 比喻:这是最强的侦探。因为犹豫的人,说话内容往往充满“但是”、“也许”、“可能”、“我想……"这类模棱两可的词。
  • 技术:他们把语音转成文字,用 EmotionDistilRoBERTa(一种懂情感的大语言模型)来理解文字背后的含义。研究发现,文字线索往往是最准的

3. 终极审判:如何把线索拼起来?

有了四个侦探的报告,怎么下结论呢?

  • 普通做法:把四个人的报告简单加在一起,投个票。
  • Team LEYA 的做法(原型增强融合)
    他们设计了一个**“超级法官”(Transformer 融合模型)。这个法官不仅看四个侦探的报告,还引入了一个“原型库”**(Prototype)。
    • 比喻:想象法官脑子里有两个“标准模板”:一个是**“坚定果断模板”,一个是“犹豫不决模板”**。
    • 当四个侦探的线索汇总后,法官会计算这些线索离哪个模板更近。如果离“犹豫模板”更近,就判为“犹豫”。
    • 这种方法能让模型更聪明地处理那些模棱两可的线索,防止被某个单一的错误线索带偏。

4. 比赛成绩:谁赢了?

  • 单打独斗:如果只让一个侦探(比如只看文字)工作,准确率大概是 70%
  • 团队合作:当四个侦探一起工作,并且用“超级法官”整合线索时,准确率飙升到了 83%(在开发集上)。
  • 最终大招:为了稳操胜券,他们最后派出了 5 个这样的“超级法官”团队,让他们一起投票,取平均值。这就像让 5 个专家会诊,结果更可靠。
  • 最终得分:在最终的盲测中,他们的团队拿到了 71.43% 的准确率,成为了赢家。

5. 总结:这篇论文告诉我们什么?

  1. 人多力量大:要判断一个人是否犹豫,不能只看脸或只听声音,必须眼、耳、口、环境全方位观察。
  2. 文字是关键:在犹豫这种心理状态下,“说什么”往往比“怎么说”更重要
  3. 组合拳最厉害:把不同的线索(场景、脸、声音、文字)通过高级的算法(原型增强)结合起来,比单独使用任何一种方法都要强得多。

一句话总结
Team LEYA 就像训练了一支由场景、表情、声音、文字四位专家组成的超级侦探队,他们通过互相配合和“标准模板”比对,成功识破了人类最难以捉摸的**“内心纠结”**时刻。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →