Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个名为 Team LEYA 的研究团队，如何像“超级侦探”一样，通过观察视频中的各种细节，来判断一个人是否处于犹豫不决或内心矛盾（Ambivalence/Hesitancy）的状态。

为了让你更容易理解，我们可以把这项技术想象成**“破案”**，而他们的目标就是找出视频中那个“心里打鼓、拿不定主意”的人。

以下是用通俗语言和生动比喻对这篇论文的解读：

1. 任务背景：我们要找什么样的“嫌疑人”？

在现实生活中，当一个人真正下定决心做某事时，通常言行一致，干脆利落。但当他们犹豫或矛盾时，身体会发出很多微妙的信号：

嘴上说：“我想吃早饭。”
语气里：带着迟疑和不确定。
表情上：眉头微皱，眼神飘忽。
动作上：坐立不安，或者背景环境显得杂乱无章。

这项比赛（ABAW 第 10 届）的任务就是：给电脑看一段视频，让它判断这个人**“心里有没有在打架”**（即是否存在犹豫/矛盾）。这很难，因为这种状态不像“大笑”或“大哭”那么明显，它藏在细节里。

2. 核心策略：组建“四人侦探团”

Team LEYA 没有只靠一种线索，而是组建了一个**“四人侦探团”**，每个人负责一个不同的领域，最后大家把线索拼凑起来。

👮‍♂️ 侦探 A：场景观察员 (Scene)

负责什么：不看人脸，只看背景和环境。
比喻：就像看一个人是在嘈杂的菜市场还是在安静的图书馆，环境能暗示人的状态。
技术：他们用一个叫 VideoMAE 的 AI 模型，像看连续剧一样，把视频切成 16 帧的小片段，分析画面的动态变化。如果背景里的人或物在晃动、混乱，可能暗示着内心的不安。

👮‍♀️ 侦探 B：微表情专家 (Face)

负责什么：盯着人的脸看。
比喻：就像福尔摩斯观察微表情。哪怕人嘴上在笑，如果眉毛微微抽动，可能心里在纠结。
技术：他们提取每一帧脸部的表情，然后用一种叫**“统计池化”**的方法（就像把几百个表情数据算出平均值和波动范围），把这些碎片化的表情汇总成一个“情绪报告”。

👮‍♂️ 侦探 C：声音分析师 (Audio)

负责什么：只听声音的起伏和语调。
比喻：犹豫的人说话往往吞吞吐吐、音调不稳，或者在关键地方停顿。
技术：他们先用 Wav2Vec2.0 提取声音特征，然后用一个叫 Mamba 的“时间序列编码器”来听声音的前后逻辑。这就像听一个人说话的节奏，是像机关枪一样快，还是像蜗牛一样慢吞吞。

👮‍♀️ 侦探 D：语言翻译官 (Text)

负责什么：分析说话的内容。
比喻：这是最强的侦探。因为犹豫的人，说话内容往往充满“但是”、“也许”、“可能”、“我想……"这类模棱两可的词。
技术：他们把语音转成文字，用 EmotionDistilRoBERTa（一种懂情感的大语言模型）来理解文字背后的含义。研究发现，文字线索往往是最准的。

3. 终极审判：如何把线索拼起来？

有了四个侦探的报告，怎么下结论呢？

普通做法：把四个人的报告简单加在一起，投个票。
Team LEYA 的做法（原型增强融合）：
他们设计了一个**“超级法官”（Transformer 融合模型）。这个法官不仅看四个侦探的报告，还引入了一个“原型库”**（Prototype）。
- 比喻：想象法官脑子里有两个“标准模板”：一个是**“坚定果断模板”，一个是“犹豫不决模板”**。
- 当四个侦探的线索汇总后，法官会计算这些线索离哪个模板更近。如果离“犹豫模板”更近，就判为“犹豫”。
- 这种方法能让模型更聪明地处理那些模棱两可的线索，防止被某个单一的错误线索带偏。

4. 比赛成绩：谁赢了？

单打独斗：如果只让一个侦探（比如只看文字）工作，准确率大概是 70%。
团队合作：当四个侦探一起工作，并且用“超级法官”整合线索时，准确率飙升到了 83%（在开发集上）。
最终大招：为了稳操胜券，他们最后派出了 5 个这样的“超级法官”团队，让他们一起投票，取平均值。这就像让 5 个专家会诊，结果更可靠。
最终得分：在最终的盲测中，他们的团队拿到了 71.43% 的准确率，成为了赢家。

5. 总结：这篇论文告诉我们什么？

人多力量大：要判断一个人是否犹豫，不能只看脸或只听声音，必须眼、耳、口、环境全方位观察。
文字是关键：在犹豫这种心理状态下，“说什么”往往比“怎么说”更重要。
组合拳最厉害：把不同的线索（场景、脸、声音、文字）通过高级的算法（原型增强）结合起来，比单独使用任何一种方法都要强得多。

一句话总结：
Team LEYA 就像训练了一支由场景、表情、声音、文字四位专家组成的超级侦探队，他们通过互相配合和“标准模板”比对，成功识破了人类最难以捉摸的**“内心纠结”**时刻。

Each language version is independently generated for its own context, not a direct translation.

以下是基于论文《Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach》的详细技术总结：

1. 研究问题 (Problem)

本文针对的是第 10 届 ABAW（Wild Affective & Behavior Analysis）竞赛中的模态歧义/犹豫（Ambivalence/Hesitancy, A/H）视频识别挑战。

核心任务：在不受约束的视频中，在视频级别（video-level）判断该视频是否包含“犹豫”或“矛盾”的状态（二分类问题）。
难点：A/H 状态具有微妙性、多模态性和对上下文的高度依赖性。它通常表现为模态间的不一致（例如：言语内容、语调、面部表情之间的冲突），而非单一模态的明显特征。这使得传统的单模态方法难以有效捕捉。

2. 方法论 (Methodology)

团队提出了一种多模态融合框架，整合了四种互补的模态：场景（Scene）、人脸（Face）、音频（Audio）和文本（Text）。整体流程分为单模态特征提取和多模态融合两个阶段。

2.1 单模态特征提取 (Unimodal Feature Extraction)

场景模态 (Scene)：
- 使用基于 VideoMAE（Video Masked Autoencoder）的模型。
- 输入：均匀采样的 16 帧视频，调整为 224x224。
- 处理：通过管状嵌入（tubelet embedding）和时空自注意力机制建模，最后通过全局平均池化得到场景嵌入。
人脸模态 (Face)：
- 使用 YOLO 进行人脸检测，选取最大边界框。
- 特征提取：使用在 AffectNet+ 语料库上微调的 EmotionEfficientNetB0 提取每帧的情感嵌入。
- 聚合：对帧级嵌入进行统计池化（计算均值 $\mu$ 和标准差 $\sigma$ ），拼接后输入 MLP 进行分类。
音频模态 (Audio)：
- 特征提取：使用在 MSP-Podcast 语料库上微调的 EmotionWav2Vec2.0 提取声学情感特征。
- 时序建模：使用 Mamba（一种基于状态空间模型的序列编码器）处理时序依赖，随后进行均值池化得到紧凑的音频嵌入。
文本模态 (Text)：
- 输入：自动转录的语音文本。
- 模型：主要使用在情感数据上微调的 EmotionDistilRoBERTa 进行端到端微调。
- 输出：通过 MLP 分类头生成预测。

2.2 多模态融合 (Multimodal Fusion)

融合架构：
- 各模态的嵌入首先被投影到共享的潜在空间。
- 使用基于 Transformer 的融合模块处理模态 Token。
- 引入**模态掩码（Modality Mask）**以处理缺失模态的情况。
原型增强机制 (Prototype-Augmented)：
- 这是该方法的创新点之一。在融合表示的基础上，引入可学习的类特定原型（Prototypes）。
- 计算融合表示与原型之间的相似度得分，作为辅助损失项（Auxiliary Loss）参与训练，以增强分类边界和鲁棒性。
- 总损失函数 = 主分类损失 + 原型辅助损失 + 原型多样性正则化。
集成策略 (Ensemble)：
- 为了减少随机初始化的敏感性，最终系统由5 个基于不同随机种子训练的“原型增强融合模型”组成，通过平均概率输出最终结果。

3. 关键贡献 (Key Contributions)

引入场景模态：不同于以往主要关注人脸、音频和文本的研究，本文首次将**场景动态（Scene Dynamics）**纳入 A/H 识别框架，利用 VideoMAE 捕捉环境上下文对犹豫状态的影响。
先进的时序与融合架构：
- 在音频处理中采用了较新的 Mamba 架构替代传统的 LSTM/Transformer。
- 设计了**原型增强（Prototype-Augmented）**的多模态融合策略，通过辅助损失函数提升了模型对模态间不一致性的建模能力。
系统性的消融实验：详细验证了不同模态组合（2 模态、3 模态、4 模态）的效果，证明了多模态互补性的重要性。

4. 实验结果 (Results)

实验基于 BAH 语料库（包含 1427 个视频，300 名参与者），评估指标为宏平均 F1 分数（MF1）。

单模态表现：
- 文本模态表现最强，微调后的 EmotionDistilRoBERTa 达到 70.02% 的平均 MF1。
- 音频模态（EmotionWav2Vec2.0 + Mamba）达到 69.03%。
- 人脸和场景模态表现较弱（约 62-63%），印证了 A/H 识别中文本线索的主导地位。
多模态融合表现：
- 所有融合模型均显著优于单模态基线。
- 开发/验证集：原型增强融合模型（4 模态）达到 83.25% 的平均 MF1，显著高于无原型版本（82.66%）。
- 最终测试集（Private Test）：
  - 单个融合模型表现下降（约 65-68%）。
  - 集成模型（Ensemble of 5） 表现最佳，最终测试 MF1 达到 71.43%。
消融分析：
- 最佳的双模态组合是“场景 + 文本”（80.39%）。
- 最佳三模态组合是“人脸 + 场景 + 文本”（78.77%）。
- 四模态融合提供了最全面的解决方案。

5. 意义与结论 (Significance & Conclusion)

互补性验证：研究证实，尽管文本是 A/H 识别的最强单模态线索，但结合场景、人脸和音频的多模态融合能显著提升性能，特别是在处理模态间不一致性时。
鲁棒性策略：原型增强机制和模型集成（Ensemble）对于提高模型在未见数据（Private Test）上的泛化能力和鲁棒性至关重要。
应用价值：该方法为数字行为健康干预（如识别用户改变行为的意愿、犹豫或放弃风险）提供了强有力的技术工具，能够更准确地捕捉人类在决策过程中的微妙心理状态。
开源：团队已公开源代码，促进了该领域的后续研究。

总结：Team LEYA 通过构建一个包含场景、人脸、音频和文本的四模态系统，结合 VideoMAE、Mamba 和原型增强融合策略，在 ABAW 10 竞赛中取得了优异成绩，证明了复杂多模态融合与集成学习在解决微妙情感识别问题上的有效性。