Each language version is independently generated for its own context, not a direct translation.
这篇论文介绍了一个名为"Team RAS"的团队,他们在第 10 届"ABAW"(野外情感行为分析)比赛中,开发了一套**“读心术”系统**。
简单来说,这个系统的任务是:看着一段视频,猜出里面的人此刻是开心还是难过(效价),以及情绪有多激动(唤醒度)。
这就好比你在看一部没有字幕的默片,你需要通过演员的脸、动作和声音,来精准地判断他们内心戏的“温度”和“强度”。
为了做到这一点,他们设计了一个**“三人专家小组”**,每个人负责不同的感官,最后大家坐下来开会,共同做出判断。
1. 三位“专家”的分工
想象一下,这个系统由三位性格迥异的侦探组成:
👀 视觉侦探(面部专家):
- 任务: 盯着人的脸看。
- 绝招: 它使用了一种叫 GRADA 的“超级显微镜”,能捕捉到脸上最细微的表情变化(比如嘴角微微上扬或眉毛紧锁)。
- 时间感: 它还有一个 Transformer 大脑,能记住表情是如何随时间流动的,不会只看一眼就下结论,而是看整个表情变化的过程。
🎭 行为侦探(动作与语境专家):
- 任务: 观察人的肢体语言、手势、姿势,甚至看看周围的环境。
- 绝招: 这是他们最创新的地方!他们请来了一个AI 大模型(Qwen3-VL) 扮演“行为分析师”。
- 怎么工作: 就像你给一个人类专家看一段视频,然后问:“这个人现在感觉怎么样?他在做什么?”这个 AI 会写出一段描述(比如:“他皱着眉头,身体前倾,看起来非常焦虑”)。系统把这些文字描述转化成数学信号,用来辅助判断。
- 时间感: 它使用 Mamba 模型,这是一种非常高效的“记忆管家”,能很好地处理长视频中的情绪起伏。
🎧 听觉侦探(声音专家):
- 任务: 听声音,判断语气、语调和音量。
- 绝招: 使用 WavLM 模型来“听”懂声音里的情绪。
- 特别技能(去噪): 在野外(比如嘈杂的街道或咖啡馆),录音往往很乱。这个侦探有个“过滤器”,它会先看视频里的人嘴巴有没有动(用 MediaPipe 技术),如果嘴巴没动或者环境太吵,它就自动忽略那段声音,只保留真正有人在说话或发出情绪声音的片段,防止被噪音带偏。
2. 两位“会议主持人”(融合策略)
有了三个专家提供的信息,怎么把它们结合起来呢?论文提出了两种“开会”的方式:
🗣️ 策略一:定向交叉混合专家(DCMMOE)
- 比喻: 就像开一个**“圆桌会议”**。
- 怎么运作: 每个专家都可以向其他专家提问。比如,“面部专家”可以问“声音专家”:“刚才那个人脸红了,声音是不是也变大了?”系统会根据当前的情况,动态地决定听谁的意见更多。如果画面太模糊,它就多听声音的;如果声音太吵,它就多信画面的。这是一种**“谁靠谱听谁的”**智能投票机制。
🛡️ 策略二:可靠性感知视听融合(RAAV)
- 比喻: 就像**“主厨与助手”**。
- 怎么运作: 在这个模式下,画面(脸 + 动作)是主厨,负责决定每一帧画面的情绪基调,因为情绪变化太快,必须按帧来算。而声音是助手,它不直接决定每一帧,而是提供“背景上下文”(比如这一整段视频里,整体氛围是紧张还是轻松)。
- 优势: 这种分工非常明确,既保证了反应速度,又利用了声音的辅助信息。
3. 结果如何?
他们在著名的 Aff-Wild2 数据集上进行了测试(这是一个充满各种挑战的野外视频库,有各种光线、遮挡和角度)。
- 单打独斗: 如果只用脸、只用声音或只用动作描述,效果都不够完美。
- 团队合作: 当这三个专家加上两种“开会策略”一起工作时,效果突飞猛进。
- 最终成绩: 他们的系统在测试中达到了 0.658 的评分(满分 1 分,分数越高越准)。这比单独使用任何单一方法都要好得多,证明了**“三人行,必有我师”**的道理。
总结
这篇论文的核心思想就是:不要只靠眼睛或耳朵,要“眼观六路,耳听八方”,还要让 AI 学会像人类一样去“描述”和“理解”行为。
通过结合面部微表情、大模型对行为的文字描述以及经过筛选的语音,Team RAS 成功打造了一个更聪明、更抗干扰的情感识别系统。这就像给 AI 装上了一双能看穿人心的眼睛和一对能听懂弦外之音的耳朵。
Each language version is independently generated for its own context, not a direct translation.
论文技术总结:Team RAS 在第十届 ABAW 竞赛中的多模态效价与唤醒度估计方法
1. 研究背景与问题 (Problem)
连续情感识别(Continuous Emotion Recognition, CER) 是在自然场景(In-the-Wild, ITW)下估计人类情感的关键挑战。本文针对 第十届 ABAW(Affective Behavior Analysis in-the-Wild)竞赛 中的 效价(Valence) 和 唤醒度(Arousal, VA) 估计任务。
- 核心难点:自然场景下存在巨大的外观变化、头部姿态差异、光照条件复杂、遮挡以及个体情感表达模式的差异。
- 现有局限:虽然基于深度学习和 Transformer 的多模odal 模型已取得进展,但利用 视觉语言模型(VLM) 提取行为导向的表征来辅助 VA 预测的研究尚不充分。现有的多模态方法往往未能充分利用 VLM 在捕捉上下文和情境情感线索方面的潜力。
2. 方法论 (Methodology)
团队提出了一种结合 面部(Face)、行为(Behavior) 和 音频(Audio) 三种互补模态的多模态框架。整体流程如图 1 所示,包含三个独立的特征提取分支和两种融合策略。
2.1 模态特征提取
面部模态 (Face Modality):
- 检测与预处理:使用 YOLO 进行人脸检测,并通过人工身份梳理(Identity Curation)确保视频序列中只跟踪单一目标。图像调整为 240x240 并归一化。
- 特征提取:采用 GRADA 编码器(基于 EfficientNet-B1 架构,在大规模情感数据集上微调),提取帧级情感嵌入(256 维)。
- 时序建模:使用 Transformer 进行序列回归,处理重叠的时间窗口(400 帧窗口,150 帧步长),输出帧级 VA 估计。
行为模态 (Behavior Modality):
- 核心模型:利用多模态大模型 Qwen3-VL-4B-Instruct 提取行为相关的表征。
- 提示工程 (Prompting):设计专门的提示词,引导模型分析视频片段中的人物表情、姿态、手势、头部运动及场景上下文,输出关于效价和唤醒度的描述性嵌入。
- 提取设置:对比了纯视觉(Visual)和图文多模态(Multimodal)两种输入模式。
- 时序建模:使用 Mamba(状态空间模型)对视频片段级别的嵌入进行建模,捕捉短期情感波动和长程依赖。Mamba 模型将片段嵌入映射为连续的 VA 轨迹。
音频模态 (Audio Modality):
- 预处理与过滤:将音频切分为 4 秒片段(2 秒重叠)。利用 MediaPipe 提取的嘴部开合动态进行 跨模态过滤,剔除非语音或不可靠的片段,以应对 Aff-Wild2 数据集中的噪声问题。
- 特征提取:基于 WavLM-Large 预训练模型(在 MSP-Podcast 上微调)。仅微调顶层 4 层 Transformer 以适配任务并防止过拟合。
- 池化与回归:采用 注意力统计池化(Attention-Statistics Pooling) 聚合特征,通过回归头输出 VA 值。
2.2 多模态融合策略 (Fusion Strategies)
团队探索了两种融合策略:
定向跨模态混合专家融合 (Directed Cross-Modal MoE, DCMMOE):
- 将各模态投影到共享潜在空间。
- 构建所有模态对的 交叉注意力专家(Cross-Attention Experts),显式建模非对称的模态间交互(Query-Modality 与 Key/Value-Modality)。
- 引入可学习的 门控网络(Gating Network),根据信号质量自适应地为每个专家分配权重,实现动态融合。
可靠性感知音视频融合 (Reliability-Aware Audio-Visual, RAAV):
- 帧级融合:对面部和行为特征进行掩码感知的可靠性门控融合,生成视觉 Token。
- 音频辅助:将音频作为辅助上下文,通过少量可学习的瓶颈潜在表示(Bottleneck Latent Representations)引入。
- 非对称设计:视觉模态决定时间分辨率,音频提供窗口级的补充证据,最后通过轻量级 Transformer 进行帧级 VA 估计。
3. 关键贡献 (Key Contributions)
- 引入 VLM 进行行为表征:首次(在 ABAW 背景下)系统性地利用 Qwen3-VL 多模态大模型提取行为描述嵌入,证明了多模态 VLM 嵌入比纯视觉嵌入包含更丰富的情感信息。
- 创新的融合架构:提出了 DCMMOE 和 RAAV 两种融合策略。前者通过门控机制自适应处理模态不确定性,后者通过非对称设计有效结合了帧级视觉特征和窗口级音频上下文。
- 鲁棒的预处理流程:在音频处理中引入了基于视觉嘴部动态的跨模态过滤机制,显著提升了在嘈杂自然场景下的音频特征可靠性。
- Mamba 的应用:在行为模态的时序建模中成功应用了 Mamba 架构,展示了其在处理长序列情感依赖方面的有效性。
4. 实验结果 (Results)
实验在 Aff-Wild2 数据集上进行,遵循官方 10th ABAW 竞赛协议,评估指标为 一致性相关系数 (CCC)。
5. 意义与结论 (Significance)
- 性能竞争力:该方法在 Aff-Wild2 开发集上取得了 0.6576 的平均 CCC,在测试集上达到 0.62,证明了其具有与当前最先进(SOTA)方法竞争的能力。
- 范式创新:验证了将 视觉语言模型(VLM) 的行为理解能力引入传统情感计算任务的有效性,为未来的连续情感识别提供了新的思路(即利用大模型生成行为描述作为中间表征)。
- 鲁棒性提升:通过跨模态过滤和自适应门控机制,有效解决了自然场景下模态缺失、噪声大和时序对齐困难的问题。
综上所述,Team RAS 提出了一种高效、鲁棒且创新的 multimodal 框架,通过结合先进的视觉编码器、大语言模型的行为理解能力以及状态空间模型(Mamba),显著提升了自然场景下的连续情感估计性能。