Team RAS in 10th ABAW Competition: Multimodal Valence and Arousal Estimation Approach

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为"Team RAS"的团队，他们在第 10 届"ABAW"（野外情感行为分析）比赛中，开发了一套**“读心术”系统**。

简单来说，这个系统的任务是：看着一段视频，猜出里面的人此刻是开心还是难过（效价），以及情绪有多激动（唤醒度）。

这就好比你在看一部没有字幕的默片，你需要通过演员的脸、动作和声音，来精准地判断他们内心戏的“温度”和“强度”。

为了做到这一点，他们设计了一个**“三人专家小组”**，每个人负责不同的感官，最后大家坐下来开会，共同做出判断。

1. 三位“专家”的分工

想象一下，这个系统由三位性格迥异的侦探组成：

👀 视觉侦探（面部专家）：
- 任务： 盯着人的脸看。
- 绝招： 它使用了一种叫 GRADA 的“超级显微镜”，能捕捉到脸上最细微的表情变化（比如嘴角微微上扬或眉毛紧锁）。
- 时间感： 它还有一个 Transformer 大脑，能记住表情是如何随时间流动的，不会只看一眼就下结论，而是看整个表情变化的过程。
🎭 行为侦探（动作与语境专家）：
- 任务： 观察人的肢体语言、手势、姿势，甚至看看周围的环境。
- 绝招： 这是他们最创新的地方！他们请来了一个AI 大模型（Qwen3-VL） 扮演“行为分析师”。
- 怎么工作： 就像你给一个人类专家看一段视频，然后问：“这个人现在感觉怎么样？他在做什么？”这个 AI 会写出一段描述（比如：“他皱着眉头，身体前倾，看起来非常焦虑”）。系统把这些文字描述转化成数学信号，用来辅助判断。
- 时间感： 它使用 Mamba 模型，这是一种非常高效的“记忆管家”，能很好地处理长视频中的情绪起伏。
🎧 听觉侦探（声音专家）：
- 任务： 听声音，判断语气、语调和音量。
- 绝招： 使用 WavLM 模型来“听”懂声音里的情绪。
- 特别技能（去噪）： 在野外（比如嘈杂的街道或咖啡馆），录音往往很乱。这个侦探有个“过滤器”，它会先看视频里的人嘴巴有没有动（用 MediaPipe 技术），如果嘴巴没动或者环境太吵，它就自动忽略那段声音，只保留真正有人在说话或发出情绪声音的片段，防止被噪音带偏。

2. 两位“会议主持人”（融合策略）

有了三个专家提供的信息，怎么把它们结合起来呢？论文提出了两种“开会”的方式：

🗣️ 策略一：定向交叉混合专家（DCMMOE）
- 比喻： 就像开一个**“圆桌会议”**。
- 怎么运作： 每个专家都可以向其他专家提问。比如，“面部专家”可以问“声音专家”：“刚才那个人脸红了，声音是不是也变大了？”系统会根据当前的情况，动态地决定听谁的意见更多。如果画面太模糊，它就多听声音的；如果声音太吵，它就多信画面的。这是一种**“谁靠谱听谁的”**智能投票机制。
🛡️ 策略二：可靠性感知视听融合（RAAV）
- 比喻： 就像**“主厨与助手”**。
- 怎么运作： 在这个模式下，画面（脸 + 动作）是主厨，负责决定每一帧画面的情绪基调，因为情绪变化太快，必须按帧来算。而声音是助手，它不直接决定每一帧，而是提供“背景上下文”（比如这一整段视频里，整体氛围是紧张还是轻松）。
- 优势： 这种分工非常明确，既保证了反应速度，又利用了声音的辅助信息。

3. 结果如何？

他们在著名的 Aff-Wild2 数据集上进行了测试（这是一个充满各种挑战的野外视频库，有各种光线、遮挡和角度）。

单打独斗： 如果只用脸、只用声音或只用动作描述，效果都不够完美。
团队合作： 当这三个专家加上两种“开会策略”一起工作时，效果突飞猛进。
最终成绩： 他们的系统在测试中达到了 0.658 的评分（满分 1 分，分数越高越准）。这比单独使用任何单一方法都要好得多，证明了**“三人行，必有我师”**的道理。

总结

这篇论文的核心思想就是：不要只靠眼睛或耳朵，要“眼观六路，耳听八方”，还要让 AI 学会像人类一样去“描述”和“理解”行为。

通过结合面部微表情、大模型对行为的文字描述以及经过筛选的语音，Team RAS 成功打造了一个更聪明、更抗干扰的情感识别系统。这就像给 AI 装上了一双能看穿人心的眼睛和一对能听懂弦外之音的耳朵。

Team RAS in 10th ABAW Competition: Multimodal Valence and Arousal Estimation Approach

1. 三位“专家”的分工

2. 两位“会议主持人”（融合策略）

3. 结果如何？

总结

论文技术总结：Team RAS 在第十届 ABAW 竞赛中的多模态效价与唤醒度估计方法

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 模态特征提取

2.2 多模态融合策略 (Fusion Strategies)

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与结论 (Significance)

Team RAS in 10th ABAW Competition: Multimodal Valence and Arousal Estimation Approach

1. 三位“专家”的分工

2. 两位“会议主持人”（融合策略）

3. 结果如何？

总结

论文技术总结：Team RAS 在第十届 ABAW 竞赛中的多模态效价与唤醒度估计方法

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 模态特征提取

2.2 多模态融合策略 (Fusion Strategies)

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与结论 (Significance)

类似论文

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks