Team RAS in 10th ABAW Competition: Multimodal Valence and Arousal Estimation Approach

本文介绍了 RAS 团队在第十届 ABAW 竞赛中提出的一种结合面部、行为(利用 Qwen3-VL-4B 和 Mamba)及音频(利用 WavLM-Large)的多模态方法,通过创新的融合策略在 Aff-Wild2 数据集上实现了 0.658 的连续效价与唤醒度估计 Concordance Correlation Coefficient(CCC)性能。

Elena Ryumina, Maxim Markitantov, Alexandr Axyonov, Dmitry Ryumin, Mikhail Dolgushin, Denis Dresvyanskiy, Alexey Karpov

发布于 2026-03-16
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为"Team RAS"的团队,他们在第 10 届"ABAW"(野外情感行为分析)比赛中,开发了一套**“读心术”系统**。

简单来说,这个系统的任务是:看着一段视频,猜出里面的人此刻是开心还是难过(效价),以及情绪有多激动(唤醒度)。

这就好比你在看一部没有字幕的默片,你需要通过演员的脸、动作和声音,来精准地判断他们内心戏的“温度”和“强度”。

为了做到这一点,他们设计了一个**“三人专家小组”**,每个人负责不同的感官,最后大家坐下来开会,共同做出判断。

1. 三位“专家”的分工

想象一下,这个系统由三位性格迥异的侦探组成:

  • 👀 视觉侦探(面部专家):

    • 任务: 盯着人的脸看。
    • 绝招: 它使用了一种叫 GRADA 的“超级显微镜”,能捕捉到脸上最细微的表情变化(比如嘴角微微上扬或眉毛紧锁)。
    • 时间感: 它还有一个 Transformer 大脑,能记住表情是如何随时间流动的,不会只看一眼就下结论,而是看整个表情变化的过程。
  • 🎭 行为侦探(动作与语境专家):

    • 任务: 观察人的肢体语言、手势、姿势,甚至看看周围的环境。
    • 绝招: 这是他们最创新的地方!他们请来了一个AI 大模型(Qwen3-VL) 扮演“行为分析师”。
    • 怎么工作: 就像你给一个人类专家看一段视频,然后问:“这个人现在感觉怎么样?他在做什么?”这个 AI 会写出一段描述(比如:“他皱着眉头,身体前倾,看起来非常焦虑”)。系统把这些文字描述转化成数学信号,用来辅助判断。
    • 时间感: 它使用 Mamba 模型,这是一种非常高效的“记忆管家”,能很好地处理长视频中的情绪起伏。
  • 🎧 听觉侦探(声音专家):

    • 任务: 听声音,判断语气、语调和音量。
    • 绝招: 使用 WavLM 模型来“听”懂声音里的情绪。
    • 特别技能(去噪): 在野外(比如嘈杂的街道或咖啡馆),录音往往很乱。这个侦探有个“过滤器”,它会先看视频里的人嘴巴有没有动(用 MediaPipe 技术),如果嘴巴没动或者环境太吵,它就自动忽略那段声音,只保留真正有人在说话或发出情绪声音的片段,防止被噪音带偏。

2. 两位“会议主持人”(融合策略)

有了三个专家提供的信息,怎么把它们结合起来呢?论文提出了两种“开会”的方式:

  • 🗣️ 策略一:定向交叉混合专家(DCMMOE)

    • 比喻: 就像开一个**“圆桌会议”**。
    • 怎么运作: 每个专家都可以向其他专家提问。比如,“面部专家”可以问“声音专家”:“刚才那个人脸红了,声音是不是也变大了?”系统会根据当前的情况,动态地决定听谁的意见更多。如果画面太模糊,它就多听声音的;如果声音太吵,它就多信画面的。这是一种**“谁靠谱听谁的”**智能投票机制。
  • 🛡️ 策略二:可靠性感知视听融合(RAAV)

    • 比喻: 就像**“主厨与助手”**。
    • 怎么运作: 在这个模式下,画面(脸 + 动作)是主厨,负责决定每一帧画面的情绪基调,因为情绪变化太快,必须按帧来算。而声音是助手,它不直接决定每一帧,而是提供“背景上下文”(比如这一整段视频里,整体氛围是紧张还是轻松)。
    • 优势: 这种分工非常明确,既保证了反应速度,又利用了声音的辅助信息。

3. 结果如何?

他们在著名的 Aff-Wild2 数据集上进行了测试(这是一个充满各种挑战的野外视频库,有各种光线、遮挡和角度)。

  • 单打独斗: 如果只用脸、只用声音或只用动作描述,效果都不够完美。
  • 团队合作: 当这三个专家加上两种“开会策略”一起工作时,效果突飞猛进。
  • 最终成绩: 他们的系统在测试中达到了 0.658 的评分(满分 1 分,分数越高越准)。这比单独使用任何单一方法都要好得多,证明了**“三人行,必有我师”**的道理。

总结

这篇论文的核心思想就是:不要只靠眼睛或耳朵,要“眼观六路,耳听八方”,还要让 AI 学会像人类一样去“描述”和“理解”行为。

通过结合面部微表情大模型对行为的文字描述以及经过筛选的语音,Team RAS 成功打造了一个更聪明、更抗干扰的情感识别系统。这就像给 AI 装上了一双能看穿人心的眼睛和一对能听懂弦外之音的耳朵。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →