MEGC2026: Micro-Expression Grand Challenge on Visual Question Answering

该论文介绍了 MEGC2026 微表情挑战赛,旨在通过引入基于多模态大语言模型的微表情视频问答(ME-VQA)和长视频问答(ME-LVQA)两项新任务,推动微表情分析在复杂时空推理与多模态理解领域的研究进展。

Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Su-Jing Wang, Adrian K. Davison

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一个名为 MEGC2026 的“微表情大挑战”活动。为了让你更容易理解,我们可以把这项研究想象成一场**“微表情侦探训练营”**。

🕵️‍♂️ 什么是“微表情”?

想象一下,当一个人心里很紧张或者想撒谎时,他可能会努力控制自己的脸,不让表情露出来。但是,他的脸部肌肉有时候会“背叛”他,在短短不到半秒(500 毫秒)的时间里,突然闪过一个真实的表情。这就叫微表情

这就像是在平静的湖面上,突然泛起的一个极小、极快的涟漪。普通人很难注意到,但我们需要训练 AI 像最敏锐的侦探一样,捕捉这些稍纵即逝的“情绪涟漪”。

🏆 这次挑战要做什么?

以前的比赛主要是让 AI 认出“这是愤怒”或“这是开心”。但这次(2026 年),主办方觉得 AI 应该更聪明,不仅能“认”,还要能“聊”。所以,他们设立了两个新任务:

任务一:微表情“短剧问答” (ME-VQA)

  • 场景:就像看一个只有几秒钟的短视频片段。
  • 玩法:你给 AI 看一段视频,然后像聊天一样问它问题。
    • 例子:“这个人嘴角有没有往下撇?”或者“他刚才是在假装开心吗?”
    • AI 需要像人一样,用自然语言回答你,而不是只输出一个冷冰冰的代码。
  • 目的:测试 AI 能不能理解视频里的细节,并像人类一样用语言交流。

任务二:微表情“长剧问答” (ME-LVQA) —— 这是今年的新难点!

  • 场景:这次不再是几秒钟的片段,而是很长的视频,就像看一部完整的电影或监控录像。
  • 玩法:视频里可能有很多人在说话、大笑、皱眉,中间夹杂着几个极短的微表情。
    • 例子:“在这段 5 分钟的视频里,这个人一共‘泄露’了几次真实情绪?具体是在第几分钟?”或者“请列出他所有做过的微表情动作。”
  • 挑战:这就像让 AI 在大海捞针。它不仅要盯着屏幕,还要记住时间线,分清哪些是“大表情”(比如大笑),哪些是“微表情”(比如一闪而过的恐惧),还要在漫长的时间里保持专注。

🤖 现在的 AI 表现如何?(侦探们的“模拟考”)

主办方找来了两个目前很厉害的 AI 模型(Qwen2.5VL 和 Qwen3VL)来当“学员”参加模拟考,看看它们现在的水平。

  1. 短剧问答(任务一)

    • 表现:AI 能猜出大概的情绪(比如“看起来挺高兴”),准确率还行。
    • 弱点:如果要它分辨特别细微的区别(比如“是轻微的厌恶还是轻微的愤怒”),AI 就经常“抓瞎”,猜得不太准。就像它能看出一个人“不开心”,但分不清是“生气”还是“难过”。
  2. 长剧问答(任务二)

    • 表现:这就更难了。AI 在长视频里很容易“迷路”。
    • 问题
      • 数数不准:让 AI 数视频里有几个微表情,它经常数错。
      • 记不住:视频太长了,AI 容易忘记前面发生了什么,或者把“大笑”和“微表情”搞混。
      • 数据太少:这次模拟考用的训练数据很少(只用了 10 个人的视频),就像只让侦探看了 10 个案例就去破案,所以 AI 还没学会怎么应对各种各样的人。

💡 总结一下

这篇论文其实是在说:

“现在的 AI 已经能看懂一些微表情了,也能像人一样回答问题。但是,如果要让 AI 在长长的视频里,像福尔摩斯一样精准地捕捉那些一闪而过的微小情绪,并且准确回答你的问题,现在的技术还不够成熟。我们需要更多的数据、更聪明的算法,来训练这些 AI 侦探,让它们真正变得‘火眼金睛’。”

这次挑战就是邀请全球的科学家和 AI 开发者,一起来解决这个“大海捞针”的难题,让 AI 在心理分析、测谎、医疗辅助等领域变得更有用。