MAD: A Multimodal and Multi-perspective Affective Dataset with Hierarchical Annotations

该论文提出了 MAD(多模态情感数据集),这是一个包含同步采集的多种生理信号(如 EEG、ECG 等)与三视角 RGB-D 面部视频、并采用涵盖刺激诱发、主观认知及行为表达三级情感标注框架的多模态情感数据集,旨在为情感计算与神经生理建模提供可靠的多层次基准资源。

Shengwei Guo, Yunqing Qiao, Wenzhan Zhang, Bo Liu, Yong Wang, Guobing Sun

发布于 Mon, 09 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 MAD(Multimodal Affection Dataset,多模态情感数据集)的全新“情感实验室”。

想象一下,以前科学家研究“人为什么开心或难过”,就像是在黑夜里听别人说话:他们只能看到别人脸上的表情(比如笑或哭),或者听到别人说的话。但这就像只通过窗户看房间里的情况,你只能看到表面,不知道里面的人心里到底在想什么,也不知道身体内部发生了什么化学反应。

MAD 数据集就像是在这个房间里装上了“全景透明玻璃”和“超级听诊器”,让科学家能同时看到、听到、甚至“摸”到一个人产生情感的全过程

以下是用大白话和比喻对这篇论文核心内容的解读:

1. 这个数据集是做什么的?(“全景透明玻璃”)

以前的数据集通常只记录一种信号,比如只记录脑电波(EEG),或者只拍一张脸。这就像只给医生看 X 光片,或者只让医生听心跳,信息太片面了。

MAD 做了什么?
它让 18 个志愿者看 16 段能引发不同情绪(开心、愤怒、悲伤、恐惧等)的电影片段。在观看过程中,它同步记录了:

  • 大脑的声音(EEG): 就像大脑里的“无线电波”,直接反映情绪产生的源头。
  • 身体的反应(ECG, PPG, BCG 等): 包括心跳、血管搏动、肌肉微颤。这就像身体在说“我紧张了”或“我兴奋了”。
  • 脸上的表情(三视角 RGB-D 视频): 用三个摄像头(左、中、右)同时拍摄,就像给脸装了 360 度监控,不管头怎么转都能看清。

比喻: 以前研究情感是“盲人摸象”,摸到耳朵说像扇子,摸到腿说像柱子。MAD 则是把大象放在聚光灯下,让你同时看到它的耳朵、腿、鼻子,还能听到它的叫声,甚至摸到它的皮肤。

2. 它最厉害的地方是什么?(“三层翻译官”)

这是 MAD 最大的创新。它给同一个情绪事件打了三层标签,就像给同一个故事写了三个不同角度的剧本:

  • 第一层:刺激源(刺激标签)
    • 比喻: 就像电影导演说:“这段戏是让人的。”
    • 含义: 这是客观的,大家看同一部电影,导演觉得这是悲伤的。
  • 第二层:内心感受(认知标签)
    • 比喻: 就像观众看完后说:“我觉得这段戏让我很感动,但我其实没哭出来。”
    • 含义: 这是主观的。有时候电影很悲伤,但观众可能因为走神没感觉,或者因为太难过反而笑了。
  • 第三层:外在表现(表情标签)
    • 比喻: 就像旁观者说:“我看你嘴角上扬了,你好像很开心。”
    • 含义: 这是别人看到的。有时候人心里难过,但为了礼貌强颜欢笑。

为什么这很重要?
这就解释了为什么有时候“表里不一”。MAD 让科学家能研究:为什么大脑觉得悲伤(第一层),心里觉得还好(第二层),但脸上却在笑(第三层)?这种**“刺激 - 认知 - 表达”**的完整链条,以前很难同时捕捉到。

3. 科学家用它发现了什么?(“实验结果”)

科学家用这个数据集做了一系列“考试”,发现了很多有趣的事情:

  • 大脑比嘴巴诚实:
    如果用电影原本的标签(刺激标签)来训练 AI 识别情绪,准确率很高;但如果用志愿者自己说的感受(认知标签)来训练,准确率就低很多。

    • 比喻: 大脑的无线电波(EEG)对“导演给的剧本”反应很一致,但每个人“心里的感受”千差万别,很难捉摸。
  • 心脏信号也能“读心”:
    科学家发现,除了传统的贴电极测心跳(ECG),用非接触式的传感器(比如坐在椅子上测震动 BCG,或者用摄像头测血流 PPG)也能达到差不多的效果。

    • 比喻: 以前测心跳得像医生把听诊器贴在胸口,现在 MAD 证明,哪怕只是坐在椅子上或者隔着屏幕看,也能测出你心跳的变化,这对未来做“无感监测”很有用。
  • 多模态融合是“超级英雄”:
    单独看大脑信号最强,单独看心跳或肌肉信号较弱。但如果把它们打包在一起(多模态融合),效果就更好了。

    • 比喻: 就像破案,单靠指纹(大脑)可能不够,加上脚印(心跳)和监控(表情),就能把罪犯(情绪)抓得更准。
  • 多角度拍照更靠谱:
    以前只拍正面,人把头一歪,AI 就认不出了。MAD 用了三个摄像头,配合新技术,让 AI 学会了“不管你怎么转头,我都能认出你在笑”。

4. 总结:这对我们意味着什么?

MAD 数据集就像是一个“情感研究的超级实验室”

  • 对科学家来说: 它提供了一个标准考场,让大家能公平地比较谁的情绪识别算法更厉害,也能深入研究情绪产生的复杂机制(比如为什么我们会“笑里藏刀”)。
  • 对未来应用来说: 它推动了更智能的人机交互。未来的电脑或机器人,可能不再只是看你脸红不红,而是能结合你的脑波、心跳和微表情,真正“懂”你的情绪,甚至在你还没意识到自己生气时,就提前察觉并安抚你。

简单来说,MAD 就是把情感研究从“猜谜游戏”升级成了“高清全景直播”,让机器能更真实、更细腻地理解人类的情感世界。