Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

该论文针对现有视觉情感评估方法的局限性,提出了一种开放词汇、多面向且可扩展的自定义评估框架,通过构建“情感陈述判断”任务及自动化数据生成流水线,系统评估了多模态大语言模型在情感理解与主观感知方面的能力与不足。

Daiqing Wu, Dongbao Yang, Sicheng Zhao, Can Ma, Yu Zhou

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给现在的“超级 AI 视觉助手”(多模态大模型,MLLMs)进行一场全新的“情商考试”

以前的考试方式太死板,导致我们不知道这些 AI 到底是不是真的“懂”情绪。作者设计了一套更灵活、更贴近人类真实感受的考试方法,并发现:虽然 AI 现在很聪明,但在“感同身受”和“理解主观感受”方面,离人类还有很大差距。

下面我用几个生动的比喻来拆解这篇论文的核心内容:

1. 以前的考试为什么“不行”?(旧方法的痛点)

想象一下,你让一个 AI 看一张照片,问它:“这张图里的人是什么情绪?”

  • 旧方法像“做选择题”:你只能从“开心、悲伤、愤怒”这几个固定的选项里选。
    • 问题:如果照片里的人既有点开心又有点难过(比如毕业离别),AI 就被逼着选一个,这太不真实了。
  • 旧方法像“标准答案”:如果 AI 说“这个人因为下雨感到忧郁”,但标准答案写的是“因为失恋”,在旧系统里 AI 就算错。
    • 问题:情绪是很主观的,不同的人看同一张图,感受可能完全不同。旧方法太死板,容不下“合理的不同答案”。
  • 旧方法像“死记硬背”:以前的数据集需要人工一个个去标,就像让几千个人去给照片贴标签,既慢又贵,而且很难覆盖所有复杂的情况。

2. 新考试是什么?(ESJ 任务:情绪陈述判断)

作者发明了一种新玩法,叫**“情绪陈述判断” (Emotion Statement Judgment, ESJ)**。

  • 比喻:不再是让 AI 自己“猜”情绪,而是给 AI 看一张图,再给它读一段关于这张图的“情绪描述”,让它当**“判官”**。
    • 题目示例:“看到这张图,人们通常会感到‘紧迫’,因为消防员正在冲进火场救人。”
    • AI 的任务:判断这句话是对还是错?
  • 为什么这样好?
    • 这就像老师出题考学生,而不是让学生自己写论文。这样既避免了 AI 瞎编(幻觉),又能测试它是否真的理解图片背后的逻辑。
    • 题目可以很灵活:可以考“这张图是开心还是难过?”(情绪极性),也可以考“为什么这张图让人感动?”(情绪解读),甚至可以考“如果是 35 岁的男性消防员看这张图,他会更害怕还是更紧迫?”(主观感知)。

3. 怎么出题?(INSETS 流水线:AI 帮 AI 出题)

为了出这么多题,作者设计了一个自动化的“出题工厂”(INSETS 流水线)。

  • 比喻:这就像是一个**“众包 + 专家审核”的超级工厂**。
    1. 众包采集:让好几个不同的 AI 模型去看图,它们各自说出自己感受到的情绪(比如“兴奋”、“温暖”、“社区感”)。
    2. 专家整理:把这些五花八门的词,整理到一个科学的“情绪树状图”(Parrott 模型)里,就像把零散的树叶归类到树枝上。
    3. 生成题目:利用这些情绪词,自动生成成千上万道“判断题”。
    4. 人工把关:最后请几位心理学专业的研究生快速检查一下,把那些明显离谱的题目剔除。
  • 成果:他们造出了一个包含 46 万道题的大题库(INSETS-462k),并从中精选了 3000 多道高质量题目作为正式考试(MVEI 基准)。

4. 考试结果怎么样?(AI 的表现)

作者拿现在的顶尖 AI(比如 GPT-4o, Qwen2.5-VL 等)去考了这场试:

  • 好消息:AI 在**“读懂画面”方面进步很大。比如看到消防员救火,它能准确判断出“紧急”、“勇敢”;看到聚会,能判断出“快乐”。这说明它们很擅长理解客观的情绪线索**。
  • 坏消息:AI 在**“理解主观感受”**方面还很弱。
    • 极性判断:有时候 AI 分不清“混合情绪”(既开心又难过),容易搞混。
    • 主观感知:这是最大的短板。题目问:“一个 35 岁的男性消防员看这张图,会比普通人更感到‘恐惧’还是‘紧迫感’?”人类能轻易理解这种身份带来的心理差异,但 AI 往往答不上来,或者答得很机械。
  • 对比人类:人类考生的平均分是 91.6%,而最好的 AI 只有 70% 多。这说明 AI 离真正的“情商”还有距离。

5. 怎么让 AI 变聪明?(微调与适应)

作者还尝试了给 AI“开小灶”(微调训练):

  • 比喻:就像给 AI 做“考前突击”。
  • 结果:通过少量的题目训练(Few-shot)或者微调,AI 在“判断情绪是开心还是难过”这种基础题上进步巨大。但在“理解主观感受”这种需要深层心理共鸣的题上,提升有限。这说明**“主观共情”可能是 AI 目前架构上的硬伤**,光靠刷题可能不够,需要更根本的改进。

总结:这篇论文告诉我们什么?

  1. 以前的方法太死板,测不出 AI 真正的“情商”。
  2. 新方法(ESJ)更灵活,像让 AI 当“判官”而不是“考生”,能测出它是否真的懂情绪背后的逻辑。
  3. AI 现在很“博学”(知道很多情绪词汇和场景),但不够“共情”(很难理解不同人的主观感受)。
  4. 未来方向:要训练出真正有“情商”的 AI,不能只靠刷数据,可能需要让 AI 学会像人一样去“换位思考”,理解身份、文化背景对情绪的影响。

简单来说,这就好比 AI 现在是个**“读过很多心理学书的学生”,它能背出定义,但还没学会真正“感同身受”**。这篇论文就是为了解决这个问题,给 AI 设计了一套更科学的“情商体检表”。