Social Norm Reasoning in Multimodal Language Models: An Evaluation

本文通过对比人类与五种多模态大语言模型在三十个文本及图像故事中的表现,评估了其在社会规范推理方面的能力,发现模型在文本场景下的表现优于图像场景,其中 GPT-4o 综合表现最佳,但所有模型在处理复杂规范时仍面临挑战。

Oishik Chowdhury, Anushka Debnath, Bastin Tony Roy Savarimuthu

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给一群**“超级聪明的机器人学生”(多模态大语言模型,MLLMs)进行一场特殊的“社会情商考试”**。

想象一下,如果你要教一个机器人如何像人一样在社交场合中得体地行事,你不仅要教它“不许乱扔垃圾”这种死板的规则,还要让它理解:

  • 什么时候该敲门?
  • 排队时插队了该被怎么批评?
  • 如果有人没批评插队的人,是不是也应该受到惩罚(这叫“元规范”)?

这篇论文就是去测试这些机器人到底能不能看懂这些复杂的“社交潜规则”。

🎭 考试场景:文字故事 vs. 漫画图片

研究人员给 5 个不同的机器人模型(包括大家熟悉的 GPT-4o、Qwen-2.5VL 等)出了 60 道题,分为两类:

  1. 文字题(30 道): 就像读短篇小说,描述一个场景(比如“小明在公园乱扔垃圾”)。
  2. 图片题(30 道): 就像看四格漫画,用画面展示同样的故事。

题目问什么?
题目非常细致,比如:

  • “这里有什么规矩?”
  • “谁违反了规矩?”
  • “有人因为守规矩被表扬了吗?”
  • “有人因为没制止违规行为而被惩罚了吗?”(这是最难的部分)

🏆 考试成绩单:谁考得好?

1. 文字 vs. 图片:机器人更擅长“读书”

这就好比机器人是**“阅读天才”,但“看图说话”**的能力还差点火候。

  • 文字题: 机器人答得非常好,准确率高达 95% 以上。它们能轻松理解文字里的逻辑和潜台词。
  • 图片题: 准确率降到了 83% 左右。
  • 比喻: 就像让一个只读过很多书的人突然去猜哑剧,虽然能猜个大概,但容易误解画面里的细节(比如分不清谁在生气,谁在嘲笑)。

2. 谁是“学霸”?

  • 🥇 第一名:GPT-4o
    它是当之无愧的“优等生”,无论是读故事还是看漫画,都表现得最稳定、最聪明。它最有可能被用来制造真正的“社交机器人”。
  • 🥈 第二名(免费选手):Qwen-2.5VL
    这是一个非常棒的发现!它虽然是免费开放的模型,但表现仅次于 GPT-4o。这意味着未来的社交机器人可能不需要花大价钱,也能拥有不错的“情商”。
  • 🥉 其他选手
    像 LLaMa-4 Maverick 等模型表现稍差,特别是在看图时,容易“翻车”。

🧠 难点在哪里?(机器人的“脑回路”瓶颈)

研究发现,机器人最怕两种情况:

  1. “元规范”(Meta-norms):

    • 比喻: 这就像“警察抓小偷”是规矩,但“警察如果不管小偷,警察也要被处分”就是元规范
    • 结果: 机器人很难理解这种“套娃”式的逻辑。它们能看懂“插队不对”,但很难理解“谁没制止插队,谁也有错”。这就像让机器人理解“连坐”制度,它们容易晕头转向。
  2. 复杂的画面细节:

    • 在漫画里,有时候“表扬”和“批评”的表情画得不够明显,机器人就会搞混。比如,它可能把“温和的劝告”看成“严厉的责骂”。

💡 这篇论文告诉我们什么?

  1. 机器人正在变聪明: 现在的 AI 已经能很好地理解文字里的社会规则了,这为未来让机器人进入人类家庭、医院或商场打下了基础。
  2. 视觉理解还需努力: 虽然机器人能看懂文字,但在理解复杂的图像(比如漫画、视频)时,还是会犯迷糊。未来的机器人需要更敏锐的“眼睛”。
  3. 免费模型很有潜力: 像 Qwen 这样的免费模型表现优异,意味着普通开发者也能做出懂礼貌、守规矩的机器人,而不必依赖昂贵的商业模型。

🚀 未来展望

作者希望,未来的机器人不仅能**“读懂”规则,还能像人一样“动态学习”**。

  • 想象一下,一个社交机器人通过观察人类如何互动,自己总结出“在这个文化里,见面要鞠躬”或者“在这里大声说话是不礼貌的”,而不是死记硬背程序员写下的代码。

总结一句话:
这篇论文证明了,现在的 AI 已经是个不错的“文字社会学家”,但在成为“视觉社会观察家”的路上,还需要再练练“看图说话”的本领,特别是处理那些复杂的“人情世故”时,还得再聪明一点!