MMSD3.0: A Multi-Image Benchmark for Real-World Multimodal Sarcasm Detection

该论文针对现有单模态数据集的局限,提出了首个完全由多图像样本构成的 MMSD3.0 基准,并设计了具备跨图像推理与细粒度跨模态融合能力的 CIRM 模型,在显著提升真实场景下多模态讽刺检测性能的同时,也验证了其在单图场景中的通用有效性。

Haochen Zhao, Yuyao Kong, Yongxiu Xu, Gaopeng Gou, Hongbo Xu, Yubin Wang, Haoliang Zhang

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“如何教电脑看懂多张图片里的讽刺”**的故事。

想象一下,讽刺(Sarcasm)就像是一个**“口是心非”的玩笑**。比如你看着窗外下着暴雨,却说:“哇,今天天气真好,适合去野餐!”如果只有一张下雨的照片,电脑可能很难理解你为什么在说反话。

但在现实生活中,讽刺往往更复杂,它经常发生在多张图片之间。

1. 发现了什么大漏洞?(MMSD3.0 数据集)

以前的电脑“看笑话”训练,就像只给它们看单张照片配一句话。

  • 旧模式:给你一张图,配一句“这衣服真好看”,电脑学的是“图 + 话=反话”。
  • 现实情况:现在的社交媒体(如推特、亚马逊评论)上,人们发讽刺经常是**“图 A + 图 B"**。
    • 举个栗子:图 A 是一个人在豪华游艇上喝香槟,图 B 是同一个人在破船上喝白开水。单看任何一张图都看不出讽刺,但把两张图拼在一起,那种“曾经拥有 vs 现在落魄”的对比,讽刺感就出来了。

作者做了什么?
他们发现以前的数据集(MMSD 和 MMSD2.0)只教电脑看“单图”,就像只教学生做“单选题”,结果学生到了“多选题”(多图)的考场就懵了。
于是,他们造了一个新题库叫 MMSD3.0

  • 特点:全是多张图片(2 到 4 张)配文字,来自真实的推特和亚马逊评论。
  • 目的:让电脑学会像人一样,不仅看单张图,还要看图与图之间的“爱恨情仇”(比如对比、反差、故事线)。

2. 发明了什么新武器?(CIRM 模型)

为了教电脑看懂这种“多图讽刺”,作者设计了一个新模型,叫 CIRM。我们可以把它想象成一个**“高智商侦探”**,它有两个绝招:

绝招一:双阶段桥梁(Dual-Stage Bridge)——“先串通,再复盘”

以前的模型看多图,就像一群人各看各的,最后把结论拼在一起,容易乱套。
CIRM 的“桥梁”机制让侦探分两步走:

  1. 预桥接(Pre-Bridge):在深入分析前,先让“文字组”和“图片组”互相看一眼,交换情报:“嘿,这张图里的文字好像是在骂人,你注意到了吗?”
  2. 序列建模(Sequential Modeling):利用一种叫 Mamba 的技术,像串珍珠一样,把图片按顺序串起来。因为讽刺往往有先后顺序(比如先展示美好,再展示惨状),顺序很重要。
  3. 后桥接(Post-Bridge):分析完后再互相确认一遍:“刚才那个顺序,是不是构成了一个巨大的反差?”

绝招二:相关性引导融合(Relevance-Guided Fusion)——“抓重点,去噪点”

有时候用户发了 3 张图,其中 1 张是无关紧要的(比如随手拍的背景),另外 2 张才是讽刺的核心。
CIRM 有一个**“聚光灯”**(RGFM 模块):

  • 它能自动计算哪张图和文字最“合拍”。
  • 如果某张图跟讽刺没关系,它就把它调暗(降低权重);
  • 如果某张图是讽刺的关键(比如图里的文字是“太棒了”但表情是哭的),它就打强光(提高权重)。
  • 这样,模型就不会被无关的图片带偏了。

3. 效果怎么样?(实验结果)

作者把这个“高智商侦探”拿去考试:

  • 在旧题库(单图)上:它表现依然顶尖,说明它没退步。
  • 在新题库(多图)上:其他旧模型(只看过单图的)直接“翻车”,准确率很低。而 CIRM 因为专门训练过“多图对比”,轻松拿下第一
  • 甚至打败了大模型:连 GPT-4o 这种超级大模型,在处理这种需要精细逻辑的“多图讽刺”时,表现也不如 CIRM 稳定。

4. 总结:这有什么用?

这就好比以前我们只教 AI 识别“一个人笑是不是开心”,现在我们要教它识别“一个人对着烂苹果笑,旁边还有一张满汉全席的照片,是不是在讽刺”。

这篇论文的核心贡献就是:

  1. 指出了盲点:以前的研究太关注“单图”,忽略了现实世界中“多图连环套”的讽刺。
  2. 提供了新教材:MMSD3.0 数据集,全是真实的多图讽刺案例。
  3. 升级了大脑:CIRM 模型,学会了看图与图的关系,学会了抓重点,不再被无关信息干扰。

简单来说,就是让 AI 终于学会了“看图说话”的高级玩法——看懂图片之间的“潜台词”和“反差萌”,从而更精准地识别出人类那些“阴阳怪气”的幽默。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →