GatedCLIP: Gated Multimodal Fusion for Hateful Memes Detection

本文提出了 GatedCLIP,一种通过引入投影头、动态门控融合机制及对比学习目标来增强 CLIP 多模态能力的模型,在 hateful memes 检测任务中以仅 35 万可训练参数实现了 0.66 的 AUROC,显著优于基线模型。

Yingying Guo, Ke Zhang, Zirong Zeng

发布于 2026-02-25
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 GatedCLIP 的新方法,专门用来解决互联网上一种特别棘手的难题:如何识别那些“图文结合”的仇恨性迷因(Memes/梗图)

为了让你轻松理解,我们可以把这项技术想象成招聘一位超级聪明的“内容审核员”

1. 为什么这个问题很难?(背景故事)

想象一下,你有一张图,上面画着一只可爱的臭鼬(Skunk),看起来很无害。旁边配了一行字:“今天你闻起来真香啊!”(LOVE THE WAY YOU SMELL TODAY)。

  • 单独看图片:只是一只可爱的动物,没问题。
  • 单独看文字:一句普通的赞美,没问题。
  • 合在一起:这就变成了恶毒的侮辱(暗示对方像臭鼬一样臭)。

这就是“仇恨迷因”的狡猾之处:1+1 > 2。单独看都没事,但组合在一起就充满了恶意。以前的简单模型就像是一个只会“数数”的审核员,它要么只看图,要么只看字,或者笨拙地把两者加起来,结果完全看不懂这种“阴阳怪气”的幽默,导致它要么漏掉坏人,要么误伤好人。

2. 他们用了什么“神器”?(CLIP 模型)

作者们并没有从零开始训练一个大脑,而是请来了一个已经读过万卷书、看过亿张图片的超级学霸,叫 CLIP

  • CLIP 的能力:它非常博学,能理解图片和文字的大致关系(比如看到猫的图片能联想到“猫”这个词)。
  • CLIP 的短板:它太“正经”了,是个通用型学霸。让它去识别这种充满讽刺、恶意的“梗”,它就像让一个只会做数学题的教授去理解脱口秀里的黑色幽默,往往反应不过来,甚至猜得跟瞎猜差不多(论文里说它的准确率只有 49%,跟抛硬币没区别)。

3. GatedCLIP 是怎么工作的?(核心创新)

作者给这位“超级学霸”(CLIP)配了一个聪明的“助理团队”,只训练这个团队,不动用学霸的大脑(保持冻结),这样既快又省资源。这个团队由三个部分组成:

A. 翻译官(投影头 Projection Heads)

  • 比喻:CLIP 输出的信息是“通用学术语言”,太宽泛。助理团队里有一群翻译官,他们把 CLIP 的“学术语言”翻译成“审核员专用语言”。
  • 作用:他们把那些通用的特征过滤掉,只提取跟“仇恨”、“恶意”最相关的特征。就像把一本百科全书,浓缩成一本《如何识别网络暴力》的小册子。

B. 智能调音台(门控融合机制 Gated Fusion)

  • 比喻:这是整个系统的灵魂。想象一个智能调音台,上面有两个旋钮:一个控制“图片音量”,一个控制“文字音量”。
  • 作用
    • 如果一张图里画着明显的纳粹标志(图片很恶毒),调音台会自动把图片的音量拧大,把文字的音量关小。
    • 如果图片很普通,但文字全是脏话(文字很恶毒),调音台就会把文字的音量拧大
    • 关键点:这个调音台是动态的。它不是死板地各给 50% 的权重,而是根据每一张图的具体情况,灵活决定“听谁的”。这就像一位经验丰富的老警察,看到凶器就重点查物证,看到口供矛盾就重点查人证。

C. 对齐教练(对比学习目标)

  • 比喻:为了防止翻译官把图片和文字翻译得“各说各话”,还有一个对齐教练
  • 作用:它时刻监督着,确保图片和文字在翻译后的世界里,依然保持着原本那种“你中有我,我中有你”的紧密联系。

4. 效果怎么样?(实验结果)

  • 以前的笨办法(简单平均):准确率只有 49%(基本等于瞎蒙)。
  • GatedCLIP 的表现:准确率提升到了 66%(AUROC 指标)。
  • 意义:虽然 66% 看起来不是满分,但在识别这种极其复杂的“图文组合仇恨”任务上,这已经是巨大的飞跃(相对提升了 35%)。
  • 性价比:这个系统非常轻便。它只增加了 35 万个 可训练参数(相当于给法拉利加了一个小小的导航仪),而不用重新训练整个庞大的 CLIP 模型(法拉利本身有 1.5 亿个参数)。这意味着它跑得快、省资源,非常适合在社交媒体上实时使用。

5. 总结与未来

这篇论文告诉我们:不需要把整个大脑都换掉,只要给现有的超级大脑加上一个灵活的“智能开关”和“专用滤镜”,就能让它变得极其擅长处理特定的复杂任务。

  • 现在的局限:它主要是在英语和西方互联网文化下训练,对于其他文化背景或更隐晦的仇恨,可能还需要更多学习。
  • 未来的方向:让这个“智能调音台”更聪明,不仅能判断听谁,还能解释“为什么”觉得这是仇恨,甚至能听懂更多语言。

一句话总结:GatedCLIP 就像给一个博学的机器人装上了一个懂人情世故的“智能开关”,让它能一眼看穿那些披着“无害”外衣的恶意梗图。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →