NAU-QMUL: Utilizing BERT and CLIP for Multi-modal AI-Generated Image Detection

NAU-QMUL 团队提出了一种结合预训练 BERT 和 CLIP 视觉编码器、跨模态特征融合及伪标签数据增强策略的多模态多任务模型,旨在检测 AI 生成图像并识别其生成模型,该方案在 CT2 竞赛的两项任务中均获得第五名,验证了其在现实场景中的应用潜力。

Xiaoyu Guo, Arkaitz Zubiaga

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于"如何识破 AI 画的假画,并揪出是哪个 AI 画的"的故事。

想象一下,现在的 AI 画画技术(比如 Midjourney、DALL-E)已经非常厉害,画出来的图跟真人画的几乎一模一样。这带来了一个大问题:我们怎么知道一张图是真人画的,还是 AI 生成的?如果是 AI 画的,又是哪个“画家”(哪个 AI 模型)画的?

为了解决这个问题,来自南京审计大学和伦敦大学玛丽女王学院的研究团队(NAU-QMUL)开发了一个聪明的"双料侦探系统"。

下面我用几个简单的比喻来解释他们是怎么做到的:

1. 侦探的“双眼”和“双耳”:多模态学习

这个系统不像以前的侦探只靠看图,它有两个“感官”:

  • 一只“火眼金睛”(CLIP 模型)专门负责看图。它像是一个看过无数名画的专家,能一眼看出图片的笔触、光影有没有违和感。
  • 一只“顺风耳”(BERT 模型)专门负责读文字(也就是图片的提示词,比如“两只长颈鹿站在草地上”)。它像是一个语言学家,能理解文字描述和画面是否匹配。

比喻:这就好比警察抓嫌疑人,不仅要看嫌疑人长什么样(图像特征),还要听他怎么描述自己的行踪(文本特征)。如果一个人说“我在公园”,但照片背景是沙漠,或者照片里的细节和描述对不上,这个系统就能立刻警觉。

2. 两个任务,一个大脑:多任务学习

这个侦探系统一次要干两件事:

  • 任务 A(抓鬼)判断这张图是“真”的还是“假”的(AI 生成的)。
  • 任务 B(查户口)如果确定是 AI 画的,那到底是哪个 AI 画的?是 Stable Diffusion 3?还是 Midjourney 6?

比喻:就像保安在门口检查。

  • 第一关:先问“你是人还是机器人?”(任务 A)。
  • 第二关:如果是机器人,再问“你是哪个品牌的机器人?”(任务 B)。
    系统把这两个任务合在一起训练,就像让保安同时练习“辨人”和“认品牌”,效率更高,互相促进。

3. 特殊的“考试策略”:条件性损失函数

在训练时,系统有一个很聪明的逻辑:

  • 如果第一关判断“这是真人画的”,系统就不再浪费精力去猜它是哪个 AI 画的(因为根本就不是 AI 画的)。
  • 只有当第一关判断“这是 AI 画的”,系统才会启动第二关,去猜具体是哪个模型。

比喻:这就像做数学题。如果题目问“这个数是质数吗?”,你发现它是偶数(除了 2),直接回答“不是”就行了,没必要再去算它是不是“最大的质数”。这种策略让系统跑得快,还不犯糊涂。

4. 让系统“自学成才”:伪标签数据增强

训练系统需要大量的“考题”(数据),但有时候题目不够多。于是,他们想了一个办法:

  • 先让系统做一套“模拟考”(测试集)。
  • 如果系统对某道题非常有把握(比如 90% 以上确信),就把这套题的答案(伪标签)记下来,当成新的“练习题”加回训练库,让系统再学一遍。

比喻:就像老师让学生做模拟题。如果学生做某道题时信心爆棚,老师就把这道题的答案抄下来,变成新的教材让学生反复练习,以此增强学生的实力。
注意:论文最后也承认,如果学生自信地做错了题,老师还把它当教材,就会“带偏”学生(误差传播),这是他们未来要改进的地方。

5. 战绩如何?

在这个名为"CT2"的国际比赛中,这个系统表现非常棒:

  • 任务 A(真假辨别)拿了第 5 名,准确率很高(F1 分数 83.16%)。
  • 任务 B(查户口)也拿了第 5 名(F1 分数 48.88%)。虽然这个分数看起来不高,但因为要区分好几种不同的 AI,难度非常大,能排进前五已经很厉害了。

总结

这篇论文的核心就是:用“读图”和“读文”两个专家联手,通过聪明的训练策略,不仅能看出图是不是 AI 画的,还能顺藤摸瓜找出是哪个 AI 干的

虽然现在的 AI 生成技术越来越像真的,但这项研究就像给互联网装上了一层“防伪标签”和“溯源系统”,对于打击假新闻、保护版权和防止虚假信息传播非常重要。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →