SPGen: Stochastic scanpath generation for paintings using unsupervised domain adaptation

本文提出了一种名为 SPGen 的深度学习模型,通过结合全卷积神经网络、可微分注视选择机制及无监督域自适应技术,有效解决了从自然场景到艺术画作的领域差异问题,从而能够准确预测并模拟人类在观赏画作时的随机眼动轨迹。

Mohamed Amine Kerkouri, Marouane Tliba, Aladine Chetouani, Alessandro Bruno

发布于 2026-02-26
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 SPGen 的人工智能系统,它的核心任务是**“模拟人类看画时的眼神轨迹”**。

想象一下,当你走进美术馆,站在梵高的《星月夜》或达芬奇的《蒙娜丽莎》面前时,你的眼睛会怎么移动?你会先看哪里?然后看哪里?最后看哪里?这就是所谓的**“扫描路径”(Scanpath)**。

这篇论文就是为了解决一个难题:如何让电脑像人一样,不仅知道画里哪里“重要”,还能模拟出人类看画时那种“随机”且“独特”的视线移动过程,特别是针对那些风格各异的油画。

下面我用几个生活中的比喻来拆解这项技术:

1. 核心挑战:为什么看“照片”和看“油画”不一样?

  • 现状:现在的 AI 很擅长看普通的照片(比如街景、猫狗),因为训练数据大多是这些。
  • 问题:但是,油画和照片不一样。油画有独特的笔触、构图和色彩风格。如果让一个只看过“照片”的 AI 直接去看“油画”,它就像是一个只吃过中餐的厨师突然被要求做正宗的法式大餐,味道肯定不对(这就是论文里说的“领域差距”)。
  • 目标:我们需要让 AI 学会“欣赏”油画,而不仅仅是识别物体。

2. SPGen 是如何工作的?(三大法宝)

法宝一:可学习的“注意力偏见” (Learnable Gaussian Priors)

  • 比喻:想象你在看一张新地图。通常,人的眼睛会不由自主地先看地图的正中心(这叫“中心偏见”)。
  • AI 的做法:SPGen 不仅仅是死板地看中心。它给自己装上了几个“可调节的滤镜”。这些滤镜就像不同形状的探照灯,有的聚光在中心,有的稍微偏一点。
  • 作用:AI 通过训练,自己学会在什么时候该用哪个“探照灯”。这让它能模拟出人类看画时那种既关注中心,又会被画面边缘的某个细节吸引的复杂心理。

法宝二:无监督的“领域适应” (Unsupervised Domain Adaptation)

  • 比喻:这就像是一个**“翻译官”**。
    • 我们有很多“照片”的视线数据(源领域),但很少“油画”的视线数据(目标领域)。
    • 我们不想重新收集成千上万的人眼数据去训练(太贵太慢)。
    • SPGen 使用了一种叫**“梯度反转层”的技术。你可以把它想象成一个“捣蛋鬼”**。
    • 原理:当 AI 试图区分“这是照片”还是“这是油画”时,这个“捣蛋鬼”会反过来告诉 AI:“别管这是照片还是油画,把它们当成一样的东西处理!”
    • 结果:AI 被迫忽略照片和油画之间的表面差异(比如照片更真实,油画有笔触),转而学习它们共同的本质(比如哪里是人脸,哪里是光影)。这样,它就能把看照片的经验完美迁移到看油画上,而无需额外的油画标注数据。

法宝三:引入“随机性” (Stochastic Generation)

  • 比喻:这是最关键的一点。如果让两个人看同一幅画,他们的视线轨迹永远不会完全一样。这就是人类的**“主观性”**。
  • AI 的难题:传统的 AI 是确定性的,给同样的输入,永远输出同样的结果(像机器人)。
  • SPGen 的解法:它在模型里加了一个**“骰子”**(随机噪声采样器)。
    • 还有一个叫**“温度” (Temperature)** 的旋钮。
    • 低温度:AI 比较保守,视线比较集中,像是一个严肃的评论家在仔细审视。
    • 高温度:AI 比较“放飞自我”,视线会散开,覆盖更广的区域,像是一个好奇的游客在随意浏览。
  • 意义:这让 AI 能为同一幅画生成多种不同但都合理的视线轨迹,完美模拟了人类视线的多样性。

3. 实验结果:它做得怎么样?

研究人员用了很多著名的数据集(比如 Salicon 照片集,以及 Le Meur 和 AVAtt 油画集)来测试。

  • 在照片上:SPGen 的表现超过了现有的所有最先进模型。它预测的视线轨迹在形状、方向和位置上都非常像真人。
  • 在油画上:这是最大的亮点。在使用了“领域适应”技术后,AI 看油画的能力突飞猛进。
    • 没适应前:AI 看油画像看照片,视线很局促,只盯着局部。
    • 适应后:AI 的视线开始覆盖整幅画,并且能抓住油画特有的艺术重点(比如人物的表情、独特的笔触)。
  • 定性展示:论文里的图片显示,AI 生成的视线轨迹(红点连线)与真实人类看画时的轨迹高度重合,而且通过调节“温度”,可以生成不同风格的视线探索路径。

4. 总结与意义

SPGen 就像是一个“懂艺术的 AI 心理学家”。

  • 它不仅能看:它能理解油画这种特殊文化载体的视觉规律。
  • 它能模拟:它能模拟出人类看画时那种“既受本能驱动(看中心),又受艺术引导(看细节),且充满随机性”的复杂过程。
  • 未来应用:这项技术对于文化遗产保护非常重要。未来,我们可以用它来分析人们如何欣赏古迹、雕塑,甚至为虚拟博物馆设计更智能的导览系统,告诉游客“这里值得多看两眼”,或者帮助修复受损的画作时,知道哪些部分对人类视觉最重要。

一句话总结
这篇论文发明了一个聪明的 AI,它学会了如何像人类一样“看”油画,不仅能适应油画的特殊风格,还能模拟出每个人看画时那种独一无二的、随机的视线移动轨迹。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →