SPGen: Stochastic scanpath generation for paintings using unsupervised domain adaptation

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 SPGen 的人工智能系统，它的核心任务是**“模拟人类看画时的眼神轨迹”**。

想象一下，当你走进美术馆，站在梵高的《星月夜》或达芬奇的《蒙娜丽莎》面前时，你的眼睛会怎么移动？你会先看哪里？然后看哪里？最后看哪里？这就是所谓的**“扫描路径”（Scanpath）**。

这篇论文就是为了解决一个难题：如何让电脑像人一样，不仅知道画里哪里“重要”，还能模拟出人类看画时那种“随机”且“独特”的视线移动过程，特别是针对那些风格各异的油画。

下面我用几个生活中的比喻来拆解这项技术：

1. 核心挑战：为什么看“照片”和看“油画”不一样？

现状：现在的 AI 很擅长看普通的照片（比如街景、猫狗），因为训练数据大多是这些。
问题：但是，油画和照片不一样。油画有独特的笔触、构图和色彩风格。如果让一个只看过“照片”的 AI 直接去看“油画”，它就像是一个只吃过中餐的厨师突然被要求做正宗的法式大餐，味道肯定不对（这就是论文里说的“领域差距”）。
目标：我们需要让 AI 学会“欣赏”油画，而不仅仅是识别物体。

2. SPGen 是如何工作的？（三大法宝）

法宝一：可学习的“注意力偏见” (Learnable Gaussian Priors)

比喻：想象你在看一张新地图。通常，人的眼睛会不由自主地先看地图的正中心（这叫“中心偏见”）。
AI 的做法：SPGen 不仅仅是死板地看中心。它给自己装上了几个“可调节的滤镜”。这些滤镜就像不同形状的探照灯，有的聚光在中心，有的稍微偏一点。
作用：AI 通过训练，自己学会在什么时候该用哪个“探照灯”。这让它能模拟出人类看画时那种既关注中心，又会被画面边缘的某个细节吸引的复杂心理。

法宝二：无监督的“领域适应” (Unsupervised Domain Adaptation)

比喻：这就像是一个**“翻译官”**。
- 我们有很多“照片”的视线数据（源领域），但很少“油画”的视线数据（目标领域）。
- 我们不想重新收集成千上万的人眼数据去训练（太贵太慢）。
- SPGen 使用了一种叫**“梯度反转层”的技术。你可以把它想象成一个“捣蛋鬼”**。
- 原理：当 AI 试图区分“这是照片”还是“这是油画”时，这个“捣蛋鬼”会反过来告诉 AI：“别管这是照片还是油画，把它们当成一样的东西处理！”
- 结果：AI 被迫忽略照片和油画之间的表面差异（比如照片更真实，油画有笔触），转而学习它们共同的本质（比如哪里是人脸，哪里是光影）。这样，它就能把看照片的经验完美迁移到看油画上，而无需额外的油画标注数据。

法宝三：引入“随机性” (Stochastic Generation)

比喻：这是最关键的一点。如果让两个人看同一幅画，他们的视线轨迹永远不会完全一样。这就是人类的**“主观性”**。
AI 的难题：传统的 AI 是确定性的，给同样的输入，永远输出同样的结果（像机器人）。
SPGen 的解法：它在模型里加了一个**“骰子”**（随机噪声采样器）。
- 还有一个叫**“温度” (Temperature)** 的旋钮。
- 低温度：AI 比较保守，视线比较集中，像是一个严肃的评论家在仔细审视。
- 高温度：AI 比较“放飞自我”，视线会散开，覆盖更广的区域，像是一个好奇的游客在随意浏览。
意义：这让 AI 能为同一幅画生成多种不同但都合理的视线轨迹，完美模拟了人类视线的多样性。

3. 实验结果：它做得怎么样？

研究人员用了很多著名的数据集（比如 Salicon 照片集，以及 Le Meur 和 AVAtt 油画集）来测试。

在照片上：SPGen 的表现超过了现有的所有最先进模型。它预测的视线轨迹在形状、方向和位置上都非常像真人。
在油画上：这是最大的亮点。在使用了“领域适应”技术后，AI 看油画的能力突飞猛进。
- 没适应前：AI 看油画像看照片，视线很局促，只盯着局部。
- 适应后：AI 的视线开始覆盖整幅画，并且能抓住油画特有的艺术重点（比如人物的表情、独特的笔触）。
定性展示：论文里的图片显示，AI 生成的视线轨迹（红点连线）与真实人类看画时的轨迹高度重合，而且通过调节“温度”，可以生成不同风格的视线探索路径。

4. 总结与意义

SPGen 就像是一个“懂艺术的 AI 心理学家”。

它不仅能看：它能理解油画这种特殊文化载体的视觉规律。
它能模拟：它能模拟出人类看画时那种“既受本能驱动（看中心），又受艺术引导（看细节），且充满随机性”的复杂过程。
未来应用：这项技术对于文化遗产保护非常重要。未来，我们可以用它来分析人们如何欣赏古迹、雕塑，甚至为虚拟博物馆设计更智能的导览系统，告诉游客“这里值得多看两眼”，或者帮助修复受损的画作时，知道哪些部分对人类视觉最重要。

一句话总结：
这篇论文发明了一个聪明的 AI，它学会了如何像人类一样“看”油画，不仅能适应油画的特殊风格，还能模拟出每个人看画时那种独一无二的、随机的视线移动轨迹。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文 SPGen: Stochastic scanpath generation for paintings using unsupervised domain adaptation 的详细技术总结。

1. 研究背景与问题 (Problem)

核心挑战：理解人类视觉注意力对于保护文化遗产（特别是绘画作品）至关重要。然而，现有的视觉注意力模型大多在自然场景（如照片）上训练，直接应用于绘画作品时存在显著的域差异（Domain Gap）。绘画具有独特的风格、构图和语义特征，导致模型在自然场景上学到的特征无法准确迁移到绘画领域。
现有局限：
- 确定性 vs. 随机性：大多数深度学习模型是确定性的，即对同一输入产生固定输出。然而，人类的注视路径（Scanpath）具有内在的随机性和主观性（不同观察者甚至同一观察者在不同时间对同一图像的注视路径不同）。
- 数据稀缺：绘画领域的眼动追踪数据（Ground Truth）非常稀缺，难以直接训练高性能模型。
- 固定长度：许多现有方法生成的注视路径长度固定，无法模拟人类注视长度的可变性。

2. 方法论 (Methodology)

作者提出了 SPGen，一种基于全卷积神经网络（FCNN）的新型深度学习模型，旨在通过无监督域适应（Unsupervised Domain Adaptation, UDA）生成绘画的随机注视路径。

2.1 整体架构

模型主要包含以下核心组件：

特征提取器 (Feature Extractor)：使用 MobileNet 作为骨干网络，从输入图像中提取高效的多尺度特征。
可学习的域先验偏置图 (Learnable Domain Prior Bias Maps)：
- 引入可学习的注意力偏置（Attention Biases），模拟人类视觉中的“中心偏置”（Center Bias）现象。
- 这些偏置图与特征图拼接，帮助模型区分任务特定的特征和通用的视觉偏置，特别是在域适应过程中。
合并卷积模块 (Merging Convolution)：将提取的特征与先验偏置图合并，通过一系列卷积层进一步提取与注视路径预测相关的特定特征。
Soft-ArgMax 函数：将加权后的特征图转换为连续的注视点坐标，实现从离散特征到连续空间坐标的映射。
注视选择器 (Fixation Selector)：
- 利用全局池化（Global Pooling）和多层感知机（MLP）生成二值掩码。
- 该模块负责动态选择哪些预测点成为最终的注视点，从而生成可变长度的注视路径。
- 通过梯度截断和乘法操作解决二值化不可微的问题，确保梯度能够反向传播。
随机生成机制 (Stochastic Generation)：
- 在潜在空间中引入随机噪声采样器（Random Noise Sampler）。
- 通过温度参数 (Temperature, $T$ ) 调节噪声强度（ $L \times T$ ），控制生成路径的随机性。这使得模型能为同一张图像生成多条不同的、符合人类主观差异的注视路径。

2.2 无监督域适应 (Unsupervised Domain Adaptation)

为了解决自然场景（源域）到绘画（目标域）的迁移问题，模型采用了基于梯度反转层 (Gradient Reversal Layer, GRL) 的对抗训练策略：

机制：在特征提取器后添加一个域分类器分支，用于区分图像是来自自然场景还是绘画。
GRL 作用：在反向传播时，GRL 将梯度乘以 -1。这迫使特征提取器学习一个域不变的特征表示（即让分类器无法区分域来源），同时保留对注视路径预测有用的共享特征。
数据：使用有标签的自然场景数据（Salicon）和无标签的绘画数据（从网络爬取）进行混合训练，无需绘画的注视路径标注即可实现域适应。

3. 主要贡献 (Key Contributions)

高效的深度生成模型：提出了一种基于 FCNN 的模型，能够直接从图像生成向量序列（注视路径）。
可变长度生成：引入选择性模块（Fixation Selector），使网络能够生成不同长度的注视路径，更贴近人类行为。
随机性建模：在模型中引入随机噪声采样和温度参数，成功模拟了眼动数据的随机性和主观性，能够生成多样化的注视路径。
任务特定先验：集成了可学习的先验偏置图，帮助模型更好地处理视觉注意力任务中的固有偏差。
无监督域适应：利用对抗训练将模型从自然场景成功迁移到绘画领域，无需目标域（绘画）的标注数据即可实现高精度预测。
全面评估：在自然场景（Salicon, MIT1003）和绘画数据集（Le Meur, AVAtt）上进行了广泛的定性和定量实验。

4. 实验结果 (Results)

4.1 自然场景数据集 (Salicon & MIT1003)

性能表现：SPGen 在 MultiMatch 指标（Shape, Length, Position）上表现优异，综合得分（MM Score）略优于或持平于最先进模型（如 SALYPATH, PathGAN）。
NSS 指标：在归一化扫描路径显著性（NSS）指标上取得了最佳成绩，表明模型生成的注视点与显著性区域的对齐度极高。
消融实验：
- 移除先验偏置图（Prior maps）导致性能轻微下降。
- 移除注视选择器（Fixation selector）导致 MM Score 显著下降，证明了该模块对生成人类风格路径的重要性。
温度参数影响：实验表明，较低的温度（较少噪声）通常能带来更高的 NSS 和 Congruency 分数，即更准确的预测；较高的温度增加了路径的多样性但略微降低了精度。

4.2 绘画数据集 (Le Meur & AVAtt)

域适应效果：
- 在 Le Meur 数据集上，应用域适应（DA）后，NSS 分数从 1.36 提升至 1.51，Congruency 从 0.40 提升至 0.42。
- 在 AVAtt 数据集上，应用 DA 后，MM Score 从 0.82 提升至 0.83，NSS 从 0.64 提升至 0.65。
定性分析：可视化结果显示，未经域适应的模型生成的注视路径较短且集中在局部；经过域适应后，模型生成的路径覆盖了更广泛的区域，并与绘画的显著性区域高度吻合，能够适应不同的艺术风格（如文艺复兴、巴洛克、中国水墨画等）。

5. 意义与结论 (Significance & Conclusion)

文化遗产保护：该研究为分析人类如何欣赏艺术提供了强有力的工具，有助于理解不同文化背景下的视觉认知机制，对文化遗产的数字化保护和展示（如虚拟博物馆）具有重要价值。
技术突破：SPGen 成功解决了跨域（自然场景到艺术）的视觉注意力建模难题，并有效处理了眼动数据的随机性和主观性，填补了现有研究在绘画领域注视路径生成方面的空白。
未来展望：当前模型尚无法预测注视持续时间（Fixation Duration），未来的工作将致力于引入时间预测模块，以构建更完整的眼动模拟系统。

总结：SPGen 通过结合可学习的先验、随机生成机制和无监督域适应技术，实现了对绘画作品人类注视路径的高精度、多样化预测，显著提升了模型在艺术领域的泛化能力。