Fine-grained Image Aesthetic Assessment: Learning Discriminative Scores from Relative Ranks

本文提出了名为 FGAesthetics 的细粒度图像美学评估数据库及 FGAesQ 框架,通过引入成对比较标注、数据清洗机制以及基于相对排名的判别性评分学习策略,有效解决了现有模型难以区分细微美学差异的难题,并在细粒度与粗粒度评估中均展现出优越性能。

Zhichao Yang, Jianjie Wang, Zhixianhe Zhang, Pangu Xie, Xiangfei Sheng, Pengfei Chen, Leida Li

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于“如何教电脑像专业摄影师一样,从一堆看起来很像的照片里挑出最好看的那一张”的故事。

为了让你更容易理解,我们可以把这项研究想象成**“在双胞胎中分辨谁更漂亮”**的任务。

1. 以前的难题:只能挑“大象”,看不见“蚊子”

以前的图像审美评估(IAA)就像是一个**“粗线条的裁判”**。

  • 以前的做法:给它看一张风景照和一张模糊的废片,它能轻松判断风景照更好。这就像在“大象”和“蚊子”之间做选择,差别巨大,很容易。
  • 现在的痛点:但在现实生活中(比如你拍了一组婚礼照片,或者 AI 生成了 10 张类似的图),照片之间长得非常像,只是光线稍微亮了一点,或者构图稍微偏了一点点。以前的裁判面对这种“双胞胎”级别的细微差别,就晕头转向了,分不清谁更好。

2. 新工具:FGAesthetics(超级精细的“找不同”题库)

为了解决这个问题,作者们建立了一个全新的**“找不同”题库**,叫 FGAesthetics

  • 怎么做的? 他们收集了 3 万多张照片,把它们分成 1 万多个“家族”(Series)。每个家族里的照片都长得极像(比如同一场景的不同裁剪、AI 生成的不同参数版本)。
  • 怎么打分? 他们不像以前那样给每张照片单独打分(比如 8 分、9 分),而是让人类评委在这些“双胞胎”照片里两两 PK
    • 比喻:就像让评委在两张几乎一样的苹果里选:“这张比那张稍微红一点点”。通过这种**“相对排名”**(谁比谁好),而不是“绝对分数”,收集到了更精准的审美数据。
  • 数据来源:不仅有人拍的自然照片,还有 AI 生成的图,以及同一张照片的不同裁剪版本,非常全面。

3. 新模型:FGAesQ(拥有“火眼金睛”的超级裁判)

有了题库,作者们训练了一个新模型叫 FGAesQ。它有三个独门绝技,专门用来处理这种“细微差别”:

  • 绝技一:DiffToken(放大镜模式)

    • 原理:当两张照片大部分都一样时,模型不会傻乎乎地看整张图。它会像拿着放大镜一样,专门盯着两张照片不一样的地方(比如光影的微小变化、构图的微小偏移),把这些细节放大看,而把相同的地方缩小看。
    • 比喻:就像在找茬游戏里,你不需要看整个画面,只需要盯着那个“不一样的像素点”。
  • 绝技二:CTAlign(语言引导模式)

    • 原理:模型会利用强大的 AI 语言模型(像 GPT-4)来“写评语”。让 AI 用文字描述这两张照片的细微差别(比如"A 图的光线更柔和,B 图显得有点生硬”),然后强迫视觉模型去理解这些文字描述。
    • 比喻:就像老师教学生:“你看,这张照片好在哪里?因为它的阴影更自然。”通过语言引导,让模型学会关注那些人类觉得重要的细节。
  • 绝技三:RankReg(排名校准模式)

    • 原理:模型不仅学习给照片打分,还学习**“谁比谁好”**的排名逻辑。它确保如果模型觉得 A 比 B 好,那么 A 的分数必须高于 B,并且这种高低关系要符合人类的直觉。
    • 比喻:就像跑步比赛,它不仅要给每个人计时,还要确保第一名跑得比第二名快,第二名比第三名快,逻辑完全自洽。

4. 成果:既懂“大象”,也懂“蚊子”

这个新模型最厉害的地方在于**“文武双全”**:

  • 精细任务:在那些长得极像的照片里,它能精准地挑出最好看的那一张(比如从 10 张 AI 生成的图中选出最完美的一张)。
  • 粗线条任务:它也没有丢掉以前的能力,依然能很好地判断一张风景照是不是比一张废片好看。
  • 对比结果:在测试中,以前的顶级模型在面对“双胞胎”照片时经常翻车,而 FGAesQ 却能像专业摄影师一样,敏锐地捕捉到那些微妙的“美感差异”。

总结

简单来说,这篇论文就是给电脑装上了一双“显微镜”和一本“审美字典”。它不再只是简单地给照片打分,而是学会了像人类一样,在成千上万张相似的照片中,通过比较细节观察,找出那一张真正“更胜一筹”的佳作。

这对我们未来的应用很有帮助,比如:

  • 相册管理:自动帮你从连拍的 10 张里挑出最好看的一张。
  • AI 绘画:让 AI 知道哪个参数生成的图更完美,从而自我进化。
  • 摄影辅助:实时告诉你,稍微调整一下构图,照片会变得更美。