Evaluating quality metrics through the lenses of psychophysical measurements of low-level vision

本文提出了一套基于对比敏感度、对比掩蔽和对比匹配等低层视觉心理物理原理的测试框架,用于评估 34 种现有图像和视频质量指标在模拟人类视觉感知方面的能力,并揭示了它们在预测特定视觉特性时的优势与局限。

Dounia Hammou, Yancheng Cai, Pavan Madhusudanarao, Christos G. Bampis, Rafał K. Mantiuk

发布于 Mon, 09 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给各种“图像质量评分员”(比如 SSIM、LPIPS、VMAF 等)做一场特殊的体检

通常,我们怎么判断一个评分员好不好呢?通常是拿它去和“人类观众”的打分做对比(比如人类觉得这张图很糊,评分员也给了低分,那就说明它准)。但这篇论文的作者觉得,光看总分不够,他们想深入看看这些评分员的大脑内部机制到底是不是真的像人类的眼睛。

他们设计了一套“心理物理学”测试,简单说,就是用人类眼睛的生理特性作为标尺,去衡量这些算法

以下是这篇论文的核心内容,用几个生动的比喻来解释:

1. 核心概念:人类眼睛的“特殊滤镜”

人类的眼睛不是普通的照相机。

  • 对比度敏感度(Contrast Sensitivity): 就像我们的眼睛对某些频率的波纹特别敏感,对另一些则很迟钝。比如,我们很容易看清中等粗细的条纹,但看不清特别细或特别粗的条纹。
  • 对比度掩蔽(Contrast Masking): 就像在嘈杂的派对上(背景有纹理),你很难听清别人小声说话(细微的瑕疵);但在安静的房间里(背景是纯色),一点点声音都很刺耳。
  • 超阈值恒常性(Contrast Constancy): 这是一个很神奇的现象。当物体变得非常亮或非常暗(远超我们刚能看见的门槛)时,无论它是细条纹还是粗条纹,我们觉得它们的“明显程度”其实差不多。

2. 论文做了什么?(三大测试关卡)

作者给 34 种现有的评分算法设计了三个关卡,看看它们能不能通过:

第一关:视力表测试(对比度检测)

  • 测试内容: 在纯色背景上放一个忽隐忽现的波纹,看算法能不能像人眼一样,在特定的频率下最容易发现它。
  • 比喻: 就像让算法看视力表。
  • 发现:
    • SSIM(老派算法): 像个“偏执狂”,它总觉得特别细的纹理最重要,哪怕人眼根本看不清那么细的瑕疵,它也大惊小怪。
    • MS-SSIM(升级版): 聪明了一点,学会了像人眼一样,对中等频率最敏感,对极细和极粗的都不那么在意。
    • LPIPS(深度学习算法): 表现不错,但也有一些奇怪的偏差。
    • ColorVideoVDP: 这个算法是“优等生”,因为它直接把人眼的生理模型写进了代码里,所以它最像人眼。

第二关:嘈杂环境测试(对比度掩蔽)

  • 测试内容: 在复杂的背景(比如噪点或纹理)上放一个瑕疵,看算法能不能像人眼一样,知道“背景太乱时,小瑕疵可以忽略不计”。
  • 比喻: 就像在满是杂物的桌子上找一根针。如果桌子很乱,人眼会觉得“反正都乱,这根针看不见也没事”;如果桌子很干净,一根针就特别显眼。
  • 发现:
    • PSNR、SSIM 等老算法: 它们很“死板”。不管背景乱不乱,只要有一点点瑕疵,它们就疯狂报警。它们不懂“掩蔽”效应。
    • LPIPS 和 DISTS(深度学习): 它们表现得非常惊人!虽然它们没学过人眼生理学,但它们在训练过程中自己“悟”出了掩蔽规律。特别是在背景杂乱时,它们能很好地忽略细微瑕疵,这让人类科学家都感到惊讶。
    • VMAF(视频界的大佬): 它只在瑕疵非常明显(超阈值)时才表现出掩蔽效应,对于那种“若隐若现”的瑕疵,它还是太敏感了。

第三关:色彩与闪烁测试(匹配测试)

  • 测试内容:
    1. 闪烁检测: 视频里的快速闪烁,人眼在特定频率下最敏感,算法能看出来吗?
    2. 色彩匹配: 红色、绿色、黄色在不同亮度下,人眼觉得它们“一样亮”吗?
  • 发现:
    • 闪烁检测: 大多数视频算法(包括 VMAF)都失败了。它们只看短短几帧,就像用快进键看电影,根本感觉不到那种“嗡嗡”的闪烁感。只有少数专门针对人眼生理设计的算法(如 ColorVideoVDP)能识别出来。
    • 色彩匹配: 很多算法在色彩上“偏科”。有的觉得黑白对比最重要,有的觉得红绿对比最重要,没法像人眼那样在不同颜色间保持平衡。

3. 最有趣的结论(打破常识)

  1. AI 的“黑盒”其实很懂人眼: 像 LPIPS 这样的深度学习算法,虽然没人教它们“人眼生理模型”,但它们通过看海量图片,自己学会了模仿人眼对“掩蔽效应”的处理。这就像一只没学过物理的鸟,飞起来却完美符合空气动力学。
  2. 传统算法的“偏见”: 像 SSIM 这种经典算法,其实有点“过度敏感”,它太在意那些人类根本注意不到的细节(高频噪声),导致评分和人眼感受有偏差。
  3. 没有完美的算法: 即使是最好的算法,也还没能完全模拟人类在“超阈值”(非常亮或非常暗)情况下的“对比度恒常性”——即无论背景多乱,只要瑕疵够大,人眼就觉得它很明显,但算法往往算不准这种“大瑕疵”在不同频率下的表现。

总结

这篇论文就像给图像质量评估领域做了一次深度 X 光扫描

它告诉我们:不要只看算法在“总分”上和人眼有多像,要看它是不是真的“理解”了人眼的工作原理。

  • 如果你需要评估视频压缩,VMAF 依然好用,但它对闪烁和细微瑕疵的模拟还不够完美。
  • 如果你需要评估图像细节,LPIPS 等深度学习算法在模拟“掩蔽效应”上表现出色,是个惊喜。
  • 如果你追求极致的生理模拟,ColorVideoVDP 是目前最接近人类眼睛的“生理学家”。

作者最后说,他们把这个测试框架开源了,希望未来的算法开发者能用这套“体检表”来检查自己的产品,造出更懂人类眼睛的评分工具。