Position: Evaluation of Visual Processing Should Be Human-Centered, Not Metric-Centered

该立场论文主张,视觉处理系统的评估范式应从过度依赖单一客观指标转向以人为中心、具备情境感知能力的综合评价体系,以解决现有指标与人类感知及用户偏好日益脱节的问题,从而避免误导研究进展并释放创新潜力。

Jinfan Hu, Fanghua Yu, Zhiyuan You, Xiang Yin, Hongyu An, Xinqi Lin, Chao Dong, Jinjin Gu

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文其实是在给计算机视觉界(特别是图像修复领域)提一个醒:我们太迷信“分数”了,却忘了“人”才是最终用户。

想象一下,你正在参加一场**“做菜大赛”**。

1. 现状:我们只盯着“卡路里计算器”

过去几十年,大家评判一道菜(也就是修复后的图片)好不好吃,主要靠一个**“卡路里计算器”**(也就是论文里说的 PSNR、SSIM 这些传统指标)。

  • 规则很简单:把修复后的菜和“标准菜谱”(原图)放在天平上称。如果重量、颜色、形状越接近,分数就越高。
  • 问题出在哪:现在的厨师(AI 模型)已经进化了,他们不再只是“还原”菜谱,而是开始**“创造”**。比如,原图里是一只模糊的猫,现在的 AI 能根据经验,把猫毛画得栩栩如生,甚至加上它没在图里有的胡须。
  • 尴尬的局面:因为这只猫是“新画”的,和原图不完全一样,那个死板的“卡路里计算器”就会扣分,说:“你偏离了标准菜谱,你不合格!”
  • 结果:为了拿高分,厨师们不敢发挥创意,只能把菜做得像“白开水”一样,虽然和原图一模一样(分数高),但索然无味,没人爱吃。

2. 核心观点:别被“分数”绑架,要问“人”喜不喜欢

这篇论文的作者们(一群顶尖的 AI 科学家)大声疾呼:别再让那个死板的计算器当裁判了!

  • 现在的 AI 像“魔术师”:现在的生成式 AI(比如 GAN 和扩散模型)就像魔术师,它们能变出原图里没有的细节(比如把模糊的人脸变清晰,甚至变出原本不存在的发丝)。
  • 分数的陷阱
    • 旧指标(PSNR/SSIM):完全看不懂魔术,只要变出来的东西和原图不一样,就判负。
    • 新指标(LPIPS 等):稍微聪明点,知道要看细节,但它们也有毛病。它们喜欢“噪点”和“锐化”。如果你把图片锐化得过度,甚至锐化得让人看着难受(比如把皮肤磨得像塑料,或者把背景模糊的地方强行变清晰),新指标反而会给高分。
    • 比喻:这就像有人为了在“清晰度测试”里拿高分,故意把照片调得刺眼、锐利,虽然分数爆了,但人眼看着累,根本不想看。

3. 真正的挑战:分数会“作弊”

论文里展示了一个很讽刺的现象:

  • 如果你给图片加一层“锐化滤镜”,或者故意制造一些杂乱的高频纹理,现在的 AI 评分系统会疯狂打高分。
  • 比喻:这就像学生为了在“字迹工整度”考试里拿满分,把字写得像印刷体一样僵硬,甚至把纸划破了(过度锐化),虽然机器觉得你“很工整”,但老师(人类)看着觉得这字毫无灵魂,甚至很难受。
  • 这就导致研究人员为了刷榜,开始研究怎么“骗”过评分系统,而不是怎么让图片真的变好看。

4. 未来的方向:从“单一分数”到“人类体验”

作者们建议,未来的评价标准应该像**“美食评论家”**,而不是“卡路里计算器”。

  • 分场景评价
    • 修复人脸时,我们要看五官是否自然、结构是否合理(不能把眼睛画歪了)。
    • 修复风景时,我们要看光影是否真实、树木纹理是否细腻。
    • 修复漫画时,我们要看线条是否流畅,风格是否统一。
    • 比喻:你不能拿评价“红烧肉”的标准(要软烂入味)去评价“刺身”(要鲜嫩爽脆)。现在的 AI 模型在不同场景下表现不同,用一个总分来概括是不公平的。
  • 引入人类视角
    • 我们需要更多**“人眼投票”**。让真实的人去看不一样的修复结果,告诉他们:“你更喜欢哪一张?为什么?”
    • 我们需要**“多维度的反馈”**:不要只给一个 90 分,而要告诉模型:“你的清晰度很好,但人脸有点假,背景太锐化了。”

5. 总结:别为了“赢比赛”而忘了“做菜”

这篇论文的核心思想非常朴素:
图像修复的终极目标,是让人看着舒服、看着真实,而不是让那个冷冰冰的数学公式打出一个漂亮的数字。

  • 过去:我们为了刷高 PSNR 分数,做出了很多“虽然分数高,但看起来像假人”的图片。
  • 现在:AI 已经能做出很逼真的图了,但评分系统还停留在过去,甚至开始鼓励“过度锐化”这种怪胎。
  • 未来:我们要把**“人类的主观感受”**重新请回 C 位。让 AI 去研究怎么让人类开心,而不是怎么让机器打高分。

一句话总结
别让 AI 为了在“考试”里拿满分,而把“生活”过得面目全非。我们要的是**“人见人爱”的好图,而不是“机器高分”**的怪图。