Position: Evaluation of Visual Processing Should Be Human-Centered, Not Metric-Centered

Each language version is independently generated for its own context, not a direct translation.

这篇论文其实是在给计算机视觉界（特别是图像修复领域）提一个醒：我们太迷信“分数”了，却忘了“人”才是最终用户。

想象一下，你正在参加一场**“做菜大赛”**。

过去几十年，大家评判一道菜（也就是修复后的图片）好不好吃，主要靠一个**“卡路里计算器”**（也就是论文里说的 PSNR、SSIM 这些传统指标）。

规则很简单：把修复后的菜和“标准菜谱”（原图）放在天平上称。如果重量、颜色、形状越接近，分数就越高。
问题出在哪：现在的厨师（AI 模型）已经进化了，他们不再只是“还原”菜谱，而是开始**“创造”**。比如，原图里是一只模糊的猫，现在的 AI 能根据经验，把猫毛画得栩栩如生，甚至加上它没在图里有的胡须。
尴尬的局面：因为这只猫是“新画”的，和原图不完全一样，那个死板的“卡路里计算器”就会扣分，说：“你偏离了标准菜谱，你不合格！”
结果：为了拿高分，厨师们不敢发挥创意，只能把菜做得像“白开水”一样，虽然和原图一模一样（分数高），但索然无味，没人爱吃。

这篇论文的作者们（一群顶尖的 AI 科学家）大声疾呼：别再让那个死板的计算器当裁判了！

现在的 AI 像“魔术师”：现在的生成式 AI（比如 GAN 和扩散模型）就像魔术师，它们能变出原图里没有的细节（比如把模糊的人脸变清晰，甚至变出原本不存在的发丝）。
分数的陷阱：
- 旧指标（PSNR/SSIM）：完全看不懂魔术，只要变出来的东西和原图不一样，就判负。
- 新指标（LPIPS 等）：稍微聪明点，知道要看细节，但它们也有毛病。它们喜欢“噪点”和“锐化”。如果你把图片锐化得过度，甚至锐化得让人看着难受（比如把皮肤磨得像塑料，或者把背景模糊的地方强行变清晰），新指标反而会给高分。
- 比喻：这就像有人为了在“清晰度测试”里拿高分，故意把照片调得刺眼、锐利，虽然分数爆了，但人眼看着累，根本不想看。

论文里展示了一个很讽刺的现象：

如果你给图片加一层“锐化滤镜”，或者故意制造一些杂乱的高频纹理，现在的 AI 评分系统会疯狂打高分。
比喻：这就像学生为了在“字迹工整度”考试里拿满分，把字写得像印刷体一样僵硬，甚至把纸划破了（过度锐化），虽然机器觉得你“很工整”，但老师（人类）看着觉得这字毫无灵魂，甚至很难受。
这就导致研究人员为了刷榜，开始研究怎么“骗”过评分系统，而不是怎么让图片真的变好看。

作者们建议，未来的评价标准应该像**“美食评论家”**，而不是“卡路里计算器”。

分场景评价：
- 修复人脸时，我们要看五官是否自然、结构是否合理（不能把眼睛画歪了）。
- 修复风景时，我们要看光影是否真实、树木纹理是否细腻。
- 修复漫画时，我们要看线条是否流畅，风格是否统一。
- 比喻：你不能拿评价“红烧肉”的标准（要软烂入味）去评价“刺身”（要鲜嫩爽脆）。现在的 AI 模型在不同场景下表现不同，用一个总分来概括是不公平的。
引入人类视角：
- 我们需要更多**“人眼投票”**。让真实的人去看不一样的修复结果，告诉他们：“你更喜欢哪一张？为什么？”
- 我们需要**“多维度的反馈”**：不要只给一个 90 分，而要告诉模型：“你的清晰度很好，但人脸有点假，背景太锐化了。”

这篇论文的核心思想非常朴素：
图像修复的终极目标，是让人看着舒服、看着真实，而不是让那个冷冰冰的数学公式打出一个漂亮的数字。

一句话总结：
别让 AI 为了在“考试”里拿满分，而把“生活”过得面目全非。我们要的是**“人见人爱”的好图，而不是“机器高分”**的怪图。

类似论文