Evaluating Generative Models via One-Dimensional Code Distributions

该论文提出了一种基于离散视觉令牌空间的新评估范式,通过引入无需训练的代码本直方图距离(CHD)和基于合成退化的无参考代码混合模型得分(CMMS),并结合包含 21 万张图像的大规模基准 VisForm,实现了在生成模型质量评估中与人类判断高度相关且优于现有方法的性能。

Zexi Jia, Pengcheng Luo, Yijia Zhong, Jinchao Zhang, Jie Zhou

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给“人工智能画画”这件事找一把更聪明的尺子

以前,我们评价 AI 画的画好不好,用的尺子(比如 FID)有点“笨”。这篇论文提出了一种全新的评价方法,把复杂的图像变成了简单的“代码积木”,通过数积木的规律来判断画得好不好。

下面我用几个生活中的比喻来给你讲讲这篇论文到底在说什么:

1. 以前的尺子为什么“笨”?(连续特征 vs. 离散代码)

想象一下,你让 AI 画一只猫。

  • 旧方法(FID 等):就像让一个只懂大道理但不懂细节的教授来评价。这位教授只看猫的大轮廓(比如“这是只猫”),但他对猫毛的质感、眼神的灵动、或者耳朵画歪了这种细节视而不见。因为他的训练目标就是“认出这是猫”,所以他把所有猫都看成差不多,忽略了画得“像不像”和“美不美”的细节。
  • 新方法(本文):就像让一个精通乐高积木的工匠来评价。AI 把画好的图拆解成一个个微小的“代码积木”(Token)。工匠不看整体轮廓,而是数一数:
    • 用了多少种颜色的积木?(词汇量对不对)
    • 积木的排列顺序顺不顺?(语法对不对,比如猫耳朵是不是长在头上,而不是长在尾巴上)

核心观点:以前的尺子太关注“这是什么”,新的尺子关注“画得细不细、顺不顺”。

2. 他们发明了哪两把新尺子?

论文提出了两个新工具,专门用来数这些“代码积木”:

A. CHD(代码直方图距离)—— 检查“词汇”和“语法”

  • 作用:这是一个不需要训练的自动检查员。
  • 比喻
    • 1D 检查(词汇表):就像检查一篇文章里用的对不对。如果 AI 画猫,却用了大量“汽车”或“香蕉”的积木,那肯定画错了。
    • 2D 检查(语法结构):就像检查句子的语序。如果文章里全是好字,但“猫吃鱼”写成了“鱼吃猫”,或者“红色的耳朵”写成了“耳朵红色的”,语法就乱了。
  • 效果:它能敏锐地发现 AI 是“乱用词”还是“乱排版”,而且不需要教它什么是好画,它自己就能通过统计规律看出来。

B. CMMS(代码混合模型分数)—— 给单张画打分

  • 作用:这是一个不需要参考原图就能给画打分的“鉴赏家”。
  • 比喻
    • 想象你在教一个 AI 鉴赏家什么是“坏画”。你不需要给它看真画,而是故意把真画弄坏
      • 把积木随机打乱(模拟 AI 乱画)。
      • 把积木换成乱码(模拟噪点)。
      • 把画模糊、变暗(模拟画质差)。
    • 然后告诉 AI 鉴赏家:“这些被弄坏的画,坏得越厉害,分数越低。”
    • 经过这种“特训”后,鉴赏家就学会了:只要看到积木排列混乱、有奇怪的噪点,就自动扣分。
  • 优势:它不需要拿 AI 画的画和原图对比(因为 AI 画猫本来就不一定和原图一模一样),它只看画本身“顺不顺眼”。

3. 他们做了一个巨大的“考试卷”:VisForm

为了证明他们的尺子真的好用,他们搞了一个超级大题库,叫 VisForm

  • 规模:21 万张图,涵盖了 62 种不同的风格(从照片、油画、动漫到医疗 X 光片、科学图表)。
  • 目的:以前的尺子只擅长评价“照片”,换个风格(比如画个抽象画)就瞎了。VisForm 就像一场全科考试,专门测试新尺子能不能在各种奇怪的画风里都保持公正。
  • 结果:专家人工打分后,发现新尺子(CHD 和 CMMS)和专家的意见高度一致,比以前的尺子准得多。

4. 总结:为什么这很重要?

  • 更懂人类:以前的尺子觉得“只要像猫就行”,新尺子知道“猫毛要顺滑、眼睛要对称”才叫画得好。
  • 更通用:不管 AI 画的是照片、漫画还是科学图,这把尺子都能用。
  • 更省钱:以前为了训练评价模型,需要大量人类专家打分(很贵);现在的新方法,大部分是自动统计规律,或者用“故意弄坏图片”来训练,大大降低了成本。

一句话总结
这篇论文把评价 AI 画画,从“让教授看大概”变成了“让工匠数积木”,发现数积木的规律比看大轮廓更能精准地判断画得美不美。