UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation

本文针对现有文生图基准在提示多样性、多语言支持及细粒度评估方面的不足,提出了包含 600 个分层提示、覆盖 10 个主维度与 27 个子维度的统一语义评估基准 UniGenBench++,并构建了基于多模态大模型的自动化评估流程及离线评估工具,以全面、系统地评测各类文生图模型的语义一致性。

Yibin Wang, Zhimin Li, Yuhang Zang, Jiazi Bu, Yujie Zhou, Yi Xin, Junjun He, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang

发布于 2026-02-25
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 UniGenBench++ 的新工具,你可以把它想象成是给“文生图”AI 模型(比如 Midjourney, DALL-E 3 等)进行的一场“全科目、多语言、高难度”的期末考试

以前,我们评价 AI 画画画得好不好,往往只看它画得“像不像”,或者能不能画出简单的物体(比如“画一只猫”)。但现在的 AI 越来越聪明,简单的测试已经不够用了。UniGenBench++ 就是为了解决这个问题而诞生的。

下面我用几个生动的比喻来拆解这篇论文的核心内容:

1. 为什么要考这个试?(背景与痛点)

想象一下,以前的考试就像是在幼儿园

  • 题目太简单:只问“画个苹果”,AI 只要画个红色的圆就行。
  • 题目太单一:全是英文,而且句子都很短。
  • 评分太粗糙:老师只看一眼,觉得“嗯,是个苹果”,就给满分。

但这就像让一个大学生去考幼儿园的题,根本测不出他真正的水平。现在的 AI 需要处理更复杂的指令,比如“画一个穿着宇航服的人骑在由星尘组成的龙背上,穿过土星的光环,背景要有油画质感”。如果 AI 连这种复杂的逻辑、颜色、材质和空间关系都搞不定,那它离真正的“智能”还差得远。

2. UniGenBench++ 考什么?(核心创新)

这个新考试就像是一个精心设计的“全能挑战赛”,它有三大法宝:

🌟 法宝一:题库超级丰富(5 大主题,20 个子类)

以前的题目可能只有“画动物”或“画风景”。UniGenBench++ 把题目分成了五大类,覆盖了真实世界的各种需求:

  • 创意发散:比如“画一个不可能存在的梦境”。
  • 艺术风格:比如“用油画风格”、“用摄影风格”。
  • 插画故事:比如“画一个有广告语的海报”。
  • 影视故事:比如“科幻电影场景”或“动画风格”。
  • 设计应用:比如“画一个游戏 UI 界面”或“设计一个 Logo"。
    比喻:这就像不仅考你“跑步”,还考你“游泳、跳高、下棋、画画”,全方位测试你的能力。

🌟 法宝二:题目有长有短,有中文有英文(双语 + 长短句)

这是它的独特之处。

  • 双语:不仅考英文,还考中文。因为很多 AI 画英文图很溜,但一看到中文提示词就“晕头转向”。
  • 长短句
    • 短句:像“画一只猫”。
    • 长句:像“画一只猫,它戴着红色的帽子,坐在窗台上,窗外下着雨,它看起来有点忧郁,风格要是水彩画”。
      比喻:这就像不仅考你“听写单词”,还考你“听写长文章”,甚至还要你“用中文和英文分别听写”,看看你是不是真的懂语言,还是只会死记硬背。

🌟 法宝三:评分像“显微镜”一样细致(27 个细分维度)

以前的评分是“及格/不及格”。现在的评分是**“找茬模式”**。
对于每一张图,评委(一个超级智能的 AI 老师,叫 Gemini-2.5-Pro)会拿着放大镜,从 27 个不同的角度去检查:

  • 逻辑对吗?(比如:人能不能坐在龙背上?)
  • 关系对吗?(比如:猫是不是在窗户“里面”而不是“外面”?)
  • 材质对吗?(比如:龙是不是由“星尘”组成的,而不是石头?)
  • 文字对吗?(比如:海报上的字是不是写对了?)
    比喻:以前的老师只看“画得像不像”,现在的老师会拿着放大镜看:“这个人的手指是不是多了一根?”“这个阴影的方向是不是反了?”“这个逻辑是不是通的?”

3. 怎么打分?(评估流程)

为了不让人类老师累死,作者训练了一个**“超级阅卷机器人”**(基于 Gemini-2.5-Pro)。

  • 流程:AI 生成图片 -> 阅卷机器人看图 -> 对照题目里的每一个小要求(比如“龙要是透明的”) -> 打钩或打叉 -> 写出理由。
  • 离线版:为了让普通研究者也能用,作者还把这个“阅卷机器人”压缩成了一个**“离线小工具”**。就像把一台超级计算机的功能塞进了一个 U 盘里,大家不用联网也能自己给 AI 打分。

4. 考试结果发现了什么?(主要发现)

作者用这个新考试测试了市面上很多著名的 AI 模型(包括闭源的如 GPT-4o,和开源的如 FLUX, Qwen 等),发现了一些有趣的现象:

  • 闭源模型(大厂做的)依然很强:像 GPT-4o 和 Nano Banana Pro 这样的模型,在逻辑推理、长难句理解和中文能力上,依然是“学霸”,几乎全能。
  • 开源模型(社区做的)进步巨大:像 FLUX.2-dev 这样的开源模型,在“画画”本身(比如风格、颜色、物体)上已经非常接近大厂模型了,甚至在某些方面能超越。
  • 共同的弱点
    • 逻辑推理:很多 AI 还是搞不清复杂的因果关系(比如“因为下雨,所以没带伞”这种逻辑)。
    • 文字生成:让 AI 在画里写对字(尤其是中文长句),依然是个“硬伤”,经常写错别字或乱码。
    • 复杂交互:比如“手拿着杯子”这种精细动作,AI 经常画成“手穿过杯子”或者“杯子悬浮”。

总结

UniGenBench++ 就像是为 AI 绘画界制定的一套**“新高考标准”
它不再满足于让 AI 画出“大概像样”的图,而是要求 AI 必须
听得懂复杂指令、懂中文、懂逻辑、能处理细节**。

通过这个考试,我们不仅能看到谁是目前最强的“画师”,还能精准地知道它们哪里还“偏科”,从而指导未来的 AI 研发方向。对于普通用户来说,这意味着未来的 AI 画图工具将更听话、更聪明,能真正听懂你那些天马行空的复杂想法。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →