Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?

本文提出了名为 T2I-CoReBench 的综合基准,通过构建涵盖 12 个维度的复杂评估体系(包括高组合密度场景和多种推理类型),揭示了当前文本生成图像模型在复杂组合场景下能力有限,且在隐式推理方面存在严重瓶颈。

Ouxiang Li, Yuan Wang, Xinting Hu, Huijuan Huang, Rui Chen, Jiarong Ou, Xin Tao, Pengfei Wan, Xiaojuan Qi, Fuli Feng

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一份给“人工智能画家”出的超级期末考试卷,名字叫 T2I-COREBENCH

为了让你轻松理解,我们可以把现在的 AI 绘画模型(比如 Midjourney, DALL-E 3, Stable Diffusion 等)想象成一群刚出道的年轻画家。以前,我们只考他们画“一只猫”或者“一个苹果”这种简单的题目。但现在,这些画家进步很快,我们需要考考他们能不能处理更复杂、更像真实世界的场景。

这篇论文的核心观点可以用一句话概括:现在的 AI 画家,擅长“搭舞台”(画出具体的物体),但还不擅长“导戏”(理解物体之间的逻辑和因果关系)。

下面我用几个生动的比喻来拆解这篇论文:

1. 考试考什么?(两大核心能力)

论文把 AI 的能力分成了两大部分,就像考一个演员:

  • 第一部分:搭舞台(Composition / 组合能力)

    • 比喻:导演说:“我要一个厨房,里面有冰箱、桌子、三把椅子,桌上还要放着一把刀和一个红苹果。”
    • 考什么:AI 能不能把导演说的所有东西都画出来?冰箱是不是在桌子旁边?苹果是不是红色的?有没有多画一把椅子?
    • 现状:大部分 AI 画家在这部分做得还不错,能画出很多物体,但一旦物体太多、关系太复杂(比如“苹果在刀左边,刀在苹果右边”这种绕口令),他们就开始晕头转向,画错位置或漏掉东西。
  • 第二部分:导戏(Reasoning / 推理能力)

    • 比喻:导演说:“一个大力士用力捏紧一个熟透的番茄。”
    • 考什么:AI 不仅要画出大力士和番茄,还要推理出后果——番茄汁应该喷出来,番茄皮应该裂开。或者导演说:“在这个世界里,所有车轮都是方形的。”AI 需要理解这个反常识的规则,并把它应用到所有车上,而不是只画一辆方轮车。
    • 现状:这是最大的短板。AI 往往只画出了“捏番茄”的动作,却忘了画“汁水飞溅”的结果;或者画了方轮车,却忘了把路灯杆也画成方的(如果规则适用的话)。它们像是在“背剧本”,而不是在“理解剧情”。

2. 以前的考试卷有什么问题?

以前的考试卷(现有的评测标准)有两个大毛病:

  1. 题目太简单:就像只考“画一只猫”,不考“画一只猫在追一只老鼠,老鼠吓得跳进了洞里”。
  2. 题目太单一:要么只考画物体,要么只考简单的逻辑。没有把“复杂的场景”和“深层的逻辑”结合起来考。

这就好比只考学生“背乘法口诀”,却不考他们“用乘法去解决买菜找零”的实际问题。

3. 这张新试卷(T2I-COREBENCH)有多难?

这张新试卷是专门为“地狱模式”设计的:

  • 高密度场景:提示词里可能包含20 到 30 个不同的物体和关系。就像让画家在一张纸上同时画出一个繁忙的菜市场,还要分清谁在卖鱼、谁在砍价、谁在偷东西。
  • 多步推理
    • 一步推理:捏番茄 -> 出汁。
    • 多步推理:火柴烧断绳子 -> 绳子断了 -> 多米诺骨牌倒下 -> 撞倒杯子 -> 水洒在纸上。AI 必须把这一连串的后果都画出来,缺一不可。
  • 反常识推理:比如“如果车轮是方的,那车还能跑吗?如果跑,路会是什么样?”AI 需要理解这种假设性的世界。

4. 考试结果怎么样?

论文测试了 38 种目前最顶尖的 AI 模型(包括开源的和闭源的,比如 GPT-4o, DALL-E 3 等),结果很扎心:

  • 搭舞台(组合能力):进步很大。现在的 AI 能画出很复杂的画面,开源模型和闭源模型的差距正在缩小。
  • 导戏(推理能力)非常糟糕,是目前的“死穴”
    • 即使是最好的模型,在面对“捏番茄出汁”或“多米诺骨牌连锁反应”这种题目时,得分也很低。
    • 它们往往只能画出“表面现象”,却看不懂“内在逻辑”。就像一个人能画出很逼真的车祸现场,却画不出撞击瞬间的碎片飞溅方向。

5. 论文给了什么建议?

作者发现,如果让人类先帮 AI 把复杂的逻辑“翻译”成简单的描述(比如把“捏番茄”直接改成“画一个被捏爆的番茄,汁水四溅”),AI 画出来的效果会好很多。

但这说明了一个问题:目前的 AI 还是太依赖“文字翻译”,它们自己缺乏真正的“思考”能力。 它们更像是一个超级模仿者,而不是一个真正的思考者

总结

这篇论文告诉我们:
现在的 AI 绘画工具,“手”很巧(能画很多细节),但“脑”还不够灵(不懂因果和逻辑)。

未来的 AI 要想真正像人类一样创作,不能只学会“怎么画”,还得学会“为什么这么画”。这就好比,一个画家不仅要会调色,还得懂物理(光怎么折射)、懂生物(肌肉怎么动)、懂故事(情节怎么发展)。

一句话总结:AI 现在能完美地“布景”,但还不会“导戏”。