Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一份给“人工智能画家”出的超级期末考试卷，名字叫 T2I-COREBENCH。

为了让你轻松理解，我们可以把现在的 AI 绘画模型（比如 Midjourney, DALL-E 3, Stable Diffusion 等）想象成一群刚出道的年轻画家。以前，我们只考他们画“一只猫”或者“一个苹果”这种简单的题目。但现在，这些画家进步很快，我们需要考考他们能不能处理更复杂、更像真实世界的场景。

这篇论文的核心观点可以用一句话概括：现在的 AI 画家，擅长“搭舞台”（画出具体的物体），但还不擅长“导戏”（理解物体之间的逻辑和因果关系）。

下面我用几个生动的比喻来拆解这篇论文：

1. 考试考什么？（两大核心能力）

论文把 AI 的能力分成了两大部分，就像考一个演员：

第一部分：搭舞台（Composition / 组合能力）
- 比喻：导演说：“我要一个厨房，里面有冰箱、桌子、三把椅子，桌上还要放着一把刀和一个红苹果。”
- 考什么：AI 能不能把导演说的所有东西都画出来？冰箱是不是在桌子旁边？苹果是不是红色的？有没有多画一把椅子？
- 现状：大部分 AI 画家在这部分做得还不错，能画出很多物体，但一旦物体太多、关系太复杂（比如“苹果在刀左边，刀在苹果右边”这种绕口令），他们就开始晕头转向，画错位置或漏掉东西。
第二部分：导戏（Reasoning / 推理能力）
- 比喻：导演说：“一个大力士用力捏紧一个熟透的番茄。”
- 考什么：AI 不仅要画出大力士和番茄，还要推理出后果——番茄汁应该喷出来，番茄皮应该裂开。或者导演说：“在这个世界里，所有车轮都是方形的。”AI 需要理解这个反常识的规则，并把它应用到所有车上，而不是只画一辆方轮车。
- 现状：这是最大的短板。AI 往往只画出了“捏番茄”的动作，却忘了画“汁水飞溅”的结果；或者画了方轮车，却忘了把路灯杆也画成方的（如果规则适用的话）。它们像是在“背剧本”，而不是在“理解剧情”。

2. 以前的考试卷有什么问题？

以前的考试卷（现有的评测标准）有两个大毛病：

题目太简单：就像只考“画一只猫”，不考“画一只猫在追一只老鼠，老鼠吓得跳进了洞里”。
题目太单一：要么只考画物体，要么只考简单的逻辑。没有把“复杂的场景”和“深层的逻辑”结合起来考。

这就好比只考学生“背乘法口诀”，却不考他们“用乘法去解决买菜找零”的实际问题。

3. 这张新试卷（T2I-COREBENCH）有多难？

这张新试卷是专门为“地狱模式”设计的：

高密度场景：提示词里可能包含20 到 30 个不同的物体和关系。就像让画家在一张纸上同时画出一个繁忙的菜市场，还要分清谁在卖鱼、谁在砍价、谁在偷东西。
多步推理：
- 一步推理：捏番茄 -> 出汁。
- 多步推理：火柴烧断绳子 -> 绳子断了 -> 多米诺骨牌倒下 -> 撞倒杯子 -> 水洒在纸上。AI 必须把这一连串的后果都画出来，缺一不可。
反常识推理：比如“如果车轮是方的，那车还能跑吗？如果跑，路会是什么样？”AI 需要理解这种假设性的世界。

4. 考试结果怎么样？

论文测试了 38 种目前最顶尖的 AI 模型（包括开源的和闭源的，比如 GPT-4o, DALL-E 3 等），结果很扎心：

搭舞台（组合能力）：进步很大。现在的 AI 能画出很复杂的画面，开源模型和闭源模型的差距正在缩小。
导戏（推理能力）：非常糟糕，是目前的“死穴”。
- 即使是最好的模型，在面对“捏番茄出汁”或“多米诺骨牌连锁反应”这种题目时，得分也很低。
- 它们往往只能画出“表面现象”，却看不懂“内在逻辑”。就像一个人能画出很逼真的车祸现场，却画不出撞击瞬间的碎片飞溅方向。

5. 论文给了什么建议？

作者发现，如果让人类先帮 AI 把复杂的逻辑“翻译”成简单的描述（比如把“捏番茄”直接改成“画一个被捏爆的番茄，汁水四溅”），AI 画出来的效果会好很多。

但这说明了一个问题：目前的 AI 还是太依赖“文字翻译”，它们自己缺乏真正的“思考”能力。 它们更像是一个超级模仿者，而不是一个真正的思考者。

总结

这篇论文告诉我们：
现在的 AI 绘画工具，“手”很巧（能画很多细节），但“脑”还不够灵（不懂因果和逻辑）。

未来的 AI 要想真正像人类一样创作，不能只学会“怎么画”，还得学会“为什么这么画”。这就好比，一个画家不仅要会调色，还得懂物理（光怎么折射）、懂生物（肌肉怎么动）、懂故事（情节怎么发展）。

一句话总结：AI 现在能完美地“布景”，但还不会“导戏”。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的论文，题为 《EASIER PAINTING THAN THINKING: CAN TEXT-TO-IMAGE MODELS SET THE STAGE, BUT NOT DIRECT THE PLAY?》（绘画比思考更容易：文生图模型能搭建舞台，但无法导演剧情吗？）。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

现有的文生图（Text-to-Image, T2I）模型在生成高质量图像方面取得了显著进展，但在面对复杂现实场景时仍存在两大核心瓶颈：

缺乏全面性 (Lack of Comprehensiveness)： 现有的评估基准（Benchmarks）通常将“组合能力”（Composition）和“推理能力”（Reasoning）割裂开来，且评估维度多为启发式，无法系统性地覆盖所有关键评估维度。
缺乏复杂性 (Lack of Complexity)： 现有基准多关注低密度的视觉元素（如简单的物体罗列）或单步推理（如“行为 $\to$ 单一结果”），无法反映真实世界中高组合密度（High Compositional Density）和高推理强度（High Reasoning Intensity）的复杂场景。

核心问题： 当前的 T2I 模型是否具备在复杂场景下同时精确生成显性视觉元素（组合）和推断隐性逻辑关系（推理）的能力？

2. 方法论 (Methodology)

为了解决上述问题，作者提出了 T2I-COREBENCH，这是一个全面且复杂的基准测试框架。

2.1 评估分类体系 (Evaluation Taxonomy)

论文构建了一个包含 12 个维度 的评估体系，分为两大类：

组合能力 (Composition)： 基于场景图（Scene Graph）结构，包含：
- 多实例 (MI)： 生成多个物体实例。
- 多属性 (MA)： 将多个属性绑定到单一主体。
- 多关系 (MR)： 在统一场景中连接多个关系。
- 文本渲染 (TR)： 生成具有精确内容和布局的文本。
推理能力 (Reasoning)： 基于哲学推理框架（演绎、归纳、溯因），细分为 8 个维度：
- 演绎推理： 逻辑推理 (LR)、行为推理 (BR)、假设推理 (HR)、程序推理 (PR)。
- 归纳推理： 泛化推理 (GR)、类比推理 (AR)。
- 溯因推理： 常识推理 (CR)、重构推理 (RR)。

2.2 基准构建 (Benchmark Construction)

数据生成： 利用大型推理模型（LRMs，如 Claude Sonnet 4, Gemini 2.5 Pro, OpenAI o3）辅助生成提示词（Prompts）和检查清单（Checklists）。
复杂性设计：
- 组合： 每个提示词平均包含约 20-25 个视觉元素，模拟高密度场景。
- 推理： 引入“一对多”（一个行为导致多个结果）和“多对一”（多个前提推导一个结论）的复杂推理链条。
细粒度评估协议： 每个提示词都配有一个由人类验证的检查清单（Checklist），包含约 13,500 个独立的“是/否”问题。
自动评估： 使用多模态大模型（MLLM，如 Gemini 2.5 Flash）作为评估器，根据检查清单对生成的图像进行逐项打分，确保评估的客观性和细粒度。

3. 主要贡献 (Key Contributions)

首个综合基准 T2I-COREBENCH： 首次同时强调全面性和复杂性，涵盖 12 个评估维度，包含 1,080 个高难度提示词。
细粒度验证机制： 引入人工验证的检查清单（约 13,500 个问题），实现了对显性元素和隐性推理结果的独立、可靠评估。
大规模模型评测与洞察： 对 38 个当前最先进的 T2I 模型（包括扩散模型、自回归模型、统一模型及闭源商业模型）进行了全面评测，揭示了当前技术的局限性。

4. 实验结果 (Results)

对 38 个模型的评测揭示了以下关键发现：

组合能力稳步提升，但在复杂场景下仍受限：
- 模型在简单组合任务上表现良好，但在高密度场景（如多属性绑定、复杂空间关系）中，即使是 SOTA 模型（如 Nano Banana Pro, FLUX.2-dev）也表现挣扎。
- 开源模型（如 Qwen-Image-2512, FLUX.2-dev）在组合能力上已逐渐接近闭源模型。
推理能力是主要瓶颈 (Reasoning is the Bottleneck)：
- 显著差距： 所有模型在推理能力上均大幅落后于组合能力。例如，Qwen-Image-2512 的组合得分为 83.7，而推理得分仅为 51.7（差距 32 分）。
- SOTA 模型的局限： 即使是表现最好的闭源模型（Nano Banana Pro），其推理得分（82.7）也低于其组合得分（89.7），且在行为推理（BR）、假设推理（HR）等维度上表现较弱。
- 核心结论： 模型难以从提示词中推断出隐含的视觉元素（如“挤压番茄”导致“汁液飞溅”），推理能力是目前 T2I 发展的核心瓶颈。
提示词重写（Prompt Rewriting）的局限性：
- 通过外部 LLM 重写提示词（将推理步骤显性化）可以显著提升较弱模型的推理表现（提升 20+ 分）。
- 但对于强模型，提升有限。更重要的是，仅靠文本推理不足以解决所有问题。例如，在“假设推理”（如“车轮是方形的”）任务中，即使提示词明确，模型仍受限于视觉先验（车轮通常是圆的），表明需要多模态交互机制而非单纯的文本推理。
架构趋势： 统一模型（Unified Models，如 GPT-Image, Nano Banana）在推理任务上表现出内在优势，因为它们更好地内化了文本推理并支持更紧密的图文融合。

5. 意义与展望 (Significance)

重新定义评估标准： 指出当前的 T2I 评估过于简单，必须转向高组合密度和高推理强度的复杂场景，才能真实反映模型能力。
明确技术瓶颈： 论文有力地证明了“推理”是比“组合”更难攻克的任务。未来的 T2I 模型不能仅停留在“搭建舞台”（生成符合描述的物体），必须学会“导演剧情”（理解因果、逻辑和隐含状态）。
未来方向：
- 开发更多样化、包含推理监督的训练数据。
- 将 LLM/MLLM 的推理能力更深地集成到 T2I 管线中（如思维链 CoT、检索增强生成 RAG）。
- 探索生成过程中的显式视觉推理机制，以解决文本推理无法覆盖的视觉偏差问题。

总结： 这篇论文通过构建 T2I-COREBENCH 揭示了当前文生图模型“绘画（组合）”能力强于“思考（推理）”的现状，并指出推理能力是制约模型迈向真正智能生成的关键障碍，为未来的研究指明了方向。

Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?

1. 考试考什么？（两大核心能力）

2. 以前的考试卷有什么问题？

3. 这张新试卷（T2I-COREBENCH）有多难？

4. 考试结果怎么样？

5. 论文给了什么建议？

总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 评估分类体系 (Evaluation Taxonomy)

2.2 基准构建 (Benchmark Construction)

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与展望 (Significance)

类似论文

Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning

AnchorNote: Exploring Speech-Driven Spatial Externalization for Co-Located Collaboration in Augmented Reality

Your Robot Will Feel You Now: Empathy in Robots and Embodied Agents

FIGURA: A Modular Prompt Engineering Method for Artistic Figure Photography in Safety-Filtered Text-to-Image Models

Measuring Research Convergence in Interdisciplinary Teams Using Large Language Models and Graph Analytics