InEdit-Bench: Benchmarking Intermediate Logical Pathways for Intelligent Image Editing Models

本文提出了首个专注于评估图像编辑模型中间逻辑路径推理能力的基准 InEdit-Bench,通过涵盖四类任务的测试集和细粒度评估标准,揭示了当前主流模型在处理动态推理与多步演化任务时的显著不足,旨在推动更智能的多模态生成模型发展。

Zhiqiang Sheng, Xumeng Han, Zhiwei Zhang, Zenghui Xiong, Yifan Ding, Aoxiang Ping, Xiang Li, Tong Guo, Yao Mao

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 InEdit-Bench 的新工具,它就像是一个专门用来“考考”人工智能(AI)在图片编辑方面是否真的“懂逻辑”的考试。

为了让你更容易理解,我们可以把现在的 AI 图片编辑比作一个只会“变魔术”的魔术师,而 InEdit-Bench 则是为了测试它是否真的懂“变魔术的原理”

以下是用通俗语言和比喻对这篇论文的解读:

1. 核心问题:AI 只会“跳步”,不会“走路”

  • 现状:现在的 AI 图片编辑模型(比如把猫变成狗,把白天变成黑夜)非常厉害。如果你给它一张图和一个指令(“把毛衣变成红色”),它能直接给你一张红色的毛衣图。这就像魔术师直接变出了兔子。
  • 缺陷:但是,如果你让它展示**“怎么变”**的过程,它就懵了。
    • 比喻:想象你要教一个人做蛋糕。现在的 AI 能直接给你端出一个完美的蛋糕(结果),但它无法告诉你:先打蛋、再筛粉、最后进烤箱的中间步骤。如果它强行画出来,可能会变成:生鸡蛋直接变成烤好的蛋糕,中间没有过渡,或者步骤乱套(比如先烤了再打蛋)。
    • 论文观点:AI 缺乏**“中间逻辑路径”**的推理能力。它不知道从 A 点到 B 点,中间需要经过哪些合乎逻辑的步骤。

2. 解决方案:InEdit-Bench(AI 逻辑大考)

为了解决这个问题,作者团队设计了一个专门的**“考试系统”**,叫 InEdit-Bench。

  • 考试形式

    • 给 AI 看一张开始图(比如一堆散乱的积木)和一张结束图(比如搭好的城堡)。
    • 考题:请画出从开始到结束的所有中间步骤(比如先搭底座,再搭墙,最后封顶)。
    • 要求:AI 必须生成一张包含多个格子的图,每个格子代表一个步骤,而且步骤之间必须逻辑通顺、自然流畅
  • 考什么内容?(四大类题目)

    1. 状态转换:像拼图一样,把散乱的零件组装起来。
    2. 动态过程:像拍电影一样,展示连续的动作(比如蜘蛛结网、人跳远)。
    3. 时间序列:展示随时间变化的过程(比如花朵从含苞到盛开,或者冰川融化)。
    4. 科学模拟:展示符合物理/化学/生物规律的过程(比如细胞分裂、镁条燃烧)。

3. 怎么打分?(六维评分表)

这个考试不仅仅看最后画得像不像,而是用六把尺子来衡量:

  1. 外观一致性:步骤里的画风要统一,不能一会儿是卡通,一会儿是写实。
  2. 感知质量:图片要清晰,不能模糊或变形。
  3. 语义一致性:内容要对得上指令(比如指令说变红,不能变蓝)。
  4. 逻辑连贯性重点):步骤 A 到步骤 B 必须自然。不能出现“昨天还是婴儿,明天直接变老人,中间没童年”这种逻辑跳跃。
  5. 科学合理性重点):必须符合科学常识。比如水结冰,不能先结冰再变冷。
  6. 过程合理性:如果给两个不同的路径指令(比如“从上往下涂色”和“从下往上涂色”),AI 能不能真的画出两种不同的过程,而不是画出一样的东西糊弄人。

4. 考试结果:AI 们表现如何?

作者找了 14 个目前最厉害的 AI 模型来参加这次考试,结果非常惨烈

  • 整体表现:大部分 AI 在“多步骤推理”上几乎不及格。
  • 头部选手:即使是表现最好的商业模型(如 GPT-Image-1),完全做对(所有步骤都完美)的比例也只有 16.75%。这意味着 100 道题里,它只能做对不到 17 道。
  • 开源模型:很多开源模型甚至得 0 分。它们要么直接跳过中间步骤,要么把步骤画得乱七八糟,完全不符合逻辑。
  • 具体痛点
    • 科学模拟(如化学反应)和状态转换(如组装物体)这类需要强逻辑的题目上,AI 表现最差。
    • 它们擅长画“好看”的图,但不懂“怎么变”的因果关系

5. 这篇论文的意义是什么?

这就好比在赛车界,以前我们只比谁的车终点跑得快(单步编辑),现在我们发现,很多车根本不会过弯(多步逻辑推理)。

  • InEdit-Bench 的作用:它就像是一个**“路考”**,专门揪出那些只会直线加速、不会转弯的 AI。
  • 未来目标:通过这个考试,作者希望推动 AI 从“只会变魔术”进化成“懂原理的工程师”。未来的 AI 不仅要能修好图片,还要能理解图片变化的因果逻辑,真正具备“智能”。

总结

简单来说,InEdit-Bench 就是给 AI 出了一道**“看图说话”的填空题**,要求它把“开始”和“结束”之间的中间过程补全。目前的 AI 就像是一个只会蒙答案的学生,虽然偶尔能蒙对,但大多数时候逻辑不通。这篇论文就是为了给 AI 立规矩,逼着它们学会**“一步步思考”,而不仅仅是“一步到位”**。