ScaleEdit-12M: Scaling Open-Source Image Editing Data Generation via Multi-Agent Framework

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 ScaleEdit-12M 的大项目，它的核心目标是：用完全开源、免费的方法，制造出像“商业级”那样高质量的海量图片编辑数据，用来训练 AI 修图师。

为了让你更容易理解，我们可以把整个过程想象成**“开一家超级 AI 修图学校”**的故事。

1. 背景：为什么我们需要这所学校？

现在的 AI（比如 GPT-4o）很厉害，能听懂人话并修图（比如“把天空变成粉色”、“把猫换成狗”）。但是，要训练这些 AI，需要海量的“教科书”（数据：原图 + 指令 + 修好的图）。

以前的做法（商业派）： 直接花钱请顶级商业模型（像 GPT-4o）来生成这些教科书。但这太贵了，像请米其林大厨天天给你做饭，做不了几顿就破产了。
以前的做法（开源派）： 用免费模型自己造数据。但这就像让刚学做饭的学生互相教，做出来的菜（数据）要么味道奇怪（质量差），要么只会做几种固定的菜（种类少）。

这篇论文问： 我们能不能用一群“开源的小助手”（多智能体框架），通过巧妙的分工，造出既便宜又海量、还像大厨做的一样好吃的“教科书”？

2. 核心方案：ScaleEditor（超级修图学校）

作者设计了一个叫 ScaleEditor 的“学校管理系统”，它由三个主要部门组成，就像学校的三个关键流程：

第一步：招生办（Source Image Expansion）—— 寻找千奇百怪的素材

以前： 学校只有一堆普通的风景照，太单调了。
现在： 招生办不仅去图书馆（开源数据集）找书，还派了“搜索特工”去互联网上搜各种稀奇古怪的图片（比如“夕阳下的摩天轮”、“雨中的赛博朋克街道”）。
魔法： 如果找不到现成的，就用生成式 AI 把现有的图片“变”出新的花样（比如把白天变成黑夜，把夏天变成冬天）。
结果： 学校拥有了 1000 万张 风格各异、覆盖现实和虚拟世界的“原图”，就像拥有了全世界所有的画布。

第二步：教务处（Adaptive Multi-Agent Synthesis）—— 智能分配任务

这是最精彩的部分。学校有 23 种不同的“修图专业”（比如：加东西、删东西、改颜色、改材质、改文字、改风格等）。

智能路由（Task Router）： 就像一个聪明的教导主任。看到一张“海滩照片”，他不会让所有老师都来教，而是判断：“这张图适合教‘加遮阳伞’（添加类）和‘改天空颜色’（背景类），但不适合教‘改文字’（因为图上没字）。”
专业导师（Specialized Agents）：
- 指令老师： 负责写题目。比如看到海滩，就写出：“在沙滩上加一把蓝黄相间的遮阳伞。”
- 操作老师： 负责真的去修图。
- 文字专家： 专门处理海报上的字怎么改。
- 逻辑专家： 处理需要常识的题目（比如“把生鸡蛋变成煎蛋”）。
结果： 每一张图都找到了最适合它的“老师”，生成了 1200 万条 高质量的“题目 + 答案”配对。

第三步：质检部（Task-Aware Quality Verification）—— 严格的考试

以前： 随便看看，差不多就行。
现在： 引入了一个超级严格的“阅卷 AI 老师”（Qwen2.5-VL-72B）。它有三个评分标准：
1. 听不听话？（指令遵循：真的加了伞吗？）
2. 像不像？（一致性：伞是不是浮在半空？光影对不对？）
3. 美不美？（生成质量：有没有奇怪的噪点？）
淘汰机制： 只有拿到满分的作业才能进入教材库。如果伞画歪了，或者颜色太假，直接扔掉。
结果： 留下的都是精品，确保学生（AI 模型）学到的是真本事。

3. 成果：ScaleEdit-12M 数据集

经过这一套流程，学校终于出版了 ScaleEdit-12M 教材：

规模： 1200 万条数据（目前开源界最大）。
种类： 涵盖了 23 种修图任务，从简单的“换个颜色”到复杂的“把教堂尖顶变成玻璃做的”。
质量： 经过严格筛选，质量堪比花钱请商业模型做的数据。

4. 效果：学生进步神速

作者把这套教材喂给了两个开源的 AI 模型（UniWorld-V1 和 Bagel）：

普通考试（通用修图）： 成绩提升了 10% 到 35%。
高难度考试（需要常识和逻辑的修图）： 成绩提升了惊人的 150%！
对比： 用这套教材训练出来的 AI，表现甚至超过了那些用商业数据训练过的开源模型，几乎能和大厂（如 GPT-4o）的成品掰手腕。

总结：这为什么重要？

这就好比以前只有大公司买得起“顶级厨师培训教材”，现在作者发明了一套**“开源的、自动化的、超级严格的培训流水线”**。

它证明了：我们不需要花巨资去依赖昂贵的商业 API，只要用聪明的开源工具和多智能体协作，也能造出世界顶级的 AI 训练数据。 这让未来的 AI 修图工具变得更便宜、更普及，而且完全掌握在我们自己手中。

一句话概括： 这是一个用“开源机器人团队”自动生产“百万级高质量修图教材”的工厂，让开源 AI 也能学会像商业大师一样修图。

ScaleEdit-12M: Scaling Open-Source Image Editing Data Generation via Multi-Agent Framework

1. 背景：为什么我们需要这所学校？

2. 核心方案：ScaleEditor（超级修图学校）

第一步：招生办（Source Image Expansion）—— 寻找千奇百怪的素材

第二步：教务处（Adaptive Multi-Agent Synthesis）—— 智能分配任务

第三步：质检部（Task-Aware Quality Verification）—— 严格的考试

3. 成果：ScaleEdit-12M 数据集

4. 效果：学生进步神速

总结：这为什么重要？

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 源图像扩展 (Source Image Expansion)

2.2 自适应多智能体编辑合成 (Adaptive Multi-Agent Editing Synthesis)

2.3 任务感知质量验证 (Task-Aware Quality Verification)

3. 核心贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

ScaleEdit-12M: Scaling Open-Source Image Editing Data Generation via Multi-Agent Framework

1. 背景：为什么我们需要这所学校？

2. 核心方案：ScaleEditor（超级修图学校）

第一步：招生办（Source Image Expansion）—— 寻找千奇百怪的素材

第二步：教务处（Adaptive Multi-Agent Synthesis）—— 智能分配任务

第三步：质检部（Task-Aware Quality Verification）—— 严格的考试

3. 成果：ScaleEdit-12M 数据集

4. 效果：学生进步神速

总结：这为什么重要？

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 源图像扩展 (Source Image Expansion)

2.2 自适应多智能体编辑合成 (Adaptive Multi-Agent Editing Synthesis)

2.3 任务感知质量验证 (Task-Aware Quality Verification)

3. 核心贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

类似论文