FireRed-Image-Edit-1.0 Technical Report

本文介绍了 FireRed-Image-Edit,这是一种通过构建 16 亿样本的高质量训练语料、设计包含预训练与强化学习的多阶段训练流程、提出多项创新优化策略(如多条件感知采样器与不对称梯度优化),并在涵盖 15 类任务的 REDEdit-Bench 基准上达到最先进水平的指令驱动图像编辑扩散 Transformer 模型。

Super Intelligence Team, Changhao Qiao, Chao Hui, Chen Li, Cunzheng Wang, Dejia Song, Jiale Zhang, Jing Li, Qiang Xiang, Runqi Wang, Shuang Sun, Wei Zhu, Xu Tang, Yao Hu, Yibo Chen, Yuhao Huang, Yuxuan Duan, Zhiyi Chen, Ziyuan Guo

发布于 2026-02-23
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 FireRed-Image-Edit 的超级 AI 模型,它的核心能力是**“听指挥修图”**。

想象一下,你手里有一张普通的照片,你想让它变成“夕阳下的赛博朋克风格”,或者想把照片里的人换成穿西装的,甚至想把照片上的文字从“吸烟区”改成“无烟区”。以前的 AI 要么听不懂你的话,要么改得面目全非。而 FireRed-Image-Edit 就像是一位**“拥有读心术的顶级修图大师”**,你只需要用自然语言(像聊天一样)告诉它想怎么改,它就能精准地完成任务,同时完美保留照片里原本不该动的部分(比如人物的脸、背景的细节)。

为了让你更容易理解,我们可以把这篇论文的技术细节拆解成三个部分:“食材准备”、“烹饪秘籍”和“试吃评测”


1. 食材准备:打造“顶级食材库” (数据工程)

做一道好菜,首先得有新鲜的食材。以前的 AI 模型训练数据要么太杂,要么不够多。FireRed 团队做了三件大事:

  • 海量采集 (16 亿份食材):他们从互联网上收集了16 亿张图片和对应的文字描述。这就像是一个超级巨大的图书馆,里面既有“凭空画图”的教程(比如“画一只猫”),也有“修改图片”的教程(比如“把猫变成老虎”)。
  • 严格筛选 (去毒去烂):这 16 亿份里有很多“坏食材”(模糊的、重复的、带水印的、甚至是 AI 自己生成的假图)。他们建立了一套**“智能质检流水线”**:
    • 去重:把长得一模一样的照片删掉,只留独特的。
    • 去噪:把模糊、曝光过度的照片扔掉。
    • 去伪:专门识别并剔除那些由其他 AI 生成的“假图”,确保训练数据都是真实世界的“真材实料”。
  • 精准标注 (给食材贴标签):光有图不行,还得有说明书。他们利用更聪明的 AI(VLM)给每一张图写了详细的“食谱”。
    • 详细版:像专业厨师长写的,精确到“光线是暖色调,女孩在右边”。
    • 口语版:像普通用户说的,比如“帮我把背景变漂亮点”。
    • 这样,AI 就能学会既听懂专业指令,也能听懂大白话。

最终成果:经过层层筛选,他们留下了1 亿多份高质量、种类齐全的“完美食谱”,既有教怎么画图的,也有教怎么改图的,比例刚好 1:1,让 AI 既会“无中生有”,又擅长“点石成金”。


2. 烹饪秘籍:独门“烹饪技法” (模型训练)

有了好食材,还得有高超的厨艺。FireRed 团队发明了一套独特的训练方法,让模型学得快、记得牢、不跑偏。

  • 智能“分锅”策略 (Bucket Sampler)
    • 比喻:以前训练 AI 就像让一群人在一个大锅里炒菜,有的菜是正方形的,有的是长方形的,有的要加 3 个图,有的只要 1 个。这导致锅很大,但很多空间被浪费了(就像为了装小盘子而用了大锅)。
    • 创新:他们设计了**“智能分锅”**系统。根据图片的大小、长宽比、以及需要处理的图片数量,自动把相似的任务分到同一个“锅”里。这样既省空间,又让 AI 学得更快。
  • 打乱顺序练“定力” (Stochastic Instruction Alignment)
    • 比喻:如果 AI 总是按顺序看“图 1、图 2、图 3",它可能只是死记硬背顺序,而不是真的理解内容。
    • 创新:在训练时,他们故意打乱图片的顺序,或者随机隐藏某张图,同时自动修改文字指令(比如把“图 1"改成“图 2")。这迫使 AI 必须真正理解“谁是谁”,而不是靠猜顺序。这让它在面对复杂的多图编辑时更聪明。
  • 分阶段“特训” (多阶段训练)
    1. 通识教育 (预训练):先让 AI 看遍世界,学会基本的看图说话。
    2. 专业进修 (微调):专门教它怎么听指令修图,怎么保留原图特征。
    3. 实战演练 (强化学习):这是最关键的。他们引入了**“人类反馈”**机制。
      • 不对称奖励:如果 AI 改得好,就大力表扬(加强);如果改得不好,就轻轻批评(避免过度惩罚导致它不敢改)。
      • 文字特攻:针对改文字的任务,他们发明了一种**“布局感知 OCR"奖励。以前 AI 改字,为了得分可能会把字写得巨大或歪歪扭扭(作弊)。现在,AI 必须保证字不仅写对,还要位置对、大小对、风格对**,就像真正的排版设计师一样。
  • 保住“灵魂” (一致性损失)
    • 比喻:修图最怕把人的脸修变形了,或者把背景里的树修没了。
    • 创新:他们给 AI 加了一个**“灵魂锁定器”**。在修图过程中,AI 会时刻检查:“这张脸还是原来那个人吗?”“背景还是那个背景吗?”如果发现有“灵魂漂移”,就自动修正。这让 AI 在大胆创新的同时,绝不丢失原图的精髓。

3. 试吃评测:建立“米其林标准” (REDEdit-Bench)

以前评价 AI 修图好不好,大家各说各话,没有统一标准。FireRed 团队决定自己制定一套**“米其林级”的评测标准**,叫 REDEdit-Bench

  • 全面覆盖:这个榜单包含了15 种不同的修图任务,从简单的“换个颜色”、“加个物体”,到复杂的“人像美化”、“低画质修复”、“文字修改”等。
  • 双语挑战:包含中文和英文指令,测试 AI 是否真的懂语言,而不是只会背英文。
  • 真实场景:不像以前只测“画一只猫”,这里测的是“把海报右下角的文字改掉”、“把模特身上的衣服换成图 1 的那件”等真实需求。

比赛结果
在 REDEdit-Bench 以及国际公认的 ImgEdit、GEdit 等榜单上,FireRed-Image-Edit 的表现吊打了其他开源模型,甚至能和一些闭源的商业巨头(如 Nano Banana Pro, Seedream 4.0)掰手腕,甚至在“指令遵循度”和“画面一致性”上拿到了第一名。


总结:为什么它很重要?

这篇论文告诉我们,AI 变强不一定非要靠“堆参数”(把模型做得巨大无比)

  • 以前:大家觉得模型越大越好,动不动就是几百亿参数,训练成本高得吓人,像“大力出奇迹”。
  • 现在:FireRed 证明了,通过精心挑选数据(好食材)、优化训练方法(好厨艺)和建立科学评测(好标准),一个经过精心设计的模型,可以用更高效的成本,达到甚至超越那些“巨无霸”模型的效果。

一句话概括:FireRed-Image-Edit 就像是一个**“懂你心意、手稳心细、还能听懂方言的修图大师”**,它让普通人也能轻松拥有专业级的图片编辑能力,而且它把这套“独门秘籍”(代码、模型、评测标准)都公开了,让全人类都能一起进步。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →