FireRed-Image-Edit-1.0 Technical Report

O artigo apresenta o FireRed-Image-Edit, um modelo de difusão transformador que atinge desempenho de ponta em edição de imagens baseada em instruções através da otimização sistemática de um corpus de 1,6 bilhão de amostras, de um pipeline de treinamento multiestágio com técnicas inovadoras de alinhamento e otimização, e da introdução do benchmark abrangente REDEdit-Bench.

Super Intelligence Team, Changhao Qiao, Chao Hui, Chen Li, Cunzheng Wang, Dejia Song, Jiale Zhang, Jing Li, Qiang Xiang, Runqi Wang, Shuang Sun, Wei Zhu, Xu Tang, Yao Hu, Yibo Chen, Yuhao Huang, Yuxuan Duan, Zhiyi Chen, Ziyuan Guo

Publicado 2026-02-23
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um superpintor digital chamado FireRed-Image-Edit. Antes dele, existiam dois tipos de artistas no mundo da inteligência artificial:

  1. Os "Gigantes de Vidro" (Sistemas Proprietários): São artistas incríveis que fazem quadros perfeitos, mas você não sabe como eles fazem, não pode vê-los trabalhando e não pode copiar o método deles. Eles são como mágicos que nunca revelam o segredo do truque.
  2. Os "Gigantes de Pedra" (Sistemas Open Source): São artistas que tentam ser tão bons quanto os primeiros, mas para isso, eles precisam crescer até ficarem gigantes (com bilhões de parâmetros). O problema? Eles são tão pesados e grandes que exigem usinas de energia inteiras para funcionar, tornando-os caros e difíceis de usar.

O FireRed-Image-Edit é a solução de ouro: um artista que faz o trabalho dos gigantes, mas é inteligente, eficiente e aberto para todos.

Aqui está como eles conseguiram isso, explicado de forma simples:

1. A Cozinha de Dados: O Segredo da Qualidade

Para um artista aprender a pintar, ele precisa ver milhões de exemplos. A equipe do FireRed não apenas "juntou" imagens da internet; eles construíram uma fábrica de aprendizado superorganizada.

  • O Ingrediente Bruto: Eles coletaram 1,6 bilhão de exemplos (como se fossem 1,6 bilhões de receitas de bolo).
  • A Triagem (O Peneiramento): A maioria dessas receitas estava estragada ou repetida. Eles usaram robôs inteligentes para:
    • Jogar fora as fotos borradas ou com marcas d'água.
    • Descobrir se a foto era feita por outra IA (e jogá-la fora, para não aprender com "mentiras").
    • Garantir que houvesse um equilíbrio perfeito entre fotos de paisagens, pessoas e objetos.
  • O Resultado: Sobraram 100 milhões de "receitas perfeitas". É como ter uma biblioteca onde cada livro foi revisado por um editor chefe, garantindo que o artista aprenda apenas o melhor.

2. O Treinamento: Como Ensinar o Robô a Pintar

Não basta mostrar as fotos; é preciso ensinar o robô a entender o que o humano quer. Eles usaram uma abordagem em três etapas, como um aluno de arte:

  • Etapa 1: A Aula Geral (Pré-treinamento): O robô olha para milhões de fotos e aprende o que é um "gato", uma "montanha" ou um "céu azul". Ele constrói uma base de conhecimento do mundo.
  • Etapa 2: A Aula de Instruções (Ajuste Fino): Aqui, o robô aprende a obedecer ordens. Se você diz "mude a cor da camisa para vermelho", ele aprende a fazer exatamente isso, sem mudar o rosto da pessoa. Eles usaram um truque chamado "Amostragem de Balde Inteligente": imagine que você está organizando caixas de fotos. Em vez de jogar tudo numa pilha bagunçada, eles agrupam fotos do mesmo tamanho e formato, economizando tempo e energia do computador.
  • Etapa 3: O Treino de Elite (Reforço): O robô começa a praticar e recebe notas. Se ele errar a ordem, ele é corrigido. Se ele fizer algo incrível, ele é elogiado. Eles criaram um sistema de "Recompensa de Texto" especial: se o robô precisa escrever uma palavra em uma imagem, ele não apenas verifica se a letra está certa, mas se ela está no lugar certo, com o tamanho certo e sem parecer um "monstro" na foto.

3. A Mágica da Consistência: Não Mude Quem a Pessoa É

Um dos maiores problemas de editores de imagem antigos era que, ao mudar o cabelo de alguém, o rosto da pessoa mudava de forma, parecendo outra pessoa.
O FireRed inventou uma "âncora de identidade". Imagine que, enquanto o robô pinta o novo cabelo, ele segura uma foto original da pessoa com uma mão invisível, garantindo que o nariz, os olhos e a expressão permaneçam exatamente os mesmos. Isso é feito com uma "Perda de Consistência", que é como um fiscal de qualidade que grita: "Ei, você mudou o rosto! Corrija isso!".

4. O Exame Final: O REDEdit-Bench

Como saber se o robô é realmente bom? Eles criaram um exame de qualificação chamado REDEdit-Bench.

  • É como um teste de direção para carros, mas para editores de imagem.
  • O teste tem 15 tipos de desafios: mudar o fundo, adicionar objetos, corrigir textos, fazer maquiagem, trocar roupas, etc.
  • O FireRed tirou notas altíssimas, superando outros modelos de código aberto e competindo de igual para igual com os sistemas pagos e secretos das grandes empresas.

Resumo da Ópera

O FireRed-Image-Edit é como um chef de cozinha de alta tecnologia que:

  1. Usa ingredientes selecionados à mão (dados limpos).
  2. Cozinha de forma eficiente, sem desperdício (otimização de treinamento).
  3. Sabe exatamente o que o cliente pediu (entendimento de instruções).
  4. Mantém a identidade do prato original (preservação de identidade).

E o melhor de tudo: eles liberaram a receita completa, o modelo e o teste para que qualquer pessoa possa usar e melhorar. É um passo gigante para democratizar a edição de imagens de alta qualidade, tirando-a das mãos de poucas empresas e colocando-a na mesa de todos.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →