Each language version is independently generated for its own context, not a direct translation.
Imagine que você tem um assistente de arte muito talentoso, capaz de pegar uma foto e mudá-la conforme você pede: "troque o céu azul por um pôr do sol alaranjado" ou "coloque um chapéu de palha no cachorro".
Por um lado, temos os "gigantes fechados" (como a OpenAI e a Google), que têm assistentes incríveis, mas são secretos e caros. Por outro, temos os assistentes de "código aberto" (que qualquer um pode usar e melhorar), mas eles ainda estão um pouco desajeitados e cometem muitos erros.
O problema: Por que os assistentes abertos não são tão bons? Porque falta um professor rigoroso para ensinar a eles o que é uma "boa edição". Os métodos atuais de avaliação são como usar uma régua de plástico para medir um diamante: não são precisos o suficiente.
É aqui que entra o EDITREWARD, o novo herói deste artigo.
1. O Que é o EDITREWARD? (O Professor Especialista)
Pense no EDITREWARD como um professor de arte super exigente, mas justo. Antes dele, os modelos de IA usavam regras simples (como "a imagem deve parecer bonita") ou outros robôs genéricos para julgar se uma edição estava boa. Isso era como pedir para um robô de limpeza julgar uma pintura a óleo: ele não entende a nuance.
O EDITREWARD foi treinado de uma forma diferente:
- O Livro de Exercícios (EDITREWARD-DATA): Os criadores reuniram mais de 200.000 exemplos de edições. Para cada pedido (ex: "mude a cor do carro"), eles geraram 12 versões diferentes usando vários robôs de IA.
- Os Juízes Humanos: Em vez de deixar um robô julgar, eles contrataram especialistas humanos treinados. Esses humanos olharam para as 12 versões e deram notas em duas categorias separadas:
- Seguiu a ordem? (O carro ficou vermelho como pedido? Ou o robô mudou o fundo sem querer?)
- Qualidade Visual? (A cor parece realista? Ou parece um borrão de tinta?)
Esses especialistas não apenas deram uma nota de 1 a 4, mas explicaram por que uma imagem era melhor que a outra. O EDITREWARD "leu" todas essas anotações e aprendeu a pensar como um humano.
2. A Grande Inovação: Não é Tudo Ou Nada
Aqui está o segredo do EDITREWARD. A maioria dos robôs antigos dava uma nota única: "Essa imagem é 7/10". O problema é que uma imagem pode seguir a ordem perfeitamente, mas ter uma qualidade visual ruim (ex: o carro está vermelho, mas parece um desenho infantil). Ou pode ser linda, mas ter mudado o fundo errado.
O EDITREWARD é como um juiz que tem duas lentes:
- Uma lente foca na precisão (seguiu o comando?).
- A outra lente foca na beleza (está bonito e realista?).
Ele entende que essas duas coisas são diferentes e aprende a equilibrá-las. Além disso, ele é esperto o suficiente para lidar com situações difíceis, como quando duas imagens são "empates" (uma é boa na ordem, a outra é mais bonita). Ele sabe que, nesses casos, é preciso olhar os detalhes finos.
3. O Teste de Fogo (EDITREWARD-BENCH)
Para provar que o novo professor é bom, os criadores fizeram um exame difícil chamado EDITREWARD-BENCH.
- Em vez de pedir para escolher entre "Imagem A" ou "Imagem B", o teste mostrou três ou quatro imagens ao mesmo tempo e pediu para o robô organizá-las da melhor para a pior.
- O resultado? O EDITREWARD foi melhor do que os gigantes fechados (como o GPT-5 e o GPT-4o) em entender o que os humanos realmente gostam. Ele acertou mais vezes do que os "gigantes" que custam milhões.
4. A Mágica na Prática: Filtrando o Ruído
A parte mais legal é como isso ajuda a criar robôs melhores.
Imagine que você tem uma pilha de 46.000 receitas de bolo. Algumas são ótimas, outras são horríveis (sem ovos, com sal em vez de açúcar). Se você treinar um chef usando todas as receitas, ele vai ficar confuso e fazer bolos ruins.
Os pesquisadores usaram o EDITREWARD para filtrar essa pilha.
- Eles pediram ao EDITREWARD para olhar as 46.000 receitas e escolher apenas as 20.000 melhores.
- Depois, treinaram um novo robô de edição (o Step1X-Edit) apenas com essas 20.000 receitas de ouro.
O resultado? O robô treinado apenas com as melhores receitas ficou muito melhor do que o robô treinado com todas as 46.000 (incluindo as ruins). Ele ficou tão bom que superou concorrentes famosos e ficou no mesmo nível dos melhores sistemas fechados do mundo.
Resumo em uma Frase
O EDITREWARD é um novo "olho humano" artificial que aprendeu a julgar edições de fotos com tanta precisão que consegue ensinar robôs a fazerem arte digital incrível, ajudando a comunidade de código aberto a alcançar o mesmo nível dos gigantes tecnológicos, mas de forma gratuita e transparente.
É como se eles tivessem criado o "Guru da Arte" perfeito e ensinado a todos os artistas iniciantes a usá-lo para se tornarem mestres.