EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um assistente de arte muito talentoso, capaz de pegar uma foto e mudá-la conforme você pede: "troque o céu azul por um pôr do sol alaranjado" ou "coloque um chapéu de palha no cachorro".

Por um lado, temos os "gigantes fechados" (como a OpenAI e a Google), que têm assistentes incríveis, mas são secretos e caros. Por outro, temos os assistentes de "código aberto" (que qualquer um pode usar e melhorar), mas eles ainda estão um pouco desajeitados e cometem muitos erros.

O problema: Por que os assistentes abertos não são tão bons? Porque falta um professor rigoroso para ensinar a eles o que é uma "boa edição". Os métodos atuais de avaliação são como usar uma régua de plástico para medir um diamante: não são precisos o suficiente.

É aqui que entra o EDITREWARD, o novo herói deste artigo.

1. O Que é o EDITREWARD? (O Professor Especialista)

Pense no EDITREWARD como um professor de arte super exigente, mas justo. Antes dele, os modelos de IA usavam regras simples (como "a imagem deve parecer bonita") ou outros robôs genéricos para julgar se uma edição estava boa. Isso era como pedir para um robô de limpeza julgar uma pintura a óleo: ele não entende a nuance.

O EDITREWARD foi treinado de uma forma diferente:

O Livro de Exercícios (EDITREWARD-DATA): Os criadores reuniram mais de 200.000 exemplos de edições. Para cada pedido (ex: "mude a cor do carro"), eles geraram 12 versões diferentes usando vários robôs de IA.
Os Juízes Humanos: Em vez de deixar um robô julgar, eles contrataram especialistas humanos treinados. Esses humanos olharam para as 12 versões e deram notas em duas categorias separadas:
1. Seguiu a ordem? (O carro ficou vermelho como pedido? Ou o robô mudou o fundo sem querer?)
2. Qualidade Visual? (A cor parece realista? Ou parece um borrão de tinta?)

Esses especialistas não apenas deram uma nota de 1 a 4, mas explicaram por que uma imagem era melhor que a outra. O EDITREWARD "leu" todas essas anotações e aprendeu a pensar como um humano.

2. A Grande Inovação: Não é Tudo Ou Nada

Aqui está o segredo do EDITREWARD. A maioria dos robôs antigos dava uma nota única: "Essa imagem é 7/10". O problema é que uma imagem pode seguir a ordem perfeitamente, mas ter uma qualidade visual ruim (ex: o carro está vermelho, mas parece um desenho infantil). Ou pode ser linda, mas ter mudado o fundo errado.

O EDITREWARD é como um juiz que tem duas lentes:

Uma lente foca na precisão (seguiu o comando?).
A outra lente foca na beleza (está bonito e realista?).

Ele entende que essas duas coisas são diferentes e aprende a equilibrá-las. Além disso, ele é esperto o suficiente para lidar com situações difíceis, como quando duas imagens são "empates" (uma é boa na ordem, a outra é mais bonita). Ele sabe que, nesses casos, é preciso olhar os detalhes finos.

3. O Teste de Fogo (EDITREWARD-BENCH)

Para provar que o novo professor é bom, os criadores fizeram um exame difícil chamado EDITREWARD-BENCH.

Em vez de pedir para escolher entre "Imagem A" ou "Imagem B", o teste mostrou três ou quatro imagens ao mesmo tempo e pediu para o robô organizá-las da melhor para a pior.
O resultado? O EDITREWARD foi melhor do que os gigantes fechados (como o GPT-5 e o GPT-4o) em entender o que os humanos realmente gostam. Ele acertou mais vezes do que os "gigantes" que custam milhões.

4. A Mágica na Prática: Filtrando o Ruído

A parte mais legal é como isso ajuda a criar robôs melhores.
Imagine que você tem uma pilha de 46.000 receitas de bolo. Algumas são ótimas, outras são horríveis (sem ovos, com sal em vez de açúcar). Se você treinar um chef usando todas as receitas, ele vai ficar confuso e fazer bolos ruins.

Os pesquisadores usaram o EDITREWARD para filtrar essa pilha.

Eles pediram ao EDITREWARD para olhar as 46.000 receitas e escolher apenas as 20.000 melhores.
Depois, treinaram um novo robô de edição (o Step1X-Edit) apenas com essas 20.000 receitas de ouro.

O resultado? O robô treinado apenas com as melhores receitas ficou muito melhor do que o robô treinado com todas as 46.000 (incluindo as ruins). Ele ficou tão bom que superou concorrentes famosos e ficou no mesmo nível dos melhores sistemas fechados do mundo.

Resumo em uma Frase

O EDITREWARD é um novo "olho humano" artificial que aprendeu a julgar edições de fotos com tanta precisão que consegue ensinar robôs a fazerem arte digital incrível, ajudando a comunidade de código aberto a alcançar o mesmo nível dos gigantes tecnológicos, mas de forma gratuita e transparente.

É como se eles tivessem criado o "Guru da Arte" perfeito e ensinado a todos os artistas iniciantes a usá-lo para se tornarem mestres.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: EDITREWARD

1. O Problema

O campo de edição de imagens guiada por instruções (onde usuários alteram imagens usando comandos em linguagem natural) avançou significativamente com modelos proprietários de código fechado (como GPT-Image-1 e Seedream). No entanto, os modelos de código aberto ainda estão atrasados.

Gargalo Principal: A falta de um modelo de recompensa (reward model) confiável e alinhado com preferências humanas.
Limitações Atuais:
- Métricas perceptuais (ex: LPIPS) não capturam o alinhamento semântico com a instrução.
- Métricas baseadas em características (ex: CLIP) falham em capturar a semântica da edição.
- Modelos "VLM-as-a-judge" (Visão-Linguagem como juízes) genéricos não são otimizados para tarefas de edição e muitas vezes dependem de anotações de preferência ruidosas, de crowdsourcing ou pseudo-rótulos gerados por modelos fechados, resultando em baixa consistência e viés.

2. Metodologia

A equipe propôs uma solução de três partes para superar essas limitações:

A. Construção do Dataset: EDITREWARD-DATA

Escala e Origem: Um conjunto de dados de preferência em grande escala com 200.000 pares anotados manualmente.
Fonte: Coletado a partir de 9.557 pares instrução-imagem de 6 benchmarks estabelecidos (GEdit-Bench, MagicBrush, EmuEdit, etc.).
Geração de Candidatos: Para cada instrução, foram geradas 12 imagens candidatas usando 7 modelos de ponta (Step1X-Edit, Flux-Kontext, Qwen-Image-Edit, etc.).
Anotação Rigorosa: Especialistas treinados avaliaram as imagens em uma escala Likert de 4 pontos em duas dimensões disjuntas:
1. Seguimento de Instrução (Instruction Following - IF): Precisão semântica, completude e ausência de mudanças não solicitadas.
2. Qualidade Visual (Visual Quality - VQ): Plausibilidade física, ausência de artefatos e estética.
Controle de Qualidade: O processo garantiu alta concordância entre anotadores (IAA), validando que a dimensão de Qualidade Visual é inerentemente mais subjetiva que o Seguimento de Instrução.

B. Arquitetura do Modelo: EDITREWARD

Backbone: Utiliza Modelos de Linguagem e Visão (VLM) como base (Qwen2.5-VL ou MiMo-VL).
Abordagem Multi-Dimensional e Incerta:
- Diferente de modelos que preveem um único score determinístico, o EDITREWARD modela a pontuação como uma distribuição Gaussiana ( $\mu, \sigma^2$ ) para cada dimensão (IF e VQ) separadamente. Isso captura a incerteza inerente às anotações humanas.
- Utiliza uma Cabeça de Recompensa Multi-Task (MTL) com cabeças independentes para cada dimensão.
Função de Perda:
- Ranking com Incerteza Multi-Dimensional: Agrega as médias preditas das duas dimensões (usando estratégias como média balanceada) e calcula a probabilidade de preferência baseada nas distribuições, minimizando a perda de log-verossimilhança negativa.
- Disentangling Ties (Desemaranhamento de Empates): Uma estratégia inovadora onde pares empatados na pontuação total são decompostos em novos exemplos de treinamento baseados em qual dimensão venceu (ex: Imagem A vence em IF, Imagem B vence em VQ), forçando o modelo a aprender trade-offs sutis.

C. Novo Benchmark: EDITREWARD-BENCH

Um novo conjunto de avaliação derivado dos dados de alta qualidade, focado em tarefas de preferência multi-vias (ternárias e quaternárias: A vs B vs C vs D).
Projetado para ser mais desafiador e discriminativo do que benchmarks existentes de pares simples, testando a consistência de ranking do modelo.

3. Principais Contribuições

EDITREWARD-DATA: O maior conjunto de dados de preferência para edição de imagens (200K pares) com anotações humanas de alta fidelidade e multidimensionais, superando a dependência de rótulos sintéticos ou ruidosos.
EDITREWARD: Um modelo de recompensa especializado que supera os juízes VLM proprietários (como GPT-5 e GPT-4o) em benchmarks públicos, demonstrando alinhamento superior com preferências humanas.
EDITREWARD-BENCH: Um benchmark rigoroso com tarefas de ranking multi-vias para avaliação robusta de modelos de recompensa.
Validação de Curadoria de Dados: Demonstração prática de que usar o EDITREWARD para filtrar dados ruidosos melhora drasticamente o treinamento de modelos de geração.

4. Resultados Experimentais

Alinhamento Humano (Benchmarks Públicos):
- GenAI-Bench: EDITREWARD (baseado em MiMo-VL) atingiu 65,72%, superando o GPT-5 (59,61) e o ADIEE (59,96).
- AURORA-Bench: Alcançou 63,62%, superando significativamente o GPT-4o (50,81).
- ImagenHub: Alcançou correlação de Spearman de 35,20, competindo com os melhores sistemas proprietários.
- EDITREWARD-BENCH: O modelo alcançou o melhor desempenho geral (38,42%), superando modelos especializados e grandes VLMs.
Aplicação em Curadoria de Dados (Fine-tuning):
- Os pesquisadores usaram o EDITREWARD para selecionar o top 20K de amostras de alta qualidade a partir do conjunto de dados ruidoso "ShareGPT-4o-Image" (46K amostras).
- Ao treinar o modelo Step1X-Edit apenas com esse subconjunto filtrado, houve uma melhoria significativa em relação ao treinamento com o conjunto completo.
- Resultado: O score geral no GEdit-Bench subiu de 6,7/10 (conjunto completo) para 7,1/10 (subconjunto filtrado), colocando o modelo de código aberto no mesmo nível de editores proprietários de ponta como o Doubao-Edit.
Generalização Out-of-Distribution (OOD):
- O modelo manteve desempenho competitivo em tarefas de OCR (texto na imagem) e transferência de estilo, superando o GPT-4o em algumas métricas, sendo uma alternativa open-source e custo-eficiente.

5. Significado e Impacto

O trabalho de EDITREWARD resolve um gargalo crítico no desenvolvimento de modelos de edição de imagens de código aberto. Ao fornecer um modelo de recompensa alinhado com humanos e um dataset de alta qualidade, os autores permitem que a comunidade:

Escale a criação de dados: Use o modelo para filtrar automaticamente grandes volumes de dados sintéticos ou ruidosos, extraindo apenas as amostras de alta qualidade para treinamento.
Acelere o avanço: Reduza a lacuna de desempenho entre modelos open-source e modelos proprietários de ponta.
Estabeleça novos padrões: Introduza uma metodologia de avaliação mais rigorosa (multi-dimensional e multi-way) que captura nuances que métricas tradicionais ignoram.

O código, os dados (EDITREWARD-DATA), o modelo treinado e o benchmark (EDITREWARD-BENCH) serão liberados publicamente para fomentar a pesquisa na área.

EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

1. O Que é o EDITREWARD? (O Professor Especialista)

2. A Grande Inovação: Não é Tudo Ou Nada

3. O Teste de Fogo (EDITREWARD-BENCH)

4. A Mágica na Prática: Filtrando o Ruído

Resumo em uma Frase

Resumo Técnico: EDITREWARD

1. O Problema

2. Metodologia

3. Principais Contribuições

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

When Consistency Becomes Bias: Interviewer Effects in Semi-Structured Clinical Interviews

Demystifying When Pruning Works via Representation Hierarchies

Fine-Tuning A Large Language Model for Systematic Review Screening

Evaluating Fine-Tuned LLM Model For Medical Transcription With Small Low-Resource Languages Validated Dataset

Enhancing Structured Meaning Representations with Aspect Classification