DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model

Este artigo apresenta o DLEBench, o primeiro benchmark dedicado a avaliar a capacidade de modelos de edição de imagem baseados em instruções na manipulação de objetos em pequena escala, introduzindo um conjunto de dados desafiador e um protocolo de avaliação robusto que revela lacunas significativas de desempenho nessa tarefa.

Shibo Hong, Boxian Ai, Jun Kuang, Wei Wang, FengJiao Chen, Zhongyuan Peng, Chenhao Huang, Yixin Cao

Publicado 2026-03-02
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um pintor de IA muito talentoso, capaz de mudar a cor de um carro, remover um cachorro de uma foto ou trocar o céu de dia para noite. Até agora, todos elogiavam esse pintor por fazer essas mudanças grandes e óbvias.

Mas e se você pedisse para ele mudar a cor de um botão minúsculo em uma jaqueta, ou apagar uma mosca que pousou no nariz de alguém? Ou mudar o texto em uma placa de rua que está longe?

É aqui que a coisa fica difícil. O novo trabalho de pesquisa chamado DLEBench (DeepLookEditBench) é como um "exame de vista" para esses pintores de IA, focado especificamente em detalhes pequenos.

Aqui está a explicação do que eles fizeram, usando analogias simples:

1. O Problema: O "Gigante" vs. o "Grão de Areia"

Até hoje, os testes para essas IAs focavam em objetos grandes (como um carro ou uma pessoa). Era como testar um cirurgião apenas pedindo para ele amputar um braço. Ele consegue! Mas e se você pedisse para ele remover uma farpa minúscula do dedo? A IA muitas vezes falha. Ela pode:

  • Confundir o alvo: Em vez de mudar o botão da jaqueta, ela muda a cor de toda a jaqueta.
  • Não ver nada: A IA simplesmente ignora o objeto pequeno e não faz nada.
  • Destruir a foto: Ao tentar mudar o pequeno objeto, ela estraga o resto da imagem (como se o pintor tivesse derrubado tinta em todo o quadro ao tentar pintar uma flor minúscula).

2. A Solução: Criando o "DLEBench" (O Campo de Treinamento)

Os pesquisadores criaram um banco de dados especial com 1.889 exemplos onde o objeto a ser editado é muito pequeno (ocupando apenas 1% a 10% da imagem).

  • A Analogia da "Lupa": Eles pegaram fotos complexas e criaram instruções específicas para esses detalhes.
  • O Truque do "Recorte": Como as IAs têm dificuldade em ver o objeto pequeno na foto inteira, os pesquisadores usaram uma técnica inteligente: eles "recortaram" a parte pequena da foto, fizeram a edição ali com precisão e depois "colaram" de volta. Isso criou a "resposta perfeita" (o padrão ouro) para comparar se a IA acertou ou não.

3. O Julgador: Por que o "Juiz de IA" não serve?

Normalmente, para saber se a edição ficou boa, usamos outra IA para julgar a primeira. Mas os autores descobriram que, para detalhes minúsculos, o "Juiz de IA" é cego.

  • A Analogia do "Juiz Cego": Imagine pedir para um juiz avaliar se você trocou a cor de um grão de areia em uma praia. Se o juiz olhar de longe, ele não vê nada. Ele dirá que está tudo perfeito, mesmo que você tenha pintado a areia de azul.
  • A Nova Solução (O Duplo Modo): Para resolver isso, eles criaram dois modos de avaliação:
    1. Modo Ferramentas (O Detetive): A IA de julgamento é forçada a usar "ferramentas" como uma lupa digital, um zoom e um comparador de pixels. Ela não pode apenas olhar; ela tem que "investigar" a foto para achar a diferença.
    2. Modo Oráculo (O Guia Humano): Aqui, os humanos dizem exatamente onde o objeto está (desenhando uma caixa ao redor dele). A IA de julgamento então olha apenas dentro dessa caixa, ignorando o resto da foto. Isso elimina a confusão de "onde eu devo olhar?".

4. O Resultado: A Realidade Dura

Quando eles testaram 10 das IAs mais famosas do mundo (incluindo modelos da Google, OpenAI e outros) nesse novo teste:

  • A maioria falhou feio. Mesmo os modelos mais avançados tiveram muita dificuldade em editar objetos pequenos sem estragar a foto ou mudar a coisa errada.
  • O "Cobertor" vs. a "Agulha": As IAs são ótimas em mudar o "cobertor" inteiro (objetos grandes), mas ainda são péssimas em costurar a "agulha" (objetos pequenos).
  • Um modelo se destacou: O modelo Gemini-3-Pro foi o melhor, mas mesmo ele não foi perfeito. Curiosamente, alguns modelos de código aberto (gratuitos) foram melhores que modelos pagos e fechados em certas tarefas.

Resumo Final

O DLEBench é um novo espelho que mostra que, embora nossas IAs de edição de imagem sejam inteligentes, elas ainda têm "visão de túnel". Elas não conseguem focar nos detalhes minúsculos sem bagunçar o resto da cena.

Esse trabalho é importante porque, no futuro, queremos que essas IAs sejam cirurgiões precisos, capazes de corrigir um erro pequeno em uma foto sem precisar refazer a imagem inteira. Até lá, eles precisam aprender a usar a "lupa" com mais cuidado!

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →