InEdit-Bench: Benchmarking Intermediate Logical Pathways for Intelligent Image Editing Models

O artigo apresenta o InEdit-Bench, o primeiro benchmark dedicado a avaliar a capacidade de raciocínio sobre caminhos lógicos intermediários em modelos de edição de imagem, revelando deficiências generalizadas nos modelos atuais e propondo critérios para impulsionar o desenvolvimento de sistemas multimodais mais inteligentes e conscientes de processos dinâmicos.

Zhiqiang Sheng, Xumeng Han, Zhiwei Zhang, Zenghui Xiong, Yifan Ding, Aoxiang Ping, Xiang Li, Tong Guo, Yao Mao

Publicado 2026-03-05
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

🎨 O Desafio: "Pular" vs. "Caminhar"

Imagine que você pede a um artista de IA: "Transforme esta foto de uma casa de brinquedo desmontada em uma casa montada."

  • O que as IAs atuais fazem: Elas são como mágicos. Elas olham para a casa desmontada, olham para a casa montada e... puf! A casa aparece pronta. Elas pulam direto do ponto A ao ponto B. O resultado final pode ser bonito, mas a IA não sabe como ela montou os blocos. Ela apenas "adivinha" o final.
  • O que o InEdit-Bench quer: Queremos que a IA seja como um instrutor de LEGO. Não queremos apenas a casa pronta; queremos ver o vídeo ou a sequência de fotos mostrando: primeiro a base, depois as paredes, depois o telhado. Queremos que a IA explique o "caminho lógico" que ela percorreu.

O problema é que, até agora, as IAs de edição de imagem eram ótimas em "pular" (fazer o resultado final), mas péssimas em "caminhar" (entender a lógica dos passos intermediários).

📏 O Que é o InEdit-Bench?

O InEdit-Bench é como um exame de motorista teórico e prático para essas IAs, mas focado especificamente na "lógica do caminho".

Os pesquisadores criaram um banco de dados com 237 desafios onde a IA precisa gerar não uma imagem, mas uma sequência de imagens (um "grid" ou grade) que mostra a evolução de um estado inicial para um final.

Eles dividiram esses desafios em 4 grandes categorias, como se fossem diferentes tipos de "viagens":

  1. Transição de Estado (Montar/Desmontar): Como transformar peças soltas em um objeto completo.
    • Analogia: É como pedir para a IA mostrar passo a passo como montar um móvel da IKEA, sem pular etapas.
  2. Processo Dinâmico (Ação Contínua): Coisas que acontecem de forma fluida.
    • Analogia: Mostrar uma pessoa pulando. A IA precisa mostrar o agachamento, o impulso, o voo e a aterrissagem, e não apenas "pulo" e "pousou".
  3. Sequência Temporal (Passagem do Tempo): Mudanças que ocorrem ao longo do tempo.
    • Analogia: Mostrar uma flor crescendo. A IA precisa mostrar o broto, a folha pequena, a flor meio aberta e a flor cheia, respeitando o tempo biológico.
  4. Simulação Científica (Leis da Física/Química): Coisas que precisam seguir regras estritas da ciência.
    • Analogia: Mostrar gelo derretendo. A IA não pode fazer o gelo virar água e depois virar gelo de novo, nem pode fazer a água evaporar antes de derreter. Ela precisa seguir as leis da física.

🏆 Como eles avaliam? (A Prova de Fogo)

Para corrigir as IAs, os pesquisadores não olham apenas se a imagem final ficou bonita. Eles usam 6 critérios, como se fossem 6 professores diferentes:

  1. Consistência Visual: O estilo da imagem muda de um passo para o outro? (Ex: Não pode ser realista no passo 1 e virar desenho animado no passo 3).
  2. Qualidade Perceptiva: A imagem está nítida ou borrada?
  3. Consistência Semântica: A IA entendeu o que foi pedido? (Ex: Se pediu para pintar de vermelho, ela pintou mesmo).
  4. Coerência Lógica (O mais importante): Os passos fazem sentido? O passo 2 é uma consequência natural do passo 1?
  5. Plausibilidade Científica: A física/química está correta? (Ex: A fumaça sobe, não desce).
  6. Plausibilidade do Processo: A IA seguiu a ordem específica que foi pedida? (Ex: "Pinte de cima para baixo" vs "Pinte de baixo para cima").

Eles usam uma IA superinteligente (GPT-4o) como "juiz" para dar notas, e confirmaram que essa juíza robótica dá notas muito parecidas com as de humanos.

📉 O Resultado: A Realidade Dura

Quando eles testaram 14 modelos de IA famosos (incluindo os mais avançados da OpenAI, Google e modelos de código aberto), a notícia não foi boa:

  • A maioria falhou miseravelmente: A maioria das IAs conseguiu menos de 1% de acertos perfeitos. Elas simplesmente não conseguem "pensar" em etapas.
  • O "Rei" ainda tem limitações: O modelo mais avançado (GPT-Image-1) foi o melhor de todos, mas ainda acertou apenas 16,75% dos testes. Isso significa que, em 83% dos casos, a IA "alucinou" o caminho, pulou etapas ou fez coisas fisicamente impossíveis.
  • O problema é a lógica, não a arte: As IAs conseguem fazer imagens bonitas (alta qualidade visual), mas quando o teste exige raciocínio (entender causa e efeito), elas travam.

💡 Por que isso importa?

Hoje, as IAs são como alunos que decoraram a resposta final da prova, mas não sabem fazer a conta.

O InEdit-Bench é um grito de alerta para a comunidade científica: "Parem de focar apenas em fazer imagens bonitas. Precisamos ensinar as IAs a raciocinar, a planejar e a entender a lógica das coisas."

Se quisermos que as IAs nos ajudem a planejar projetos complexos, simular experimentos científicos ou criar histórias visuais coerentes, elas precisam aprender a dar o "passo a passo", e não apenas o "pulo do gato". Este benchmark é o primeiro passo para medir e melhorar essa habilidade.