CompBench: Benchmarking Complex Instruction-guided Image Editing

Bohan Jia, Wenxuan Huang, Yuntian Tang, Junbo Qiao, Jincheng Liao, Shaosheng Cao, Fei Zhao, Zhaopeng Feng, Zhouhong Gu, Zhenfei Yin, Lei Bai, Wanli Ouyang, Lin Chen, Fei Zhao, Yao Hu, Zihan Wang, Yuan

Publicado 2026-03-24

📖 4 min de leitura☕ Leitura rápida

Ver no arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um amigo muito talentoso, mas um pouco "teimoso", que é especialista em editar fotos. Você pede a ele: "Troque o cachorro por um gato". Ele faz isso perfeitamente. Mas, se você pedir algo mais complexo, como: "Coloque um gato preto, deitado, olhando para a janela, mas sem mexer no sofá ao fundo e mantendo a sombra da árvore lá fora", ele começa a ficar confuso. Ele pode colocar o gato no lugar errado, mudar a cor do sofá ou fazer a sombra desaparecer.

Até hoje, os testes para ver se esses "editores de fotos inteligentes" (que são modelos de Inteligência Artificial) são bons, eram como testes de pilotagem em uma pista de kart vazia e reta. Eles funcionavam bem em situações simples, mas não nos diziam se o piloto conseguiria dirigir em uma rua cheia de buracos, pedestres e curvas fechadas.

É aí que entra o CompBench, o novo "teste de estrada" criado pelos pesquisadores deste artigo.

Aqui está a explicação do que eles fizeram, usando analogias do dia a dia:

1. O Problema: O "Parquinho" vs. A "Selva"

Os testes antigos (chamados de benchmarks) eram como um parquinho infantil. As fotos eram simples: um objeto no meio, fundo limpo, sem muita bagunça.

A realidade: O mundo real é uma selva urbana. Tem objetos escondidos (ocultos), coisas se sobrepondo, luzes estranhas e instruções complicadas.
O resultado: As IAs passavam de nota no "parquinho", mas quando colocadas na "selva" (o mundo real), elas falhavam feio, criando imagens estranhas ou ignorando o que você pediu.

2. A Solução: O CompBench (O "Exame de Sobrevivência")

Os autores criaram o CompBench, que é como um exame de pilotagem em condições extremas.

O que tem nele: Mais de 3.000 fotos complexas. Imagine uma foto com 13 objetos diferentes, alguns escondidos atrás de outros, e instruções que exigem raciocínio.
- Exemplo: "Remova o tigre que está mais longe da água, mas mantenha a sombra dele no chão."
A nova regra do jogo: Eles não querem apenas que a IA mude a foto. Eles querem que ela entenda onde colocar, como a coisa deve parecer, o que ela deve estar fazendo e quem são os objetos, tudo ao mesmo tempo.

3. Como eles criaram isso? (O "Chef e o Sous-chef")

Criar esses testes não foi fácil. Eles usaram uma equipe híbrida:

O Sous-chef (IA Multimodal): Uma IA muito inteligente olhou para as fotos e sugeriu instruções complexas.
O Chef (Humanos): Pessoas reais revisaram cada sugestão. Se a IA disse algo confuso ou se a edição ficou ruim, o Chef corrigiu ou descartou.
O Segredo: Eles quebraram as instruções em 4 partes (como ingredientes de uma receita): Localização (onde?), Aparência (como é?), Dinâmica (o que está fazendo?) e Objetos (o quê?). Isso garante que a IA não se perca.

4. O Resultado: A Verdade Nua e Crua

Quando eles testaram as IAs mais famosas do mercado nesse novo "exame de sobrevivência", a notícia não foi muito boa para a maioria:

A maioria tropeçou: Modelos que pareciam incríveis nos testes antigos falharam miseravelmente aqui. Eles não conseguiam entender instruções complexas ou mantinham o fundo da foto estragado.
Os destaques: Alguns modelos novos, que usam uma tecnologia chamada MLLM (Modelos de Linguagem Multimodal), se saíram melhor. Pense neles como pilotos que estudaram mais teoria de voo, não apenas como pilotar. Eles entendem melhor o "porquê" das coisas, não apenas o "o quê".
O maior problema: Mesmo os melhores têm dificuldade com geometria. Se você pedir para girar um objeto, eles muitas vezes o deixam torto ou "flutuando", como se a física não existisse.

5. Por que isso importa?

Este trabalho é como um termômetro de saúde para a tecnologia de edição de imagens.

Ele mostra que, embora tenhamos feito progresso, ainda estamos longe de ter um "assistente de edição" perfeito que entende o mundo real.
Ele aponta para onde os cientistas devem focar agora: ensinar as IAs a raciocinar melhor (entender a lógica) e a manter a física correta (não deixar objetos flutuando ou distorcidos).

Em resumo: O CompBench é o teste que finalmente diz: "Chega de brincadeira no parquinho. Vamos ver se você consegue editar uma foto real, com toda a complexidade do mundo, sem estragar nada." E a resposta foi: "Ainda temos muito o que aprender."

CompBench: Benchmarking Complex Instruction-guided Image Editing

1. O Problema: O "Parquinho" vs. A "Selva"

2. A Solução: O CompBench (O "Exame de Sobrevivência")

3. Como eles criaram isso? (O "Chef e o Sous-chef")

4. O Resultado: A Verdade Nua e Crua

5. Por que isso importa?

1. O Problema

2. Metodologia

3. Principais Contribuições

4. Resultados Experimentais

5. Significado e Perspectivas Futuras

CompBench: Benchmarking Complex Instruction-guided Image Editing

1. O Problema: O "Parquinho" vs. A "Selva"

2. A Solução: O CompBench (O "Exame de Sobrevivência")

3. Como eles criaram isso? (O "Chef e o Sous-chef")

4. O Resultado: A Verdade Nua e Crua

5. Por que isso importa?

1. O Problema

2. Metodologia

3. Principais Contribuições

4. Resultados Experimentais

5. Significado e Perspectivas Futuras

Mais como este