CompBench: Benchmarking Complex Instruction-guided Image Editing

Bohan Jia, Wenxuan Huang, Yuntian Tang, Junbo Qiao, Jincheng Liao, Shaosheng Cao, Fei Zhao, Zhaopeng Feng, Zhouhong Gu, Zhenfei Yin, Lei Bai, Wanli Ouyang, Lin Chen, Fei Zhao, Yao Hu, Zihan Wang, Yuan

Publié 2026-03-24

📖 5 min de lecture🧠 Analyse approfondie

Voir sur arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous demandez à un ami très doué de modifier une photo pour vous. Vous dites : « Enlève le chien qui dort, mais laisse le chat, et ajoute un oiseau qui vole juste au-dessus de la tête du chat, en regardant vers la gauche ».

Si cet ami est un débutant, il risque de supprimer tout le monde, de mal placer l'oiseau, ou de faire disparaître le chat par erreur. C'est exactement le problème que les chercheurs ont identifié avec les outils d'édition d'images actuels basés sur l'intelligence artificielle.

Voici une explication simple du papier CompBench, présentée comme une nouvelle façon de tester ces "artistes numériques".

1. Le Problème : Des examens trop faciles

Jusqu'à présent, les tests pour évaluer ces intelligences artificielles étaient un peu comme des examens de conduite sur un parking vide, sans piétons, sans feux rouges et sans trafic.

La réalité : Dans le vrai monde, les photos sont complexes. Il y a des objets qui se cachent les uns derrière les autres (occlusion), des foules, des détails fins et des relations spatiales compliquées.
Le problème : Les anciens tests utilisaient des images trop simples (un chien sur un fond blanc, par exemple). Les IA y brillaient, mais dès qu'on leur donnait une photo de rue bondée, elles échouaient lamentablement. Elles ne comprenaient pas les nuances.

2. La Solution : CompBench, le "Parc d'Obstacles Ultime"

Les auteurs ont créé CompBench, un nouveau banc d'essai (un test) conçu spécifiquement pour mettre les IA à l'épreuve dans des situations réalistes et chaotiques.

Imaginez que CompBench est un parc d'obstacles extrême pour ces robots artistes, au lieu d'une simple piste d'entraînement.

La complexité : Au lieu de demander "change la couleur de la voiture", le test demande : "Enlève le deuxième tigre à partir de la gauche, qui est caché derrière les buissons, mais assure-toi que l'ombre du lion reste cohérente".
La précision : Le test vérifie non seulement si l'IA a fait ce qu'on lui a demandé, mais aussi si elle n'a pas abîmé le reste de la photo (comme si vous peigniez un mur et que la peinture coulait sur le parquet).

3. Comment ont-ils construit ce test ? (L'équipe de l'architecte)

Pour créer ce test, ils n'ont pas juste laissé un robot faire le travail. Ils ont utilisé une méthode collaborative intelligente :

Le Chef d'Orchestre (IA) : Une IA très puissante (un modèle de langage multimodal) a d'abord généré des idées de modifications et des instructions.
Le Contrôleur Humain : Des humains experts ont ensuite vérifié chaque image. Ils ont dit : "Non, cette instruction est trop floue" ou "Non, cette modification a détruit le fond".
La Stratégie de "Démantèlement" : Pour que les instructions soient claires, ils ont appris à décomposer les demandes complexes en quatre pièces de puzzle :
1. Où ? (La position exacte).
2. À quoi ça ressemble ? (La couleur, la texture).
3. Que fait-il ? (Le mouvement, l'action).
4. Qu'est-ce que c'est ? (L'objet lui-même).
  C'est comme donner une recette de cuisine précise au lieu de dire juste "fais quelque chose de bon".

4. Les Résultats : Qui est le meilleur ?

Ils ont fait passer le test à une vingtaine d'IA différentes. Voici ce qu'ils ont découvert :

Personne n'est parfait : Même les meilleures IA échouent souvent sur les tâches les plus complexes. C'est comme si le meilleur joueur d'échecs du monde trébuchait sur un échiquier en 3D.
Les nouveaux champions : Des modèles comme Bagel, Qwen-Image-Edit et FLUX.1 se sont démarqués. Ils sont les seuls à réussir à garder le fond de l'image intact tout en modifiant précisément l'objet demandé.
Le problème du "Planificateur vs Exécutant" : Les chercheurs ont remarqué un problème curieux. Parfois, l'IA comprend très bien ce qu'il faut faire (le planificateur), mais quand elle essaie de le dessiner (l'exécutant), elle fait des erreurs de précision, comme si un architecte dessinait un bâtiment magnifique, mais que le maçon posait les briques de travers.

5. Pourquoi est-ce important ?

Ce papier est crucial car il nous dit : "Arrêtons de nous mentir à nous-mêmes."
Les anciennes méthodes de test nous faisaient croire que les IA étaient prêtes pour le monde réel. CompBench nous montre qu'elles ont encore beaucoup à apprendre. C'est une boussole pour les chercheurs : il faut maintenant travailler sur la logique complexe, la géométrie 3D (pour que les objets ne se déforment pas bizarrement) et la compréhension profonde des images.

En résumé : CompBench est le nouveau "examen du permis de conduire" pour les IA qui modifient des photos. Il ne suffit plus de savoir rouler tout droit ; maintenant, il faut savoir gérer le trafic, les piétons et les virages serrés pour obtenir son diplôme.

CompBench: Benchmarking Complex Instruction-guided Image Editing

1. Le Problème : Des examens trop faciles

2. La Solution : CompBench, le "Parc d'Obstacles Ultime"

3. Comment ont-ils construit ce test ? (L'équipe de l'architecte)

4. Les Résultats : Qui est le meilleur ?

5. Pourquoi est-ce important ?

1. Problématique

2. Méthodologie et Construction du Benchmark

A. Collecte et Prétraitement des Données

B. Pipeline de Génération de Tâches (MLLM-Humain)

C. Stratégie de Découplage des Instructions

D. Catégories de Tâches

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Perspectives

CompBench: Benchmarking Complex Instruction-guided Image Editing

1. Le Problème : Des examens trop faciles

2. La Solution : CompBench, le "Parc d'Obstacles Ultime"

3. Comment ont-ils construit ce test ? (L'équipe de l'architecte)

4. Les Résultats : Qui est le meilleur ?

5. Pourquoi est-ce important ?

1. Problématique

2. Méthodologie et Construction du Benchmark

A. Collecte et Prétraitement des Données

B. Pipeline de Génération de Tâches (MLLM-Humain)

C. Stratégie de Découplage des Instructions

D. Catégories de Tâches

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Perspectives

Articles similaires