InEdit-Bench: Benchmarking Intermediate Logical Pathways for Intelligent Image Editing Models

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous demandez à un ami de vous expliquer comment il a réussi à transformer un tas de briques en un château de sable magnifique.

Si vous lui demandez simplement : « Montrez-moi le château final », il vous montrera une belle photo. C'est ce que font la plupart des intelligences artificielles (IA) actuelles pour modifier des images : elles sautent directement du début à la fin.

Mais InEdit-Bench, c'est un nouveau test qui demande quelque chose de beaucoup plus difficile : « Montrez-moi chaque étape de votre construction, briques par briques, de manière logique. »

Voici une explication simple de ce papier de recherche, imagée pour tout le monde :

1. Le Problème : L'IA qui « saute » les étapes

Aujourd'hui, les IA sont très douées pour faire des edits simples (comme changer la couleur d'un pull). Mais si vous leur demandez de simuler un processus complexe, comme « Comment un œuf devient-il un oiseau ? » ou « Comment un immeuble s'effondre-t-il ? », elles ont tendance à halluciner. Elles montrent le début et la fin, mais les étapes intermédiaires sont souvent bizarres, illisibles ou physiquement impossibles.

C'est comme si un magicien vous montrait le lapin dans le chapeau, puis le lapin dans la cage, mais qu'il avait oublié de vous montrer comment il l'avait fait disparaître et réapparaître.

2. La Solution : InEdit-Bench (Le « Permis de Conduire » pour l'IA)

Les chercheurs ont créé InEdit-Bench. C'est un terrain de jeu d'entraînement (un benchmark) conçu spécifiquement pour tester si une IA comprend la logique des étapes intermédiaires.

Au lieu de juste demander le résultat final, ce test demande à l'IA de générer une bande dessinée (une série d'images) qui raconte l'histoire de la transformation.

3. Les 4 Types de Défis (Les Épreuves du Permis)

Pour être certifiée, l'IA doit réussir quatre types de missions, un peu comme un permis de conduire avec différentes épreuves :

Le Puzzle (Transition d'état) : Assembler des pièces détachées pour former un objet complet. Exemple : Transformer des pièces de Lego éparpillées en un avion.
Le Film (Processus dynamique) : Montrer un mouvement fluide et continu. Exemple : Un saut en longueur ou une fleur qui s'ouvre.
L'Horloge (Séquence temporelle) : Montrer l'évolution dans le temps. Exemple : Un glacier qui fond ou une ville qui se construit sur 100 ans.
Le Laboratoire (Simulation scientifique) : Respecter les lois de la physique ou de la chimie. Exemple : Une réaction chimique ou une cellule qui se divise.

4. Comment on note l'IA ? (Le Juge Invisible)

Pour évaluer ces bandes dessinées générées par l'IA, les chercheurs n'utilisent pas seulement des humains (ce serait trop long). Ils utilisent une super-IA (GPT-4o) comme juge, un peu comme un professeur très strict.

Ce juge vérifie six points cruciaux :

La cohérence visuelle : Est-ce que le style reste le même du début à la fin ?
La qualité : Est-ce que l'image est belle et nette ?
La logique : Est-ce que l'étape 2 suit logiquement l'étape 1 ? (Pas de magie noire !).
La science : Est-ce que ça respecte les lois de la nature ? (L'eau ne peut pas monter toute seule).
La crédibilité du processus : Est-ce que l'histoire raconte bien ce qui s'est passé ?
La fidélité aux consignes : Si on demande de construire de haut en bas, l'IA le fait-elle vraiment ?

5. Les Résultats : Pas de panique, mais il y a du travail !

Les chercheurs ont testé 14 IA différentes (les plus connues du moment). Le verdict est sans appel :

C'est dur ! Même les meilleures IA (comme GPT-Image-1) n'ont réussi que 16 % des tests parfaitement.
La plupart des IA échouent lamentablement sur les tâches complexes. Elles ont du mal à comprendre la « chaîne de causalité » (pourquoi A mène à B, qui mène à C).
Les IA « propriétaires » (payantes) sont un peu meilleures que les « open-source » (gratuites), mais aucune ne maîtrise encore parfaitement l'art de raconter une histoire visuelle étape par étape.

En Résumé

InEdit-Bench est un signal d'alarme et une boussole pour la communauté scientifique. Il nous dit : « Arrêtez de juste faire de jolies images finales. Nous avons besoin d'IA qui comprennent comment les choses se transforment, qui peuvent planifier un chemin logique et respecter les lois de la physique. »

C'est le premier pas vers des assistants visuels intelligents capables de nous aider à concevoir des expériences, à enseigner des processus complexes ou à créer des animations réalistes, en comprenant non seulement le « quoi », mais surtout le « comment ».

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les modèles génératifs multimodaux ont réalisé des progrès significatifs dans l'édition d'images statiques (création d'images, modifications simples en une étape). Cependant, leur capacité à gérer des scénarios complexes nécessitant un raisonnement dynamique et une modélisation de chemins logiques intermédiaires reste largement sous-développée.

Le problème central identifié par les auteurs est l'incapacité des modèles actuels à reconstruire la « trajectoire cachée » entre un état initial et un état final. Contrairement aux tâches d'édition statiques où l'on passe directement du point A au point B, l'édition intelligente exige de comprendre et de générer les étapes intermédiaires cohérentes (causales, temporelles ou physiques) qui relient ces deux états. Les benchmarks existants se concentrent principalement sur la fidélité de l'instruction finale ou sur le raisonnement statique, négligeant l'évaluation de la cohérence procédurale et de la logique de transformation au fil du temps.

2. Méthodologie : InEdit-Bench

Pour combler ce vide, les auteurs proposent InEdit-Bench, le premier benchmark dédié à l'évaluation du raisonnement sur les chemins logiques intermédiaires dans l'édition d'images.

A. Construction du Dataset

Le benchmark comprend 237 cas de test soigneusement annotés à la main, couvrant 16 sous-tâches réparties en 4 catégories fondamentales :

Transition d'état (State Transition) : Inférence de changements discrets (ex: assemblage de blocs, peinture, déformation topologique).
Processus dynamique (Dynamic Process) : Transformations continues fluides (ex: mouvement biologique, opérations mécaniques, événements soudains).
Séquence temporelle (Temporal Sequence) : Évolution guidée par le temps (ex: croissance/décroissance, transformation physique, mesure du temps).
Simulation scientifique (Scientific Simulation) : Respect strict des lois physiques, chimiques ou biologiques (ex: réactions chimiques, division cellulaire).

Pour chaque instance, le modèle reçoit une image initiale, une image finale et une instruction textuelle. Il doit générer une image unique divisée en une grille de $N$ cases, où chaque case représente une étape logique du processus de transformation.

B. Protocole d'Évaluation

InEdit-Bench introduit un protocole d'évaluation multidimensionnel basé sur 6 métriques clés, évaluées via une approche LMM-as-a-Judge (utilisation de GPT-4o comme évaluateur objectif) :

Métriques de qualité visuelle (fondamentales) :
1. Cohérence de l'apparence : Préservation du style et des attributs visuels à travers les étapes.
2. Qualité perceptive : Réalisme et absence d'artefacts.
3. Cohérence sémantique : Alignement du contenu final avec l'objectif d'édition.
Métriques de processus (novatrices) :
1. Cohérence logique : Fluidité et naturalité des transitions entre les étapes adjacentes (absence de sauts logiques, de régressions ou de redondances).
2. Plausibilité scientifique : Adhérence aux lois scientifiques (pour les tâches de simulation et dynamiques), vérifiée via des listes de contrôle de connaissances.
3. Plausibilité du processus : Capacité du modèle à suivre des contraintes de chemin spécifiques (ex: suivre un ordre de peinture précis) et à différencier plusieurs trajectoires valides vers le même résultat.

3. Contributions Clés

Premier Benchmark de Raisonnement Dynamique : InEdit-Bench est la première plateforme d'évaluation systématique se concentrant sur la génération de chemins logiques intermédiaires plutôt que sur le résultat final statique.
Taxonomie Complexe et Annotation Fine : Création d'un jeu de données structuré en 4 domaines et 16 sous-tâches, avec des annotations humaines validant les étapes clés et les contraintes de chemin.
Nouveau Protocole d'Évaluation : Définition d'une métrique de « plausibilité du processus » et d'une approche d'évaluation par LLM pour quantifier la logique et la causalité, au-delà de la simple similarité visuelle.
Analyse Comparative Exhaustive : Évaluation de 14 modèles représentatifs (modèles propriétaires et open-source), fournissant une vue d'ensemble des capacités actuelles du domaine.

4. Résultats Expérimentaux

Les auteurs ont évalué 14 modèles, incluant des géants propriétaires (GPT-Image-1, Nano-Banana) et des modèles open-source (Qwen-Image-Edit, Bagel, OmniGen, etc.).

Performance Globale : Les résultats révèlent des lacunes significatives et généralisées. Même le meilleur modèle propriétaire, GPT-Image-1, n'atteint qu'un score moyen global de 81,33 et un taux de précision (samples parfaits) de seulement 16,75 %.
Écart Propriétaire vs Open-Source : Les modèles propriétaires surpassent généralement les modèles open-source, notamment en cohérence logique et sémantique. Cependant, certains modèles open-source comme Qwen-Image-Edit montrent un potentiel prometteur dans des dimensions spécifiques.
Difficultés par Tâche :
- Les tâches de Transition d'état sont les plus difficiles pour tous les modèles (scores inférieurs aux autres catégories).
- Les modèles peinent particulièrement à maintenir la cohérence logique sur de longues séquences et à respecter les contraintes scientifiques.
- La plupart des modèles open-source obtiennent un score de 0 % de précision sur les tâches de transition d'état et de simulation scientifique.
Limites du Raisonnement : Les modèles actuels échouent souvent à capturer les dépendances à long terme et à modéliser les relations causales complexes, produisant souvent des séquences avec des sauts logiques, des régressions ou des étapes redondantes.

5. Signification et Impact

InEdit-Bench marque un tournant dans la recherche sur l'édition d'images générative. Il déplace le focus de la simple « exécution d'instructions » vers la « compréhension procédurale ».

Diagnostic des Modèles Actuels : Le benchmark expose clairement que les modèles actuels, bien que performants pour des edits statiques, manquent de « raisonnement dynamique » nécessaire pour simuler des processus réalistes.
Guide pour la Recherche Future : En identifiant les faiblesses spécifiques (logique, causalité, science), InEdit-Bench oriente le développement futur vers des architectures capables de planification multi-étapes et de raisonnement causal.
Standardisation : Il fournit une base standardisée et rigoureuse pour comparer les futurs modèles, encourageant le développement de systèmes multimodaux plus intelligents, capables de comprendre non seulement le « quoi » (le résultat), mais aussi le « comment » et le « pourquoi » (le processus) de la transformation visuelle.

En conclusion, ce travail établit que la prochaine frontière de l'édition d'images intelligente réside dans la capacité à générer des trajectoires logiques cohérentes et plausibles, une compétence que les modèles actuels doivent encore acquérir.