InEdit-Bench: Benchmarking Intermediate Logical Pathways for Intelligent Image Editing Models

Ce papier présente InEdit-Bench, le premier benchmark conçu pour évaluer la capacité des modèles d'édition d'images à raisonner sur les voies logiques intermédiaires dans des scénarios complexes, révélant ainsi des lacunes majeures chez les modèles actuels et orientant la recherche vers des systèmes multimodaux plus intelligents et conscients du raisonnement.

Zhiqiang Sheng, Xumeng Han, Zhiwei Zhang, Zenghui Xiong, Yifan Ding, Aoxiang Ping, Xiang Li, Tong Guo, Yao Mao

Publié 2026-03-05
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous demandez à un ami de vous expliquer comment il a réussi à transformer un tas de briques en un château de sable magnifique.

Si vous lui demandez simplement : « Montrez-moi le château final », il vous montrera une belle photo. C'est ce que font la plupart des intelligences artificielles (IA) actuelles pour modifier des images : elles sautent directement du début à la fin.

Mais InEdit-Bench, c'est un nouveau test qui demande quelque chose de beaucoup plus difficile : « Montrez-moi chaque étape de votre construction, briques par briques, de manière logique. »

Voici une explication simple de ce papier de recherche, imagée pour tout le monde :

1. Le Problème : L'IA qui « saute » les étapes

Aujourd'hui, les IA sont très douées pour faire des edits simples (comme changer la couleur d'un pull). Mais si vous leur demandez de simuler un processus complexe, comme « Comment un œuf devient-il un oiseau ? » ou « Comment un immeuble s'effondre-t-il ? », elles ont tendance à halluciner. Elles montrent le début et la fin, mais les étapes intermédiaires sont souvent bizarres, illisibles ou physiquement impossibles.

C'est comme si un magicien vous montrait le lapin dans le chapeau, puis le lapin dans la cage, mais qu'il avait oublié de vous montrer comment il l'avait fait disparaître et réapparaître.

2. La Solution : InEdit-Bench (Le « Permis de Conduire » pour l'IA)

Les chercheurs ont créé InEdit-Bench. C'est un terrain de jeu d'entraînement (un benchmark) conçu spécifiquement pour tester si une IA comprend la logique des étapes intermédiaires.

Au lieu de juste demander le résultat final, ce test demande à l'IA de générer une bande dessinée (une série d'images) qui raconte l'histoire de la transformation.

3. Les 4 Types de Défis (Les Épreuves du Permis)

Pour être certifiée, l'IA doit réussir quatre types de missions, un peu comme un permis de conduire avec différentes épreuves :

  • Le Puzzle (Transition d'état) : Assembler des pièces détachées pour former un objet complet. Exemple : Transformer des pièces de Lego éparpillées en un avion.
  • Le Film (Processus dynamique) : Montrer un mouvement fluide et continu. Exemple : Un saut en longueur ou une fleur qui s'ouvre.
  • L'Horloge (Séquence temporelle) : Montrer l'évolution dans le temps. Exemple : Un glacier qui fond ou une ville qui se construit sur 100 ans.
  • Le Laboratoire (Simulation scientifique) : Respecter les lois de la physique ou de la chimie. Exemple : Une réaction chimique ou une cellule qui se divise.

4. Comment on note l'IA ? (Le Juge Invisible)

Pour évaluer ces bandes dessinées générées par l'IA, les chercheurs n'utilisent pas seulement des humains (ce serait trop long). Ils utilisent une super-IA (GPT-4o) comme juge, un peu comme un professeur très strict.

Ce juge vérifie six points cruciaux :

  1. La cohérence visuelle : Est-ce que le style reste le même du début à la fin ?
  2. La qualité : Est-ce que l'image est belle et nette ?
  3. La logique : Est-ce que l'étape 2 suit logiquement l'étape 1 ? (Pas de magie noire !).
  4. La science : Est-ce que ça respecte les lois de la nature ? (L'eau ne peut pas monter toute seule).
  5. La crédibilité du processus : Est-ce que l'histoire raconte bien ce qui s'est passé ?
  6. La fidélité aux consignes : Si on demande de construire de haut en bas, l'IA le fait-elle vraiment ?

5. Les Résultats : Pas de panique, mais il y a du travail !

Les chercheurs ont testé 14 IA différentes (les plus connues du moment). Le verdict est sans appel :

  • C'est dur ! Même les meilleures IA (comme GPT-Image-1) n'ont réussi que 16 % des tests parfaitement.
  • La plupart des IA échouent lamentablement sur les tâches complexes. Elles ont du mal à comprendre la « chaîne de causalité » (pourquoi A mène à B, qui mène à C).
  • Les IA « propriétaires » (payantes) sont un peu meilleures que les « open-source » (gratuites), mais aucune ne maîtrise encore parfaitement l'art de raconter une histoire visuelle étape par étape.

En Résumé

InEdit-Bench est un signal d'alarme et une boussole pour la communauté scientifique. Il nous dit : « Arrêtez de juste faire de jolies images finales. Nous avons besoin d'IA qui comprennent comment les choses se transforment, qui peuvent planifier un chemin logique et respecter les lois de la physique. »

C'est le premier pas vers des assistants visuels intelligents capables de nous aider à concevoir des expériences, à enseigner des processus complexes ou à créer des animations réalistes, en comprenant non seulement le « quoi », mais surtout le « comment ».