InterCoG: Towards Spatially Precise Image Editing with Interleaved Chain-of-Grounding Reasoning

L'article présente InterCoG, un cadre de raisonnement intercalé texte-vision qui améliore l'édition d'images complexes en déduisant d'abord la position des objets par le texte avant de les localiser visuellement, soutenu par un nouveau jeu de données et des modules d'entraînement pour garantir une précision spatiale supérieure.

Yecong Wan, Fan Li, Chunwei Wang, Hao Wu, Mingwen Shao, Wangmeng Zuo

Publié 2026-03-04
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous demandez à un ami très doué mais un peu distrait de modifier une photo de groupe complexe. Vous lui dites : « Change la chemise de la femme qui se tient entre deux enfants en vert. »

Un ancien modèle d'IA (comme un ami distrait) pourrait regarder la photo, voir plusieurs femmes, plusieurs enfants, et se tromper de cible. Il pourrait changer la chemise de la mauvaise personne, ou pire, colorer tout le groupe en vert. C'est frustrant !

Le papier que nous allons explorer, InterCoG, propose une nouvelle méthode pour que l'IA ne se trompe plus jamais de cible, même dans les scènes les plus compliquées. Voici comment cela fonctionne, expliqué simplement :

1. Le Problème : L'IA qui "devine" au lieu de "voir"

Jusqu'à présent, les IA d'édition d'images étaient comme des peintres qui regardaient une photo de loin et faisaient des suppositions. Si vous disiez « enlève le chien le plus à gauche », elles pouvaient confondre le chien avec un chat ou un sac à dos si la scène était encombrée. Elles manquaient de précision spatiale.

2. La Solution : InterCoG, le "Détective Visuel"

InterCoG change la donne en utilisant une technique appelée « Chaîne de Raisonnement Entrelacée ». Imaginez que l'IA ne se contente pas de regarder la photo, mais qu'elle doit d'abord penser avant d'agir, comme un détective qui résout une énigme étape par étape.

Voici les trois étapes de ce processus, avec une analogie culinaire :

Étape 1 : Le Chef qui lit la recette (Le Raisonnement Textuel)

Avant de toucher à la photo, l'IA lit votre demande et analyse la scène uniquement avec des mots.

  • Analogie : C'est comme un chef qui lit la recette « Le gâteau au milieu du buffet » et qui se dit : « Ah, il y a trois gâteaux. Le premier est à gauche, le deuxième est rouge, le troisième est au milieu. Donc, le "gâteau du milieu" est le troisième. »
  • L'IA décrit la scène et localise le target (la cible) en utilisant des relations spatiales précises (« entre deux enfants », « à gauche de... »).

Étape 2 : Le Chef qui pointe du doigt (L'Ancrage Visuel)

Une fois qu'elle a compris qui est la cible, l'IA ne se contente pas de le dire. Elle dessine une boîte rouge et un masque transparent autour de la personne ou de l'objet concerné sur l'image.

  • Analogie : Le chef pointe du doigt le gâteau exact sur le buffet et dit : « C'est celui-ci, je le touche. »
  • Cela force l'IA à confirmer visuellement qu'elle a bien identifié le bon objet avant de faire le moindre changement. C'est comme si elle disait : « Je suis sûre à 100 % que c'est bien cette femme-là. »

Étape 3 : Le Chef qui cuisine (L'Édition Finale)

Maintenant que l'IA a réfléchi (étape 1) et pointé la cible (étape 2), elle réécrit sa propre instruction pour être ultra-précise, puis effectue le changement (changer la couleur, supprimer l'objet, etc.).

  • Analogie : Le chef prend maintenant le gâteau exact qu'il a identifié et lui met une couche de glaçage vert, sans toucher aux gâteaux voisins.

Pourquoi est-ce révolutionnaire ?

Imaginez que vous essayez de peindre une seule tuile sur un toit complexe sans toucher aux autres.

  • Les anciennes méthodes : Elles prenaient un pinceau large et risquaient de salir tout le toit.
  • InterCoG : C'est comme si l'artiste avait d'abord dessiné un plan détaillé, pointé la tuile exacte avec un laser, et seulement ensuite appliqué la peinture avec une précision chirurgicale.

Les Résultats Concrets

Grâce à cette méthode, InterCoG est capable de :

  1. Comprendre les relations complexes : « La femme qui tient la main de l'enfant à sa droite » (même s'il y a 10 personnes sur la photo).
  2. Éviter les erreurs : Elle ne modifie jamais les objets voisins par accident.
  3. Être interprétable : On peut voir exactement comment l'IA a raisonné (elle nous montre ses "notes" et ses "pointages" avant de faire le travail).

En Résumé

InterCoG est comme un assistant ultra-intelligent qui ne se contente pas d'obéir aveuglément. Il réfléchit, vérifie visuellement ce qu'il doit toucher, et agit avec une précision chirurgicale. C'est un pas de géant vers une IA capable de modifier des images réalistes et complexes sans faire de bêtises, rendant la retouche photo accessible et fiable pour tout le monde.