DivCon: Divide and Conquer for Complex Numerical and Spatial Reasoning in Text-to-Image Generation

Le papier présente DivCon, une approche « diviser pour régner » qui améliore la génération d'images à partir de texte en décomposant la prédiction de mise en page et la synthèse d'images en sous-tâches gérables, permettant ainsi aux modèles légers de surpasser les méthodes précédentes dans la gestion de relations spatiales et numériques complexes.

Yuhao Jia, Wenhan Tan

Publié 2026-03-10
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée de la recherche DivCon, présentée comme si nous parlions d'un chef cuisinier et d'un architecte.

Le Problème : L'Artiste qui a du mal à compter

Imaginez que vous demandez à un artiste très talentueux (un modèle d'IA appelé "Diffusion") de peindre un tableau à partir d'une description.

  • Si vous dites : "Peins un chat sur un tapis", l'artiste le fait parfaitement.
  • Mais si vous dites : "Peins cinq chats, trois chiens, et deux oiseaux, avec les chats à gauche des chiens et les oiseaux au-dessus", l'artiste commence à paniquer. Il risque de peindre 10 chats, de mettre les oiseaux à l'envers, ou de mélanger les couleurs.

C'est le problème actuel : les IA génèrent de superbes images, mais elles sont souvent mauvaises en comptage (numérique) et en organisation spatiale (où placer les objets).

La Solution : DivCon (Diviser pour Régner)

Les auteurs de cette étude proposent une méthode appelée DivCon. Le nom vient de l'expression "Diviser pour régner". Au lieu de demander à l'IA de tout faire d'un coup, ils cassent la tâche en deux étapes distinctes, comme si l'on passait par un architecte avant de passer au peintre.

Étape 1 : L'Architecte (Le Plan)

Avant de peindre, il faut un plan précis.

  • L'ancienne méthode : On demandait à un super-ordinateur (très cher et lent, comme GPT-4) de dessiner tout le plan d'un coup. C'est efficace, mais coûteux.
  • La méthode DivCon : Ils utilisent un petit ordinateur (un modèle de langage "léger" et gratuit) et lui disent : "Ne dessine pas encore ! D'abord, compte les objets. Ensuite, dis-moi où ils doivent être."
    • L'analogie : Imaginez que vous commandez un gâteau. Au lieu de demander au boulanger de tout faire d'un coup, vous lui donnez d'abord une liste écrite : "Il me faut 5 fraises, 3 fraises, et elles doivent être en cercle". Le petit ordinateur fait ce travail de "comptage et de placement" très précisément.
    • Le résultat : Même un petit ordinateur peut faire un plan parfait si on lui demande de le faire étape par étape.

Étape 2 : Le Peintre (La Peinture)

Une fois le plan (les boîtes et les positions) établi, on le donne au peintre (l'IA génératrice d'images).

  • Le problème habituel : Le peintre essaie de tout peindre en même temps. Les objets "faciles" (comme une pomme) sont beaux, mais les objets "difficiles" (comme un cheval ou un objet complexe) sont ratés ou déformés.
  • La méthode DivCon : Ils utilisent une stratégie de "facile vers difficile".
    1. Le peintre fait un premier essai pour tout le tableau.
    2. Il regarde le résultat et dit : "Tiens, les pommes sont parfaites, mais le cheval est moche."
    3. Il gèle (il garde intactes) les parties réussies (les pommes).
    4. Il ne se concentre que sur la répainture du cheval, en gardant le reste du tableau intact.
    • L'analogie : C'est comme si vous retouchiez un dessin. Vous ne repassez pas tout le dessin à l'encre, vous ne repassez que les lignes qui sont mal faites, tout en protégeant celles qui sont déjà parfaites.

Pourquoi c'est génial ?

  1. Économie d'énergie : Au lieu d'utiliser un super-ordinateur coûteux pour tout faire, on utilise un petit ordinateur intelligent pour le plan, et on optimise le travail du peintre. C'est comme utiliser une petite voiture pour aller au supermarché plutôt qu'un camion de pompiers.
  2. Précision : Les images respectent enfin le nombre d'objets (5 chats = 5 chats, pas 3) et leur position (le chat est bien sur la chaise, pas dedans).
  3. Qualité : Les images finales sont plus belles et plus fidèles à la demande, même pour des scènes très compliquées.

En résumé

DivCon, c'est comme passer d'un artiste qui improvise tout d'un coup à une équipe professionnelle :

  1. Un chef de chantier (le petit ordinateur) qui vérifie les plans et les quantités.
  2. Un peintre qui travaille par étapes, en commençant par les parties faciles et en revenant corriger uniquement les parties difficiles, sans gâcher le reste.

Grâce à cette méthode, l'IA devient beaucoup plus fiable pour créer des images complexes, tout en coûtant moins cher et en allant plus vite.