FactorSmith: Agentic Simulation Generation via Markov Decision Process Decomposition with Planner-Designer-Critic Refinement

Le papier présente FactorSmith, un cadre qui génère des simulations de jeux exécutables à partir de descriptions textuelles en combinant une décomposition de POMDP factorisé pour réduire le contexte et un flux de travail agenciel hiérarchique (planificateur, concepteur, critique) pour affiner itérativement la qualité du code.

Ali Shamsaddinlou, Morteza NourelahiAlamdari

Publié 2026-03-24
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous voulez construire une maison entière, mais vous ne donnez les instructions qu'à un seul architecte qui a une mémoire très courte et qui a tendance à inventer des choses quand il est débordé. C'est un peu le problème que rencontrent les intelligences artificielles (les "LLM") quand on leur demande de créer un jeu vidéo ou une simulation complexe à partir d'une simple phrase.

Le papier FactorSmith propose une solution ingénieuse en combinant deux idées simples : découper le travail et faire travailler une équipe.

Voici comment cela fonctionne, expliqué avec des analogies du quotidien :

1. Le Problème : Le "Grand Livre" trop gros

Quand on demande à une IA de coder un jeu complet d'un coup, c'est comme lui donner un livre de 1000 pages et lui dire : "Écris le chapitre 50". L'IA oublie souvent ce qui s'est passé au chapitre 1, invente des personnages qui n'existent pas, ou modifie des parties du livre qui ne concernent pas le chapitre 50. Elle se perd dans le contexte.

2. La Solution : L'approche "FactorSmith"

FactorSmith utilise une stratégie en deux temps, comme un chef d'orchestre très organisé.

Étape A : Le découpage intelligent (La "Factored POMDP")

Au lieu de demander à l'IA de tout faire d'un coup, le système découpe la simulation en petites pièces de puzzle.

  • L'analogie : Imaginez que vous construisez une maison. Au lieu de dire à l'ouvrier "Construis toute la maison", vous lui dites : "Aujourd'hui, on pose seulement les briques du mur du salon". Demain, on s'occupe de la toiture.
  • L'avantage : L'IA n'a besoin de se souvenir que des briques du salon. Elle ne se perd pas dans les détails de la toiture ou de la plomberie. C'est ce qu'on appelle la réduction du contexte.

Étape B : La triade d'agents (Le Planner, le Designer, le Critique)

C'est ici que FactorSmith devient vraiment malin. Pour chaque petite pièce du puzzle (par exemple, "poser les briques du salon"), l'IA ne travaille pas seule. Elle utilise une petite équipe de trois personnes virtuelles :

  1. Le Designer (L'Architecte créatif) : Il propose le code, il dessine les briques.
  2. Le Critique (L'Inspecteur de qualité) : Il ne crée rien. Il regarde le travail du Designer et dit : "Attends, cette brique est de travers" ou "Tu as oublié la fenêtre". Il donne une note précise.
  3. Le Planner (Le Chef de chantier) : Il écoute les deux. Si le Designer a fait une erreur, le Chef dit : "On recommence ce mur". Si le travail est bon, il dit : "C'est validé, on passe à la suite".

L'analogie du "Rebond" :
Si le Designer fait une erreur, le système ne se contente pas de dire "Essaie encore". Le Chef de chantier a une mémoire de sauvegarde. Si la nouvelle version est pire que l'ancienne, il annule le changement et revient au point de départ sûr. C'est comme jouer à un jeu vidéo avec des points de contrôle : si vous tombez dans un trou, vous reprenez juste avant, au lieu de recommencer tout le niveau.

3. Pourquoi ça marche mieux ?

Le papier montre que cette méthode est supérieure pour deux raisons principales :

  • Moins d'hallucinations : En donnant à l'IA seulement les informations nécessaires pour la tâche actuelle (le mur du salon), elle ne s'invente pas des choses bizarres.
  • Meilleure qualité : Grâce au "Critic" qui note le travail, l'IA s'améliore à chaque tentative. C'est comme un professeur qui corrige un devoir avant qu'il ne soit rendu, au lieu de simplement le noter à la fin.

En résumé

FactorSmith, c'est comme passer d'un artisan solitaire qui essaie de construire un gratte-ciel tout seul (et qui fait des erreurs) à une entreprise de construction ultra-organisée :

  1. On divise le chantier en petites zones gérables.
  2. Pour chaque zone, on a un architecte qui propose, un inspecteur qui vérifie, et un chef qui décide de valider ou de rejeter le travail.
  3. On ne passe à la zone suivante que lorsque la zone actuelle est parfaite.

Le résultat ? Des simulations de jeux vidéo générées par ordinateur qui fonctionnent mieux, contiennent moins de bugs et respectent mieux les consignes que les méthodes précédentes. C'est une façon intelligente de dire à l'IA : "Prends ton temps, travaille petit à petit, et fais-toi vérifier".