FactorSmith: Agentic Simulation Generation via Markov Decision Process Decomposition with Planner-Designer-Critic Refinement

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groot, ingewikkeld computerspel wilt bouwen, maar je hebt geen programmeerkennis. Je geeft gewoon een beschrijving in gewone taal aan een slimme robot (een AI) en zegt: "Maak een spel waar een vogeltje door pijpen moet vliegen."

Vroeger lukte dit vaak niet goed. De AI werd overweldigd door de enorme hoeveelheid code die nodig is, verzonnen dingen die niet bestonden, of maakte fouten die het hele spel platlegden.

FactorSmith is een nieuwe manier om die AI te helpen. Het is als het verschil tussen iemand die probeert een heel boek in één keer uit het hoofd te leren, versus iemand die het boek hoofdstuk voor hoofdstuk, zin voor zin, met een team van experts bouwt.

Hier is hoe FactorSmith werkt, uitgelegd met een paar creatieve vergelijkingen:

1. De "Grote Boek" aanpak (Het oude probleem)

Stel je voor dat je een enorme bibliotheek moet bouwen. Als je de AI vraagt om het hele gebouw in één keer te ontwerpen, raakt hij in de war. Hij vergeet waar de ramen moeten komen omdat hij te veel tegelijk moet onthouden. Hij begint muren te bouwen die nergens op slaan of verzonnen deuren te maken. Dit noemen we het probleem van de "grote context": de AI kan niet alles tegelijk goed zien.

2. De Oplossing: De "Lego-meester" (Factored POMDP)

FactorSmith begint met een slimme truc: verdeling.
In plaats van het hele spel in één keer te maken, breekt de AI het spel op in kleine, losse stukjes, net als Lego-blokjes.

De Analogie: Stel je voor dat je een auto bouwt. In plaats van te zeggen "bouw een auto", zegt de AI: "Eerst bouwen we alleen de wielen. Dan alleen de motor. Dan alleen de carrosserie."
Het voordeel: De AI hoeft zich op dat moment alleen maar te concentreren op de wielen. Hij hoeft niet na te denken over de motor. Dit houdt zijn "werkgeheugen" schoon en voorkomt dat hij in de war raakt.

3. Het Team van Drie: De Planner, De Ontwerper en De Critic

Maar zelfs als je maar aan één stukje werkt, kan de AI nog steeds fouten maken. Daarom gebruikt FactorSmith een driekoppig team voor elk klein stukje. Dit is het meest innovatieve deel:

De Planner (De Regisseur):
Hij houdt het overzicht. Hij zegt: "Oké, we bouwen nu de wielen. Zorg dat we alleen kijken naar de wielen, niet naar de motor." Hij zorgt dat het team op de goede weg blijft.
De Ontwerper (De Bouwer):
Hij is de creatieve kracht. Hij schrijft de code (het bouwt de wielen). Hij probeert het zo goed mogelijk te doen.
De Critic (De Kwaliteitscontroleur):
Dit is de nieuwe held. In plaats van dat de bouwer zelf zegt "ik ben klaar", kijkt de Critic er streng naar. Hij zegt: "Hé, die wielen zijn te groot voor deze auto" of "Je bent een bout vergeten." Hij geeft een cijfer en feedback.

Het magische proces:
Als de Critic een slecht cijfer geeft, zegt de Planner: "Stop! Ga terug naar de vorige versie en probeer het opnieuw."
Dit gebeurt totdat de Critic tevreden is. Het is alsof je een schilderij maakt, en elke keer als je een penseelstreek zet, kijkt een expert of het klopt. Zo niet, dan veeg je het weg en doe je het opnieuw, totdat het perfect is.

4. Waarom werkt dit zo goed?

In het verleden probeerden AI's zichzelf te corrigeren door te zeggen: "Oeps, foutje, ik probeer het nog eens." Maar vaak maakten ze dan een andere fout.

Met FactorSmith is er een gescheiden team:

De Ontwerper is enthousiast en creatief.
De Critic is nuchter en kritisch.
Omdat ze verschillende rollen hebben, ziet de Critic fouten die de Ontwerper zelf over het hoofd zou zien (zoals een mens die zijn eigen huiswerk niet altijd ziet).

Samenvatting in één zin

FactorSmith is als het bouwen van een complexe machine door eerst het werk in kleine, overzichtelijke stukjes te verdelen, en voor elk stukje een team van een regisseur, een bouwer en een strenge keurmeester te laten samenwerken totdat het perfect is.

Het resultaat?
De AI maakt minder fouten, bouwt betere spellen, en begrijpt wat je precies bedoelt, omdat hij niet overbelast raakt en constant wordt gecontroleerd door een "kritische blik". Het is een stap in de richting van AI die echt betrouwbaar complexe dingen voor ons kan bouwen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Het genereren van uitvoerbare simulaties (zoals games) op basis van natuurlijke taalbeschrijvingen blijft een uitdaging voor Large Language Models (LLM's). De belangrijkste beperkingen zijn:

Contextoverbelasting: LLM's worstelen met grote, onderling verbonden codebases. Ze hallucineren niet-bestaande functies, negeren delen van de specificatie of wijzen ongerelateerde code aan.
Gebrek aan zelfcorrectie: Bestaande methoden zoals FactorSim decomponeren het probleem wel, maar vertrouwen op een "single-shot" generatie per stap. Als de LLM een fout maakt, is er geen mechanisme voor systematische zelfcorrectie buiten het simpelweg opnieuw proberen (retry).
Kwaliteitsverlies bij schaal: De kosten en complexiteit van het handmatig ontwerpen van simulaties zijn hoog, en geautomatiseerde oplossingen leveren vaak onbetrouwbare code op.

Methodologie: FactorSmith

FactorSmith is een raamwerk dat twee complementaire benaderingen combineert om deze problemen op te lossen: gefactoriseerde POMDP-decompositie (voor contextreductie) en een hiërarchische Planner-Designer-Critic agentenstroom (voor iteratieve kwaliteitsverbetering).

1. Architectuur en Workflow

Het proces verloopt in drie fasen:

Fase 1: Hoge-niveau decompositie: De natuurlijke taal-specificatie wordt via Chain-of-Thought prompting opgesplitst in een reeks modulaire stappen ( $q_1, ..., q_K$ ). Elke stap is een zelfstandig module (bijv. "voeg een bal toe die valt") en volgt het Model-View-Controller (MVC) patroon.
Fase 2: Geactoriseerde stapuitvoering (De kerninnovatie): Voor elke stap $q_k$ $q_{k}$ wordt de context beperkt tot alleen de relevante state-variabelen (gebaseerd op een factored POMDP). Binnen deze beperkte context wordt elke sub-stap (State Update, Decompositie, Controller, Model, View) niet door één LLM-call uitgevoerd, maar door een agent trio:
- Planner: Coördineert de workflow, beheert checkpoints en beslist of een ontwerp wordt geaccepteerd, herzien of teruggedraaid (rollback).
- Designer: Stelt code-artefacten voor op basis van de beperkte context.
- Critic: Evalueert het voorstel van de Designer tegen gestructureerde kwaliteitscriteria (rubrics) en geeft numerieke scores en feedback.
Fase 3: Assemblage en Validatie: Alle gegenereerde functies en state-variabelen worden samengevoegd tot een complete, uitvoerbare simulatie.

2. Formele Basis

Contextreductie: Door de state-ruimte $S$ te factoriseren ( $S = S_1 \times ... \times S_n$ ), ziet elke LLM-call alleen een subset $S[Z_k]$ van de totale codebase. Dit verkleint de token-omgeving drastisch ( $\rho_k \ll 1$ ).
Iteratieve Verfijning: In plaats van één poging, doorloopt het systeem een lus waarbij de Planner de scores van de Critic gebruikt om te beslissen of er verder moet worden verfijnd of dat er een rollback moet plaatsvinden als de kwaliteit daalt. Dit garandeert dat de geaccepteerde kwaliteit monotoon toeneemt.

Belangrijkste Bijdragen

Gecombineerd Raamwerk: De eerste formalisatie van een workflow die factored POMDP-decompositie koppelt aan een Planner-Designer-Critic agentenstroom binnen elke generatiestap.
Wiskundige Analyse: Een theoretische onderbouwing van hoe agentic verfijning samenwerkt met contextselectie, inclusief een analyse van de computationele trade-offs.
Open-Source Implementatie: Een implementatie gebaseerd op de OpenAI Agents SDK met SQLite-gebaseerd sessiebeheer, gestructureerde scoring en rollback-mogelijkheden.
Experimentele Validatie: Uitgebreide tests die aantonen dat de methode superieur is aan bestaande baselines.

Resultaten

De methode is getest op de PyGame Learning Environment (PLE) benchmark met acht 2D-spellen (o.a. Flappy Bird, Snake, Pong).

Prestaties: FactorSmith overtreft alle baselines, waaronder FactorSim (zonder agenten), Vanilla (single-shot), en AgentCoder.
- De System Test Pass Rate is significant hoger. Bijvoorbeeld, bij het spel Catcher steeg het succespercentage met 8 procentpunten ten opzichte van FactorSim.
- De grootste verbeteringen zijn zichtbaar bij games met complexe state-interacties, waar single-shot generaties vaak subtiele fouten maken die de Critic-agent wel opvangt.
Ablatie-studie:
- Het verwijderen van de Critic leidt tot een daling van 7 procentpunten, wat aantoont dat iteratieve evaluatie cruciaal is.
- Het verwijderen van factorisatie (gebruik van volledige context) veroorzaakt de grootste daling (12 procentpunten), wat bevestigt dat contextreductie de meest impactvolle techniek is.
Token-efficiëntie: Hoewel FactorSmith meer tokens verbruikt dan FactorSim door de meervoudige rondes, is het efficiënter dan CoT + Self-Debug omdat gestructureerde scoring eerder terminatie mogelijk maakt dan blinde retry-lussen.

Betekenis en Toekomstperspectief

FactorSmith demonstreert dat decompositie en agentic verfijning complementair zijn: decompositie voorkomt dat de LLM overweldigd wordt door de context, terwijl de agentenstroom lokale fouten opvangt binnen die beperkte context.

Verschil met bestaand werk: In tegenstelling tot methoden die gegenereerde testcases gebruiken voor evaluatie (zoals AgentCoder), gebruikt FactorSmith gestructureerde scoring-rubrics. Dit is robuuster omdat het genereren van correcte testcases voor complexe simulaties op zichzelf al een moeilijk probleem is.
Toekomstige richtingen:
- Integratie van execution-based feedback (het daadwerkelijk draaien van de code als signaal voor de Critic).
- Uitbreiding naar 3D-simulaties voor robotica.
- Het trainen van gespecialiseerde, kleinere modellen voor de rollen van Designer en Critic om kosten te drukken.

Kortom, FactorSmith biedt een modulaire, schaalbare architectuur die de betrouwbaarheid van LLM-generatie van simulaties aanzienlijk verbetert door de kracht van gestructureerde contextbeperking te combineren met multi-agent deliberatie.

FactorSmith: Agentic Simulation Generation via Markov Decision Process Decomposition with Planner-Designer-Critic Refinement

1. De "Grote Boek" aanpak (Het oude probleem)

2. De Oplossing: De "Lego-meester" (Factored POMDP)

3. Het Team van Drie: De Planner, De Ontwerper en De Critic

4. Waarom werkt dit zo goed?

Samenvatting in één zin

Probleemstelling

Methodologie: FactorSmith

1. Architectuur en Workflow

2. Formele Basis

Belangrijkste Bijdragen

Resultaten

Betekenis en Toekomstperspectief

Meer zoals dit

AgenticGEO: A Self-Evolving Agentic System for Generative Engine Optimization

ProMAS: Proactive Error Forecasting for Multi-Agent Systems Using Markov Transition Dynamics

Domain-Specialized Tree of Thought through Plug-and-Play Predictors

Me, Myself, and π\piπ : Evaluating and Explaining LLM Introspection

AgentComm-Bench: Stress-Testing Cooperative Embodied AI Under Latency, Packet Loss, and Bandwidth Collapse

Me, Myself, and $\pi$ : Evaluating and Explaining LLM Introspection