OrgForge: A Multi-Agent Simulation Framework for Verifiable Synthetic Corporate Corpora

OrgForge is een open-source multi-agent simulatieframework dat deterministische gebeurtenislogboeken en een strikte scheiding tussen feitelijke basiswaarheid en door LLM's gegenereerde tekst gebruikt om verifieerbare, tijdschijn-consistente synthetische corpora van bedrijfscommunicatie te genereren voor het evalueren van RAG-pipelines.

Jeffrey Flynt

Gepubliceerd 2026-03-17
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een nieuwe, slimme robot wilt trainen om het kantoorleven te begrijpen. Je wilt dat hij e-mails leest, Slack-berichten snapt en weet wie wat heeft gedaan. Maar hoe test je of die robot echt slim is?

Het probleem is dat echte kantoorbestanden vaak een rommeltje zijn: ze zijn onvolledig, soms juridisch gevoelig, en niemand weet precies wat er "echt" gebeurd is. Als je zelf een verhaal bedenkt met een AI, kan die AI tegenstrijdigheden creëren (bijvoorbeeld: "De server viel om 3 uur 's nachts uit" in één bericht, maar "De storing begon om 9 uur" in een ander). Dan is je test onbetrouwbaar.

OrgForge is de oplossing voor dit probleem. Het is een soort digitale fabriek die een volledig, nep-bedrijf simuleert, maar dan met een heel belangrijk trucje: de feiten en de verhalen worden gescheiden.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De Regisseur en de Acteurs (Het "Fysiek vs. Verhaal" Systeem)

Stel je een toneelstuk voor.

  • De Regisseur (De Motor): Dit is een simpele, onfeilbare computercode. Hij houdt een streng dagboek bij. Hij weet precies: "Om 10:00 viel de server uit", "Jan is de enige die dit kan oplossen", en "De spanning loopt op". Deze regisseur mag nooit liegen of hallucineren. Hij bepaalt de feiten.
  • De Acteurs (De AI's): Dit zijn de grote taalmodellen (zoals ChatGPT). Hun enige taak is dialogen schrijven. Ze krijgen van de regisseur een opdracht: "Schrijf een Slack-bericht van Jan waarin hij paniek heeft omdat de server uitvalt." De AI mag het verhaal vertellen, maar mag niet beslissen of de server wel of niet uitviel. Als de regisseur zegt dat de server nog werkt, dan schrijft de AI geen bericht over een uitval.

Dit zorgt ervoor dat het eindresultaat (de e-mails, tickets, chats) er heel realistisch uitziet, maar dat de feiten eronder 100% kloppen. Je kunt er dus op vertrouwen.

2. Het Spel van de Spanning (Stress en Relaties)

OrgForge is niet statisch; het voelt als een echt bedrijf.

  • Stress: Als er veel werk is, krijgen de "werknemers" (de digitale personages) stress. Als een sleutelpersoon (de "centrale hub" in het netwerk) overbelast raakt, verspreidt die stress zich naar zijn collega's, net als een golfbeweging.
  • Relaties: Als twee mensen samenwerken aan een probleem, worden ze "vriendelijker" (hun relatie wordt sterker). Als ze elkaar lange tijd niet spreken, verflauwt de band. Dit wordt berekend met wiskundige formules, niet door de AI.

3. De Tijdreis die niet bestaat (Causale Kloksynchronisatie)

Een groot probleem bij nep-data is dat de tijd vaak door elkaar loopt. Een e-mail kan een datum hebben die na de reactie ligt.
OrgForge gebruikt een persoonlijke klok voor elke werknemer.

  • Stel: Jan start een Slack-gesprek. De klok van Jan loopt vooruit. Als Marie reageert, kijkt haar klok eerst naar de tijd van Jan en loopt dan pas verder.
  • Hierdoor is het onmogelijk dat een reactie voor de oorspronkelijke melding staat. De tijdlijn is altijd logisch en kloppend.

4. Het Netwerk van Gebeurtenissen (De "Causale Keten")

Wanneer er een probleem ontstaat (bijvoorbeeld een servercrash), start OrgForge een detective-verhaal.

  • Het begint met een waarschuwing.
  • Dan volgt een Slack-bericht.
  • Dan een JIRA-ticket.
  • Dan een e-mail naar een leverancier.
  • Dan een post-mortem verslag.

OrgForge koppelt al deze losse stukjes aan elkaar als een ketting. Als je later vraagt: "Wat gebeurde er precies na de crash?", kan het systeem het hele verhaal terugsporen, van de eerste waarschuwing tot de oplossing. Zelfs e-mails van buiten het bedrijf (klachten, leveranciers) worden in deze keten opgenomen.

5. De Test (Hoe weten we of de robot slim is?)

Na de simulatie heeft OrgForge een examen voor je AI-robot.

  • Het stelt vragen zoals: "Wie was de eerste die de klantklacht zag?" of "Waarom duurde dit ticket drie dagen langer dan gepland?"
  • Omdat OrgForge het "dagboek" (de feiten) heeft, weet het precies wat het juiste antwoord is.
  • Het kijkt niet alleen of het antwoord goed is, maar ook of de robot de juiste documenten (bewijs) heeft gevonden om tot dat antwoord te komen.

Waarom is dit belangrijk?

Vroeger moesten we AI testen met oude, rommelige e-mails van echte bedrijven (zoals het Enron-archief) of met volledig verzonnen verhalen die vaak tegenstrijdigheden bevatten.
OrgForge biedt een perfecte, schone testomgeving. Het is alsof je een auto test op een gesloten circuit waar je precies weet hoe de weg eruitziet, in plaats van hem door een stormachtige stad te sturen waar je niet weet of de verkeerslichten wel werken.

Kortom: OrgForge is een digitale toneelgroep die een perfect georganiseerd, nep-bedrijf neerzet, zodat we kunnen zien of onze slimme computers echt begrijpen hoe bedrijven werken, zonder dat we hoeven te twijfelen aan de feiten.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →