OrgForge: A Multi-Agent Simulation Framework for Verifiable Synthetic Corporate Corpora

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez d'enseigner à un robot (une intelligence artificielle) comment gérer une entreprise. Pour le faire, vous devez lui donner des livres d'histoire, des emails et des rapports pour qu'il apprenne à répondre aux questions.

Le problème, c'est que les vrais livres d'histoire d'entreprise sont souvent flous, illégaux à utiliser, ou remplis de contradictions. Et si vous demandez à un autre robot de inventer ces histoires, il risque de se contredire lui-même (par exemple, dire qu'un incendie a commencé à 3h du matin dans un email, mais à 9h dans un rapport). C'est comme si vous donniez à un élève un manuel d'histoire où les dates changent à chaque page : il ne pourra jamais apprendre correctement.

Voici comment OrgForge résout ce problème, expliqué simplement :

1. La Grande Séparation : Le Chef et le Secrétaire

L'idée géniale d'OrgForge est de séparer deux rôles, comme dans une entreprise bien organisée :

Le Moteur de Simulation (Le Chef) : C'est un programme informatique rigide et logique (écrit en Python). Il ne ment jamais. Il décide exactement ce qui se passe : "À 10h00, le serveur tombe en panne", "Jean est en stress", "Marie reçoit un email". Il tient un journal de bord inviolable (la "vérité terrain").
Les IA Génératrices (Les Secrétaires) : Ce sont les grands modèles de langage (comme ceux qui écrivent des textes). Leur seul travail est d'écrire le style des messages. Ils disent : "Oh non, le serveur est en panne !" ou "Je suis stressé !".

La règle d'or : Les secrétaires (les IA) ne peuvent pas inventer les faits. Ils doivent regarder le journal de bord du Chef avant d'écrire une seule phrase. Si le Chef dit "l'incident est à 10h", l'IA ne peut pas écrire "11h". Cela garantit que tout le corpus (tous les documents) est cohérent.

2. La "Physique" de l'Entreprise

OrgForge ne se contente pas de générer du texte au hasard. Il simule la vie d'une entreprise avec des lois physiques, comme dans un jeu vidéo très réaliste :

Le Stress qui se propage : Imaginez que le stress est une maladie contagieuse. Si un employé clé (celui qui connaît tout le monde) est en surcharge, son stress "saute" vers ses collègues proches, un peu comme une onde de choc. Le système calcule cela mathématiquement.
Les Relations qui s'usent ou se renforcent : Si deux collègues ne se parlent pas pendant une semaine, leur lien "faiblit" (comme une plante qu'on n'arrose pas). S'ils travaillent ensemble sur un projet urgent, leur lien se renforce.
L'Escalade des problèmes : Quand un problème survient, le système ne choisit pas au hasard qui appeler. Il utilise un algorithme (Dijkstra, comme celui de Google Maps) pour trouver le chemin le plus rapide vers la personne compétente, en passant par les relations les plus fortes.

3. Le "Chronomètre Local" (Pour éviter les voyages dans le temps)

Dans les fausses histoires générées par IA, il arrive souvent qu'un email de réponse soit daté avant l'email de départ. C'est absurde !
OrgForge donne à chaque employé son propre chronomètre interne.

Quand un employé travaille, son chronomètre avance.
Quand il répond à quelqu'un, les deux chronomètres se synchronisent.
Résultat : Impossible d'avoir un email de réponse daté avant l'envoi. La chronologie est parfaite.

4. Le Bruit de Fond Réaliste

Dans la vraie vie, les employés ne travaillent pas 100% du temps. Ils parlent de la météo, discutent à la machine à café, ou perdent du temps sur des chats inutiles.
OrgForge ajoute ce "bruit" volontairement. Cela permet de tester si l'IA de recherche (RAG) est capable de trouver l'information importante au milieu de tout ce bavardage, exactement comme un humain le ferait.

5. À quoi ça sert ? (Le Test de Vérité)

Grâce à ce système, les chercheurs peuvent créer un "terrain de jeu" parfait pour tester les intelligences artificielles d'entreprise.

Ils peuvent poser des questions pièges : "Qui a vu le ticket JIRA avant l'incident ?" ou "Pourquoi ce client n'a-t-il jamais reçu de réponse ?"
Comme le système sait exactement ce qui s'est passé (grâce au journal de bord du Chef), il peut noter la réponse de l'IA avec une précision chirurgicale.

En résumé

OrgForge, c'est comme un simulateur de vol pour les entreprises.
Au lieu de prendre de vieux journaux de bord réels (qui sont sales et incomplets) ou d'inventer des histoires au hasard (qui sont pleines de bugs), on construit un monde virtuel où chaque fait est vérifié, chaque minute est comptée, et chaque relation est calculée.

C'est un laboratoire de contrôle où l'on peut casser des choses, simuler des crises, et voir comment les nouvelles intelligences artificielles réagissent, en sachant exactement ce qui est vrai et ce qui est faux. C'est la première fois qu'on peut dire : "Cette IA a bien répondu, car la vérité est dans notre journal de bord, et elle l'a trouvée."

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

L'évaluation des pipelines de Génération Augmentée par Récupération (RAG) dans les contextes d'entreprise souffre d'un manque de données de référence fiables. Les défis majeurs identifiés sont :

Absence de vérité terrain (Ground Truth) : Les corpus réels (comme Enron) manquent de métadonnées structurées pour vérifier les faits, tandis que les données synthétiques générées par des LLMs souffrent d'incohérences internes (hallucinations contradictoires entre différents documents).
Manque de structure temporelle et transversale : Les benchmarks existants ne capturent pas l'évolution des faits dans le temps ni la cohérence d'un même événement à travers différents types d'artefacts (Slack, JIRA, emails, logs).
Limites des données synthétiques actuelles : Un LLM générant seul un corpus de Slack et de tickets JIRA peut créer des incohérences temporelles ou factuelles (ex: un incident débutant à 3h dans un message et à 9h dans un ticket), rendant l'évaluation du système RAG non fiable.

Objectif d'OrgForge : Créer un corpus synthétique d'entreprise où la vérité terrain est connue, vérifiable, structurée temporellement et transversale, tout en évitant les hallucinations factuelles des LLMs.

2. Méthodologie et Architecture

OrgForge est un cadre de simulation multi-agents qui impose une séparation stricte entre le contrôle des faits et la génération de prose.

A. Architecture Formelle : $M = (S, P, V, E)$

Le système est défini par un tuple séparant la "physique" de la "cognition" :

$S$ (State) : Modèle Pydantic contenant l'état mutable (santé du système, moral, incidents, tickets, stress des ingénieurs).
$P$ (Planners) : Agents LLM qui proposent des activités sous forme de JSON structuré. Ils influencent le récit mais ne peuvent pas modifier l'état $S$ directement.
$V$ (Validator) : Fonction déterministe qui valide ou rejette les propositions des LLMs en fonction de l'état actuel $S$ et de l'historique des événements $E$ . Cela empêche les hallucinations.
$E$ (Events) : Le bus de vérité terrain (SimEvent Log). C'est une base de données append-only (MongoDB) qui enregistre chaque action significative. C'est la seule source de vérité.

B. Mécanismes de Dynamique Graphique Déterministes

Trois mécanismes mathématiques gouvernent le comportement organisationnel indépendamment du LLM :

Propagation du stress (Centralité d'intermédiarité) : Le stress se propage aux "joueurs clés" (ceux avec une forte centralité) et se diffuse vers leurs voisins proportionnellement à la force de la relation.
Décroissance et renforcement des arêtes : Les relations sociales s'affaiblissent sans interaction (décroissance temporelle) et se renforcent lors de collaborations (incidents, revues de code).
Routage d'escalade (Dijkstra) : Les incidents sont escaladés via le chemin le plus court dans un graphe où le coût est l'inverse de la force de la relation, simulant le flux naturel de communication.

C. Gestion Temporelle et Cohérence

Horloge locale par acteur (sim_clock.py) : Contrairement aux échantillonnages aléatoires indépendants, chaque employé possède un curseur de temps. Les timestamps sont dérivés de l'état de ce curseur, garantissant une cohérence causale (ex: un ticket ne peut pas être créé avant l'alerte qui le déclenche).
Boucle de validation : Les LLMs ne génèrent que le texte de surface (prose) basé sur un contexte validé. Si un LLM propose un fait impossible (ex: célébrer une équipe pendant une panne critique), le validateur le rejette.

D. Composants Avancés

Suivi des chaînes causales : Accumule les graphes d'artefacts par incident (alerte -> ticket -> PR -> post-mortem).
Détection de récurrence : Utilise la Fusion Réciproque de Rang (RRF) hybride (vecteur + texte) pour identifier les causes racines répétées.
Moteur d'email externe : Simule des emails entrants (fournisseurs, clients) et sortants (RH), avec une simulation probabiliste d'emails "perdus" (non traités) pour tester la détection de lacunes.
Bruit social : Introduit des interruptions sociales bénines (discussions informelles) pour simuler la capacité réelle des employés et créer du bruit dans les données.

3. Contributions Clés

Séparation Fact/Prose : Une architecture empêchant les hallucinations LLMs de corrompre la vérité terrain du corpus.
Trois mécanismes graphiques formels : Propagation du stress, décroissance des arêtes et routage Dijkstra pour un comportement organisationnel réaliste et déterministe.
Horloge causale locale : Élimination des incohérences temporelles entre différents types d'artefacts.
Bruit de capacité réaliste : Modélisation des interruptions sociales pour évaluer les systèmes RAG face à des communications non critiques.
Pipeline d'évaluation complet : Génération de 8 catégories de questions (Récupération, Causalité, Temporel, Détection de lacunes, etc.) avec un score de vérité terrain déterministe et une exportation prête pour HuggingFace.
Implémentation Open Source : Code disponible sous licence MIT, avec des outils de génération de corpus reproductibles.

4. Résultats Expérimentaux

Une simulation de 22 jours ouvrables (43 personnes, 8 départements) a été réalisée, générant 1 079 documents et 83 questions d'évaluation.

Coût et Performance : La simulation a nécessité 953 appels LLM (environ 285 $) et 3h de temps d'exécution.
Lignes de base de récupération (Retrieval Baselines) :
- BM25 (Mot-clé) : Surperforme globalement le modèle dense (MRR@10 de 0,28 vs 0,20). Il excelle particulièrement sur les questions de Causalité (0,54) grâce à la terminologie spécifique des post-mortems.
- Dense (Embeddings Stella 1.5B) : Performe mieux uniquement sur les questions de Récupération (0,39 vs 0,35), suggérant que la similarité sémantique aide pour les requêtes ouvertes, mais échoue sur la logique temporelle et causale.
- Échecs communs : Les deux méthodes obtiennent un score de 0 pour les questions de Planification (PLAN) et d'Escalade (ESCALATION), indiquant que la récupération simple (mot-clé ou sémantique) est insuffisante pour le raisonnement multi-sauts ou l'absence de preuve.
Observation clé : Les modèles de base actuels ne peuvent pas résoudre les problèmes de raisonnement temporel complexe ou de détection d'absence d'information sans accès direct aux métadonnées de vérité terrain.

5. Signification et Impact

OrgForge représente une avancée significative pour l'évaluation des systèmes RAG d'entreprise :

Fiabilité : Il fournit le premier corpus synthétique où la vérité terrain est garantie par construction et non par la confiance aveugle dans un LLM.
Réalisme Organisationnel : Il modélise non seulement les tâches, mais aussi la dynamique sociale, le stress, les relations et les interruptions, offrant un terrain d'essai plus réaliste que les corpus statiques.
Nouveau Standard d'Évaluation : Il introduit des métriques pour évaluer la capacité des agents à raisonner sur des chaînes causales, à détecter des lacunes d'information et à gérer la temporalité, des compétences cruciales pour les déploiements d'IA en entreprise.
Reproductibilité : En tant qu'outil open-source configurable, il permet à la communauté de générer des benchmarks reproductibles pour comparer les futures architectures RAG.

En conclusion, OrgForge comble le fossé entre la recherche académique sur les LLMs et les besoins réels de l'industrie, en fournissant un environnement de test rigoureux où les erreurs de raisonnement peuvent être isolées et mesurées avec précision.

OrgForge: A Multi-Agent Simulation Framework for Verifiable Synthetic Corporate Corpora

1. La Grande Séparation : Le Chef et le Secrétaire

2. La "Physique" de l'Entreprise

3. Le "Chronomètre Local" (Pour éviter les voyages dans le temps)

4. Le Bruit de Fond Réaliste

5. À quoi ça sert ? (Le Test de Vérité)

En résumé

1. Problématique et Contexte

2. Méthodologie et Architecture

A. Architecture Formelle : M=(S,P,V,E)M = (S, P, V, E)M=(S,P,V,E)

B. Mécanismes de Dynamique Graphique Déterministes

C. Gestion Temporelle et Cohérence

D. Composants Avancés

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

Articles similaires

Self-Calibrating Language Models via Test-Time Discriminative Distillation

Toward Generalized Cross-Lingual Hateful Language Detection with Web-Scale Data and Ensemble LLM Annotations

HumorGen: Cognitive Synergy for Humor Generation in Large Language Models via Persona-Based Distillation

Generating High Quality Synthetic Data for Dutch Medical Conversations

GIANTS: Generative Insight Anticipation from Scientific Literature

A. Architecture Formelle : $M = (S, P, V, E)$