JANUS: Structured Bidirectional Generation for Guaranteed Constraints and Analytical Uncertainty

Each language version is independently generated for its own context, not a direct translation.

🌟 JANUS : Le Chef d'Orchestre de la Données Synthétique

Imaginez que vous êtes un architecte qui doit construire une ville virtuelle (des données synthétiques) pour tester des systèmes de transport, simuler des crises financières ou entraîner des robots. Le problème ? Vous ne pouvez pas utiliser n'importe quel constructeur. Vous avez besoin de quelqu'un qui respecte quatre règles d'or en même temps :

La Fidélité : La ville doit ressembler à la vraie (les rues, les bâtiments, la population).
Le Contrôle : Vous devez pouvoir donner des ordres précis : "Toutes les maisons doivent avoir un toit rouge" ou "Le salaire d'un employé ne peut jamais être inférieur à son salaire demandé".
La Fiabilité : Vous devez savoir si le constructeur a confiance en son travail ou s'il est en train de deviner au hasard.
L'Efficacité : Tout cela doit être fait rapidement, pas en attendant des jours.

Jusqu'à présent, les meilleurs constructeurs (les modèles d'intelligence artificielle actuels) étaient excellents pour copier la ville, mais ils échouaient lamentablement à respecter vos ordres précis. Pour forcer une règle, ils devaient utiliser une méthode inefficace appelée "l'échantillonnage par rejet" : ils construisaient une maison, voyaient qu'elle ne respectait pas la règle, la détruisaient, et recommençaient. Si la règle était stricte, ils pouvaient passer des heures à détruire des maisons sans jamais en finir une seule.

JANUS est le nouveau constructeur qui résout ce casse-tête.

🏗️ Comment JANUS fonctionne-t-il ? (L'Analogie de l'Enquêteur)

JANUS utilise une approche intelligente basée sur deux idées principales : l'arbre de décision et la rétroaction.

1. L'Arbre de Décision "Bilingue"

Imaginez un arbre généalogique, mais à l'envers.

Vers l'avant (Le Prédictif) : Comme un médecin, il regarde les parents (l'âge, l'éducation) pour prédire l'enfant (le salaire).
Vers l'arrière (Le Rétroactif) : C'est la grande innovation. JANUS peut aussi faire l'inverse : il regarde l'enfant (le salaire) et se demande : "Quels types de parents ont pu mener à ce salaire ?".

Grâce à une astuce mathématique (un "critère de division hybride"), JANUS apprend ces deux sens en même temps. Il ne se contente pas de prédire, il comprend la logique inverse.

2. Le Remplissage à Rebours (Reverse-Topological Back-filling)

C'est ici que la magie opère pour respecter vos règles.

Imaginons que vous vouliez générer un profil d'employé avec une règle stricte : Le salaire offert doit être supérieur au salaire demandé.

L'ancienne méthode (Rejet) : Le constructeur génère un profil au hasard. Il demande 50k, on lui offre 40k. Pouf ! Il jette le profil et recommence.
La méthode JANUS (Remplissage à rebours) :
1. JANUS commence par la fin : il fixe d'abord la règle "Salaire offert > Salaire demandé".
2. Il remonte l'arbre à l'envers : "Pour que le salaire offert soit élevé, quels types de diplômes et d'expériences sont nécessaires ?"
3. Il ajuste les parents (diplôme, expérience) pour qu'ils correspondent exactement à ce qui est nécessaire pour satisfaire la règle finale.
4. Il génère le profil. Résultat : 100% de réussite du premier coup, sans jamais rien jeter.

C'est comme si, au lieu de construire une maison et d'espérer qu'elle rentre dans un portail, vous mesuriez d'abord le portail, puis construisiez la maison exactement à la bonne taille pour qu'elle passe.

🧠 La "Boussole de Confiance" (L'Incertitude Analytique)

Quand un humain dit "Je pense qu'il va pleuvoir", il a une intuition. Quand une IA dit "Il va pleuvoir", on ne sait pas si elle est sûre d'elle ou si elle parie juste.

JANUS a une boussole interne (basée sur les mathématiques de Dirichlet) qui lui permet de dire :

"Je suis très sûr de cette prédiction car j'ai beaucoup de données similaires dans mon historique." (Peu d'incertitude).
"Je ne suis pas sûr car je n'ai jamais vu ce type de situation." (Beaucoup d'incertitude).

Le plus génial ? JANUS fait cela instantanément, sans avoir besoin de faire 100 simulations différentes (ce qui prendrait du temps aux autres IA). C'est comme avoir une boussole qui s'allume automatiquement, au lieu de devoir marcher 100 fois dans le brouillard pour trouver le chemin.

🛡️ Pourquoi est-ce révolutionnaire pour l'équité ?

Dans le monde réel, il y a souvent des biais cachés. Par exemple, "Les femmes demandent moins de salaire que les hommes".

JANUS permet de créer des mondes de test parfaits :

Vous pouvez injecter un biais précis dans les données (ex: "Faisons en sorte que les femmes demandent 10% de moins").
Vous pouvez tester si un algorithme de recrutement détecte ce biais.
Vous pouvez imposer des règles de justice directe : "Dans cette ville virtuelle, chaque femme doit recevoir un salaire offert égal ou supérieur à ce qu'elle a demandé".

Grâce à sa méthode de "remplissage à rebours", JANUS garantit que toutes les personnes générées respectent cette règle de justice, ce qui est impossible avec les anciennes méthodes qui laissaient passer des violations.

🚀 En résumé

JANUS est un nouveau type d'intelligence artificielle pour créer des données factices.

Avant : On copiait bien les données, mais on ne pouvait pas imposer de règles strictes sans perdre du temps, et on ne savait pas si l'IA avait confiance.
Avec JANUS : On copie bien les données, on impose toutes les règles (même les plus complexes) instantanément, et on sait exactement où l'IA est sûre d'elle ou non.

C'est comme passer d'un dessinateur qui fait des croquis rapides mais imprécis, à un architecte qui dessine des plans parfaits, respecte toutes les contraintes du client, et vous dit exactement où sont les risques de son projet. C'est un outil clé pour rendre l'IA plus fiable, plus juste et plus utile dans des domaines sensibles comme la finance, la santé ou la justice.

Each language version is independently generated for its own context, not a direct translation.

1. Le Problème : Le "Quadrilemma" de la Génération de Données Synthétiques

La génération de données synthétiques pour des applications à haut risque (audit de biais, simulation scientifique, confidentialité) se heurte à un dilemme fondamental, qualifié de Quadrilemma. Il est difficile d'optimiser simultanément quatre critères :

Fidélité : Reproduire fidèlement la distribution originale des données.
Contrôle : Respecter des contraintes logiques complexes (ex: SalaireOffert ≥ SalaireDemandé).
Fiabilité : Estimer l'incertitude du modèle de manière fiable.
Efficacité : Maintenir un coût computationnel raisonnable.

Les modèles actuels échouent sur au moins un de ces fronts :

Les modèles génératifs profonds (CTGAN, TabDDPM) excellent en fidélité mais utilisent un échantillonnage par rejet inefficace pour les contraintes continues, ce qui devient exponentiellement coûteux lorsque les contraintes sont strictes.
Les modèles causaux structurels offrent un contrôle logique mais peinent avec la fidélité en haute dimension et l'inversion du bruit.
Les méthodes d'estimation d'incertitude (Ensembles, MC Dropout) sont coûteuses (5 à 10 fois plus lentes).

2. Méthodologie : L'Architecture JANUS

JANUS (Joint Ancestral Network for Uncertainty and Synthesis) propose une approche bidirectionnelle unifiée basée sur un Graphe Acyclique Dirigé (DAG) de Arbres de Décision Bayésiens.

A. Représentation des Données et Structure

Apprentissage de la structure : JANUS apprend ou accepte un DAG défini par des experts ou des algorithmes (PC, GES, Random Forest).
Discrétisation : Les variables continues sont discrétisées en K intervalles (bins) via un binning par quantile. Cela transforme le problème d'estimation de distribution conjointe en un problème discret, permettant l'utilisation de la conjugaison Dirichlet-Multinomiale.
Contraintes : Les contraintes de plages continues deviennent des ensembles d'indices de bins valides, rendant les opérations d'intersection rapides et déterministes.

B. Architecture Probabiliste : Arbres de Décision Bayésiens Hybrides

Chaque nœud du DAG est modélisé par un arbre de décision bayésien. La contribution clé est le Critère de Séparation Hybride :

Il optimise simultanément la prédiction supervisée $P(Y|X)$ et la distribution inverse $P(X|Y)$ .
Une composante non supervisée ( $\lambda_{unsup}$ ) force l'arbre à continuer de se diviser même lorsque la variable cible est pure (homogène), afin de mieux organiser la distribution des variables d'entrée. Cela est crucial pour l'échantillonnage inverse.
Stockage Dual : Chaque feuille de l'arbre stocke deux informations :
1. Des paramètres Dirichlet pour l'échantillonnage avant (prédiction $P(Y|X)$ ).
2. Des histogrammes empiriques pour l'échantillonnage arrière (inférence inverse $P(X|Y)$ ).

C. Algorithme Clé : Remplissage Arrière Topologique Inversé (Reverse-Topological Back-filling)

C'est le cœur de la garantie de contraintes. Au lieu de générer des données puis de rejeter celles qui ne respectent pas les contraintes (échantillonnage par rejet), JANUS propage les contraintes de manière déterministe :

Phase Arrière (Backward) : Partant des nœuds enfants contraints, l'algorithme identifie les feuilles de l'arbre qui peuvent satisfaire la contrainte. Il filtre ensuite les distributions des parents pour ne garder que les valeurs compatibles. Cela propage la contrainte vers les ancêtres sans rejet.
Phase Avant (Forward) : Une fois les contraintes propagées, l'échantillonnage se fait de la racine vers les feuilles, en respectant les distributions filtrées.

Garantie : Si l'ensemble des contraintes est réalisable (feasible), JANUS garantit un taux de satisfaction de 100% avec une complexité $O(d)$ , contre $O(1/p)$ pour l'échantillonnage par rejet (où $p$ est la probabilité de satisfaction, souvent très faible).

D. Quantification Analytique de l'Incertitude

JANUS décompose l'incertitude en deux composantes sans coût computationnel supplémentaire (contrairement aux ensembles) :

Incertitude Aléatoire (Aleatoric) : Bruit inhérent aux données.
Incertitude Épistémique (Epistemic) : Ignorance du modèle due à un manque de données.
Cette décomposition est obtenue de manière analytique via la conjugaison Dirichlet-Multinomiale et les fonctions digamma, offrant une vitesse 128 fois supérieure aux méthodes Monte Carlo.

3. Contributions Clés

Critère de Séparation Hybride : Permet d'apprendre les distributions inverses nécessaires à la propagation des contraintes.
Remplissage Arrière Topologique Inversé : Algorithme garantissant 100% de satisfaction des contraintes avec une complexité linéaire, éliminant le besoin d'échantillonnage par rejet.
Incertitude Analytique : Décomposition exacte et rapide de l'incertitude (épistémique/aleatoire) sans passes multiples.
Benchmark Complet : Évaluation sur 15 jeux de données et 523 scénarios contraints, démontrant une supériorité globale.

4. Résultats Expérimentaux

Contrôle et Causalité :
- JANUS atteint un taux de satisfaction des contraintes (CSR) de 100% sur tous les scénarios, là où les modèles de base (CTGAN, TabDDPM) échouent sur les contraintes strictes.
- Gain de vitesse de 49,6x par rapport aux méthodes causales existantes (DCM) sur des contraintes difficiles.
- Meilleure performance sur les contre-factuels avec du bruit non-additif (erreur 18x à 47x plus faible que les méthodes basées sur les flux).
Fidélité et Robustesse :
- Score de Détection (Detection Score) : 0,497 (idéal = 0,5), surpassant CTGAN (0,634) et TabDDPM (0,580).
- Préservation des corrélations : Meilleure conservation des dépendances entre caractéristiques que les modèles profonds.
- Résistance à l'effondrement de mode (Mode Collapse) : JANUS maintient une préservation parfaite des classes minoritaires (Score MCS de 0,946) avec une variance très faible, contrairement à CTGAN qui est instable.
Fiabilité et Équité :
- Détection de bruit : JANUS est la seule méthode capable de détecter correctement un bruit injecté (rapport incertitude épistémique/aleatoire > 1,0).
- Audit d'équité : JANUS permet d'injecter des biais causaux connus pour tester les algorithmes d'équité. Il permet d'appliquer des contraintes inter-colonnes (ex: égalité de salaire) nativement, garantissant une équité individuelle que les métriques statistiques globales ne capturent pas.

5. Signification et Impact

JANUS brise le compromis traditionnel entre contrôle et fidélité dans la génération de données synthétiques.

Pour la Science des Données : Il offre un moteur de génération "boîte blanche" interprétable, capable de respecter des règles métier complexes (ex: Âge > Expérience) sans sacrifier la qualité des données.
Pour l'IA Responsable : Il fournit le premier testbed rigoureux pour l'audit d'équité, permettant de valider si un algorithme détecte vraiment les biais ou s'il trouve des solutions triviales.
Pour l'Efficacité : En remplaçant l'échantillonnage par rejet par un filtrage déterministe et en utilisant des formules analytiques pour l'incertitude, il rend la génération de données haute qualité et contrôlée viable pour des applications en temps réel.

En résumé, JANUS démontre qu'il est possible de concilier fidélité, contrôle strict, fiabilité et efficacité en exploitant la structure causale et les propriétés bayésiennes des arbres de décision, ouvrant la voie à une génération de données synthétiques fiable pour des applications critiques.