JANUS: Structured Bidirectional Generation for Guaranteed Constraints and Analytical Uncertainty

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie möchten eine riesige Bibliothek mit fiktiven Geschichten füllen, die so real wirken wie echte, aber keine echten Personen verraten. Das ist das Ziel von synthetischen Daten. Doch bisher gab es ein großes Problem: Entweder waren die Geschichten sehr realistisch, aber man konnte sie nicht steuern (z. B. "Der Held darf nicht älter als 30 sein"), oder sie waren gut steuerbar, aber klangen wie Roboter.

Das Papier stellt JANUS vor – einen neuen, genialen "Geschichtenerzähler", der das Beste aus beiden Welten vereint. Der Name JANUS kommt von der römischen Gottheit mit zwei Gesichtern, die gleichzeitig in die Vergangenheit und die Zukunft schauen. Genau das macht dieser Algorithmus.

Hier ist die Erklärung, wie JANUS funktioniert, mit ein paar einfachen Analogien:

1. Das große Dilemma (Das "Vier-Eck-Problem")

Bisher mussten sich Entwickler entscheiden zwischen:

Treue: Wie sehr sieht die Fälschung wie das Original aus?
Kontrolle: Kann man Regeln erzwingen (z. B. "Gehalt muss höher sein als die Gehaltsforderung")?
Verlässlichkeit: Weiß das System, wenn es unsicher ist?
Geschwindigkeit: Wie schnell geht das?

Bisherige Methoden waren wie ein blinder Schütze: Sie feuerten viele Datenpunkte ab und hofften, dass einige die Regeln treffen. Wenn die Regeln streng waren (z. B. "Nur sehr reiche Leute"), mussten sie Millionen von Versuchen werfen, bis einer passte. Das war extrem langsam und ineffizient.

2. Die Lösung: JANUS als "Architekt mit Rückwärtsblick"

JANUS baut die Daten nicht einfach zufällig auf. Er denkt wie ein erfahrener Architekt, der einen Bauplan (einen sogenannten DAG oder gerichteten Graphen) hat.

Stellen Sie sich vor, Sie wollen ein Haus bauen, bei dem das Dach (das Kind) eine bestimmte Farbe haben muss.

Die alten Methoden (Vorwärts): Sie bauen erst das Fundament, dann die Wände und hoffen, dass das Dach am Ende passt. Wenn nicht, reißen Sie alles ab und fangen von vorne an (das ist das "Rejection Sampling" – sehr ineffizient).
Die JANUS-Methode (Rückwärts): JANUS schaut zuerst auf das Dach. Er sagt: "Okay, das Dach muss rot sein." Dann geht er rückwärts durch den Bauplan und fragt: "Welche Wände und welches Fundament führen logisch zu einem roten Dach?" Er filtert sofort alle falschen Kombinationen heraus, bevor er überhaupt anfängt zu bauen.

Das nennt der Autor "Reverse-Topological Back-filling". Es ist wie ein Puzzle, bei dem man zuerst das fertige Bild betrachtet und dann nur die Teile sucht, die dort hineinpassen. Das Ergebnis: 100% der Regeln werden eingehalten, ohne dass man etwas wegwerfen muss.

3. Der "Zweiköpfige" Baum (Hybrid Splitting)

JANUS nutzt keine neuronalen Netze (die oft wie schwarze Kisten sind), sondern Bayesian Decision Trees (Entscheidungsbäume).
Stellen Sie sich einen Baum vor, der an jedem Ast zwei Bücher hält:

Buch A (Vorwärts): "Wenn ich diese Wände habe, wie sieht das Dach aus?" (Vorhersage).
Buch B (Rückwärts): "Wenn ich ein rotes Dach sehe, welche Wände waren wahrscheinlich?" (Rückwärts-Schluss).

Die Magie passiert, weil JANUS beide Bücher gleichzeitig liest. Wenn Sie eine Regel für das Dach geben, nutzt er Buch B, um sofort die richtigen Wände zu finden. Das ist der Grund, warum er so schnell und präzise ist.

4. Der "Wahrheits-Compass" (Unsicherheit)

Ein großes Problem bei KI ist: Sie weiß oft nicht, dass sie etwas nicht weiß.
JANUS hat einen eingebauten Wahrheits-Compass. Er kann zwei Arten von Unsicherheit unterscheiden:

Das "Rauschen" (Aleatorisch): Die Daten sind einfach chaotisch (wie bei einem Wetterbericht, das nie zu 100% stimmt). Das kann man nicht ändern.
Das "Wissen" (Epistemisch): Die KI hat zu wenig Daten gelernt (wie ein Schüler, der nur die erste Seite des Lehrbuchs gelesen hat).

JANUS berechnet diese Unsicherheit sofort (in einem Schritt), während andere Methoden 128-mal länger brauchen müssen, indem sie das System 128-mal durchlaufen lassen. Das ist wie ein Arzt, der sofort sagt: "Ich bin mir bei dieser Diagnose unsicher, weil ich noch nie so einen Fall gesehen habe", anstatt 128 Kollegen zu konsultieren.

5. Warum ist das wichtig? (Fairness und Sicherheit)

Das ist der wichtigste Teil für die Gesellschaft.
Stellen Sie sich vor, Sie testen einen Algorithmus, der entscheidet, wer einen Kredit bekommt.

Ohne JANUS: Sie wissen nicht, ob der Algorithmus diskriminiert, weil Sie die "wahren" Gründe nicht sehen.
Mit JANUS: Sie können gezielt "Bias" (Vorurteile) in die synthetischen Daten einbauen, um zu testen: "Wird mein Fairness-Algorithmus diesen Fehler erkennen?"

JANUS erlaubt es auch, Logik-Regeln durchzusetzen, die für andere unmöglich sind. Zum Beispiel: "Das angebotene Gehalt muss immer höher sein als das geforderte Gehalt." Andere Systeme schaffen das kaum; JANUS macht es zur Grundregel und garantiert, dass es nie verletzt wird.

Zusammenfassung

JANUS ist wie ein perfekter Übersetzer, der nicht nur Worte (Daten) überträgt, sondern auch die Grammatik (Regeln) und den Kontext (Unsicherheit) versteht.

Er ist schnell, weil er nicht blind rät, sondern plant.
Er ist zuverlässig, weil er weiß, wann er unsicher ist.
Er ist fair, weil er komplexe Regeln (wie "Gleichheit") exakt einhalten kann.

Es ist ein Werkzeug, das uns erlaubt, synthetische Daten zu nutzen, ohne Angst zu haben, dass die KI "halluziniert" oder gegen wichtige Regeln verstößt.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung: Das „Quadrilemma" der synthetischen Datengenerierung

Das Paper identifiziert ein fundamentales Dilemma (ein „Quadrilemma") bei der Generierung synthetischer Daten für hochriskante Anwendungen (z. B. Datenschutz, Fairness-Audits, wissenschaftliche Simulationen). Bisherige State-of-the-Art-Modelle können nicht gleichzeitig vier kritische Anforderungen erfüllen:

Fidelity (Treue): Die synthetischen Daten müssen die ursprüngliche Verteilung genau abbilden.
Control (Kontrolle): Komplexe logische und kontinuierliche Randbedingungen (Constraints) müssen strikt eingehalten werden.
Reliability (Zuverlässigkeit): Die Unsicherheit der Modellvorhersagen muss präzise geschätzt werden können.
Efficiency (Effizienz): Der Rechenaufwand muss gering sein.

Aktuelle Grenzen:

Deep Generative Models (z. B. CTGAN, TabDDPM): Erreichen hohe Treue, scheitern aber bei kontinuierlichen Bereichsbeschränkungen (z. B. Einkommen ∈ [50k, 80k]) oder inter-column-Logik (z. B. Alter > Erfahrung). Sie nutzen ineffizientes Rejection Sampling (Ausschlussverfahren), das bei strengen Constraints exponentiell teuer wird. Zudem fehlt oft eine interpretierbare Unsicherheitsschätzung.
Strukturelle Kausale Modelle (SCMs): Bieten logische Kontrolle, haben aber Schwierigkeiten mit hochdimensionalen Daten und der Inversion komplexer Rauschmechanismen (besonders bei nicht-additivem Rauschen).
Unsicherheitsschätzung: Methoden wie Deep Ensembles oder MC Dropout sind rechenintensiv (5–10× Overhead) und liefern keine analytische Zerlegung in aleatorische (Datenrauschen) und epistemische (Modell-Unwissenheit) Unsicherheit.

2. Methodik: Das JANUS-Framework

JANUS (Joint Ancestral Network for Uncertainty and Synthesis) ist ein Framework, das diese Lücken durch die Kombination von kausaler Reasoning-Struktur und bayesscher Inferenz schließt.

A. Datenrepräsentation und Struktur

DAG-basiert: JANUS nutzt einen gerichteten azyklischen Graphen (DAG), der von Domain-Experten bereitgestellt oder durch Algorithmen (PC, GES, Random Forest) gelernt wird.
Diskretisierung: Kontinuierliche Variablen werden mittels Quantile-Binning in $K$ Intervalle (Bins) umgewandelt. Dies ermöglicht die Nutzung der Dirichlet-Multinomial-Konjugation für exakte Posterior-Aktualisierungen und macht Schnittoperationen bei Constraints deterministisch und schnell.

B. Probabilistische Architektur: Bayessche Entscheidungsbäume

Jeder Knoten im DAG wird durch einen Bayesschen Decision Tree modelliert, der die bedingte Verteilung $P(X_i | Pa(X_i))$ lernt.

Hybrid Splitting Criterion (Kerninnovation): Der Baum wird nicht nur nach dem Zielwert $Y$ $Y$ (überwachtes Lernen) geteilt, sondern auch nach der Verteilung der Eingabemerkmale $X$ $X$ (unüberwachtes Lernen).
- Formel: $S_{split} = \log P(Y|split) + \lambda_{unsup} \cdot \log P(X|split) + \lambda_{div} \cdot D_{KL}$ .
- Zweck: Dies verhindert, dass der Baum an „reinen" Knoten (wo $Y$ konstant ist) stoppt, obwohl die Verteilung der Elternmerkmale $X$ noch variiert. Dies ist essenziell, um die inverse Verteilung $P(X|Y)$ für die Constraint-Propagation zu lernen.
Dual Storage: Jeder Blattknoten speichert:
1. Vorwärts-Parameter: Dirichlet-Posteriors $\alpha$ für $P(X_i | Pa)$ .
2. Rückwärts-Statistiken: Empirische Histogramme $H$ der Elternmerkmale für jede Klasse, um $P(Parents | X_i)$ zu sampeln.

C. Algorithmus: Reverse-Topological Back-filling

Dies ist der Schlüsselmechanismus für garantierte Constraints ohne Rejection Sampling.

Phase 1 (Rückwärts): Wenn ein Kindknoten eine Constraint hat (z. B. Loan = Approved), wird der Baum rückwärts durchlaufen. Es werden nur die Blätter identifiziert, deren Vorhersagebereich die Constraint erfüllt. Aus den in diesen Blättern gespeicherten Histogrammen der Elternmerkmale werden die Elternwerte direkt gesampelt.
Phase 2 (Vorwärts): Die noch nicht gesampelten Knoten werden topologisch sortiert von oben nach unten gesampelt, wobei Constraints als Masken ( $1_C$ ) angewendet werden.
Garantie: Durch die Schnittbildung der gültigen Domänen der Elternmerkmale (Domain Intersection) wird sichergestellt, dass alle Constraints gleichzeitig erfüllt werden, sofern eine Lösung existiert (Joint Feasibility). Die Komplexität ist $O(d \cdot L \cdot K)$ statt $O(1/p)$ beim Rejection Sampling.

D. Analytische Unsicherheit

JANUS nutzt die Dirichlet-Multinomial-Konjugation, um Unsicherheit analytisch (geschlossene Form) zu berechnen, ohne Monte-Carlo-Simulationen.

Zerlegung:
- Aleatorische Unsicherheit: Inhärentes Datenrauschen (nicht reduzierbar).
- Epistemische Unsicherheit: Modell-Unwissenheit aufgrund geringer Datenmenge (reduzierbar).
Dies ermöglicht eine 128-fache Geschwindigkeitssteigerung gegenüber MC Dropout.

3. Hauptbeiträge

Hybrid Splitting Criterion: Ermöglicht bidirektionales Sampling, indem $P(Y|X)$ und $P(X|Y)$ gleichzeitig gelernt werden.
Reverse-Topological Back-filling: Ein Algorithmus, der 100%ige Constraint-Einhaltung bei $O(d)$ -Komplexität garantiert und Rejection Sampling eliminiert.
Analytische Unsicherheit: Geschlossene Formel für die Zerlegung von Unsicherheit mittels Digamma-Funktionen, 128× schneller als MC-Methoden.
Umfassendes Benchmarking: Evaluation über 15 Datensätze und 523 Constraint-Szenarien.

4. Ergebnisse

A. Kontrolle und Kausalität (Constraint Satisfaction)

Constraint Satisfaction Rate (CSR): JANUS erreicht 100% CSR über alle 523 Szenarien hinweg (inkl. strenger Randbedingungen und inter-column-Logik wie Salary_offered ≥ Salary_requested).
Vergleich: Deep-Learning-Baselines (CTGAN, TVAE, TabDDPM) scheitern bei strengen Constraints oder benötigen exponentiell mehr Zeit durch Rejection Sampling. JANUS ist bis zu 49,6× schneller als DCM bei harten Constraints.
Kausale Validität: Bei kontrafaktischen Abfragen mit nicht-additivem Rauschen (z. B. multiplikatives Rauschen) übertrifft JANUS Flow-basierte Modelle (DCM, CAREFL) um das 18- bis 47-fache in der Genauigkeit, da es die numerisch instabile Inversion des Rauschens umgeht.

B. Treue und Robustheit (Fidelity)

Erkennungssicherheit (Detection Score): JANUS erreicht einen Score von 0.497 (Idealwert 0.5), was bedeutet, dass synthetische Daten von echten Daten kaum zu unterscheiden sind. Dies ist besser als TabDDPM (0.580) und CTGAN (0.634).
Mode Collapse: JANUS zeigt eine extrem hohe Stabilität bei unausgewogenen Daten (Mode Collapse Score 0.946 vs. 0.742 bei CTGAN) und eine 6-fach geringere Varianz über verschiedene Runs.
Abhängigkeitserhaltung: JANUS erhält Korrelationen und gegenseitige Information besser als Deep-Learning-Modelle.

C. Zuverlässigkeit und Fairness

Unsicherheitsdetektion: JANUS ist die einzige Methode, die erfolgreich injiziertes Label-Rauschen erkennt (Verhältnis epistemisch/aleatorisch > 1.0), während Baselines versagen.
Fairness-Testbed: JANUS ermöglicht erstmals das Injizieren von Bias mit bekannter Ground-Truth, um Fairness-Algorithmen rigoros zu testen. Es kann inter-column-Fairness (z. B. gleiche Bezahlung innerhalb einer Zeile) erzwingen, was statistische Paritätsmetriken nicht leisten können.

5. Bedeutung und Fazit

JANUS durchbricht das „Trilemma" der synthetischen Datengenerierung, indem es Treue, Kontrolle und Zuverlässigkeit gleichzeitig bietet.

Technischer Durchbruch: Die Kombination aus diskreter Binning-Strategie und bayesscher Baumarchitektur erlaubt es, Constraints nicht als nachträgliche Filterung, sondern als integralen Teil des Generierungsprozesses zu behandeln.
Praktische Relevanz: Das Framework ist besonders für hochriskante Anwendungen geeignet, wo „Black-Box"-Generatoren nicht akzeptabel sind. Es ermöglicht:
- Garantierte Einhaltung logischer Geschäftsregeln.
- Echtzeit-Feedback zur Vertrauenswürdigkeit der generierten Daten.
- Rigoroses Testing von Fairness-Algorithmen mit bekannter Ground-Truth.
Limitationen: Die globale Diskretisierung kann bei extrem schweren Verteilungen an Präzision verlieren. Die Unsicherheitsschätzung bezieht sich auf die Datenverteilung (Blatt-Statistik) und nicht auf die Vorhersagekonfidenz eines einzelnen Modells.

Zusammenfassend stellt JANUS einen Paradigmenwechsel dar: weg von reinen Black-Box-Generatoren hin zu strukturierten, interpretierbaren und mathematisch garantierten Systemen für vertrauenswürdige synthetische Daten.