ERP-RiskBench: Leakage-Safe Ensemble Learning for Financial Risk

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der unsichtbare Dieb im Büro

Stellen Sie sich ein riesiges, modernes Bürogebäude vor – das ist das ERP-System (Enterprise Resource Planning). Hier laufen alle Rechnungen, Bestellungen und Zahlungen zusammen. Es ist das Rückgrat eines Unternehmens.

Das Problem: In diesem riesigen Gebäude lauern „Diebe" (Betrüger) und es gibt auch viele „Fehler" (z. B. versehentlich doppelte Rechnungen). Früher haben Forscher versucht, diese mit Computerprogrammen (Künstlicher Intelligenz) zu finden. Aber ihre Methoden waren oft wie ein Zaubertrick, der nicht funktioniert:

Sie haben den Schülern die Lösungen für den Test vorher gezeigt (Daten-Leckage).
Sie haben die Ergebnisse so schön gemalt, dass sie in der Realität gar nicht so gut aussehen.
Sie haben keine klaren Regeln benutzt, um zu sagen, was eigentlich „schlecht" ist.

Die Lösung: Ein neuer, ehrlicher Prüfstand

Sanjay Mishra und sein Team haben einen neuen, fairen Prüfstand gebaut, den sie ERP-RiskBench nennen. Man kann sich das wie einen neuen, strengen Fluchtweg-Test für Feuerwehrleute vorstellen.

Hier ist, wie sie es gemacht haben, mit einfachen Vergleichen:

1. Der neue Trainingsplan (Die Daten)

Früher hatten die Forscher nur alte, verworrene Daten. Jetzt haben sie ein gemischtes Paket aus vier Quellen gebaut:

Echte Fälle: Echte Einkaufsreihen aus einem öffentlichen Datensatz (wie ein echtes Polizeiprotokoll).
Extrem seltene Fälle: Kreditkartenbetrugsdaten (wo nur 1 von 1000 Transaktionen falsch ist).
Simulierte Fälle: Ein Computerprogramm, das fiktive Geldtransaktionen erzeugt, um genug Daten zu haben.
Der „Trick"-Teil: Sie haben absichtlich Fehler in die simulierten Daten eingebaut (wie jemand, der absichtlich eine Rechnung doppelt schreibt), damit das Programm lernt, diese Muster zu erkennen.

2. Die strenge Regel: „Kein Spicken!" (Leakage-Safe)

Das ist der wichtigste Teil des Papers.

Der alte Fehler: Forscher haben oft die Daten gemischt, bevor sie das Programm trainiert haben. Das ist, als würde man einem Schüler die Lösungen für den Mathe-Test geben, bevor er lernt. Das Programm schneidet dann super ab, versagt aber im echten Leben.
Die neue Regel: Das Team hat eine „Zeit- und Gruppen-Trennwand" gebaut.
- Das Programm darf nur Daten sehen, die vorher passiert sind.
- Es darf niemals Daten von derselben Firma oder demselben Lieferanten sehen, die es später testen soll.
- Vergleich: Stellen Sie sich vor, Sie trainieren einen Hund, um Diebe zu erkennen. Sie dürfen ihm nie zeigen, wie der echte Dieb aussieht, den er später fangen soll. Er muss aus Erfahrung lernen, nicht aus Auswendiglernen.

3. Das Team der Detektive (Ensemble Learning)

Statt nur einen einzigen Computer-Algorithmus zu nutzen, haben sie ein Team aus verschiedenen Detektiven zusammengestellt:

Die Spezialisten: Verschiedene starke Algorithmen (wie XGBoost, LightGBM), die jeweils ihre eigene Art haben, Muster zu finden.
Der Chef (Stacking): Ein übergeordneter Algorithmus, der die Meinungen aller Spezialisten hört und eine finale Entscheidung trifft.
Das Ergebnis: Dieses Team war besser als jeder einzelne Detektive allein. Es ist wie ein Fußballteam, bei dem der Trainer (der Meta-Learner) die besten Spieler (die Basis-Modelle) kombiniert, um das Spiel zu gewinnen.

4. Der Test unter Stress (Robustheit)

Um sicherzugehen, dass das System nicht nur im Training gut ist, haben sie es unter Stressbedingungen getestet:

Neue Tricks: Was passiert, wenn der Dieb eine neue Methode benutzt, die das Programm noch nie gesehen hat?
Schlechte Daten: Was passiert, wenn wichtige Zahlen fehlen oder verrauscht sind?
Zeitverschiebung: Was passiert, wenn sich das Verhalten der Lieferanten im Laufe der Zeit ändert?

Das Ergebnis: Das „Team-Detektiv-System" (Stacking Ensemble) hielt am meisten aus und fiel am wenigsten durch.

5. Warum es wichtig ist: Die Kosten-Rechnung

Im echten Leben ist es teuer, einen unschuldigen Mitarbeiter zu überprüfen (falscher Alarm). Es ist aber noch teurer, einen echten Betrug zu übersehen.

Das Papier zeigt, wie man die Computer-Ergebnisse so einstellt, dass sie wirtschaftlich sinnvoll sind.
Statt nur zu sagen „Das ist Betrug", sagt das System: „Das ist zu 80 % Betrug." Und basierend auf den Kosten (wie teuer ist ein falscher Alarm?) entscheidet das System, wann es alarmiert.

Das Fazit in einem Satz

Dieses Papier baut einen fairen, strengen und realistischen Prüfstand, um zu zeigen, wie man mit einem Team aus KI-Modellen und strengen Regeln gegen das „Spicken" echte Betrüger in Firmensystemen findet, ohne sich durch falsche Hoffnungen täuschen zu lassen.

Es ist weniger ein neuer „Zaubertrick", sondern eher eine neue Bauanleitung für ein stabiles Fundament, auf dem Unternehmen sicher bauen können.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Erkennung finanzieller Risiken in Enterprise-Resource-Planning (ERP)-Systemen ist ein kritisches, aber methodisch oft mangelhaft untersuchtes Anwendungsgebiet des maschinellen Lernens. Bestehende Studien leiden unter folgenden Schwächen:

Undurchsichtige Datensätze: Fehlende Dokumentation und Reproduzierbarkeit.
Data Leakage: Häufig werden Vorverarbeitungsschritte (z. B. Resampling, Feature-Selektion) vor dem Aufteilen der Daten in Trainings- und Testsets durchgeführt. Dies führt zu optimistischen und irreführenden Leistungsmaßen.
Falsche Evaluierungsmetriken: Die Verwendung von Genauigkeit (Accuracy) bei stark unausgewogenen Klassen (Fraud ist selten) ist unzureichend.
Mangelnde Operationalität: Fehlende Berücksichtigung von Kostenasymmetrien (die Kosten eines übersehenen Betrugs sind höher als die einer falschen Alarmierung) und mangelnde Erklärbarkeit für Audit-Zwecke.

2. Methodik und Framework

Das Paper stellt ein neues, strenges experimentelles Framework vor, das auf Leakage-Sicherheit und Reproduzierbarkeit ausgelegt ist.

A. Der Datensatz: ERP-RiskBench

Um die Datenknappheit und -heterogenität zu adressieren, wurde ein zusammengesetzter Benchmark namens ERP-RiskBench erstellt. Er besteht aus vier Komponenten:

BPI Challenge 2019: Reale Beschaffungs-Event-Logs (Procure-to-Pay) mit Compliance-Regeln.
Credit Card Fraud: Ein klassischer, extrem unausgewogener Datensatz (0,17% Betrug).
PaySim: Simulierte Mobile-Money-Transaktionen als Proxy für Betrugsmuster.
ERP-Synth (Neu): Ein synthetischer ERP-Datensatz mit regelbasiert injizierten Risikotypologien (z. B. doppelte Rechnungen, Splitting von Bestellungen) und Augmentation durch Conditional Tabular GANs (CTGAN).

Alle Daten werden in ein einheitliches kanonisches Schema überführt (Transaktion, Prozess, Kontext).

B. Leakage-Safe Pipeline & Validierung

Das Kernstück der Methodik ist die strikte Vermeidung von Datenlecks:

Verschachtelte Kreuzvalidierung (Nested Cross-Validation):
- Äußerer Loop (K=5): Für die unvoreingenommene Leistungsschätzung.
- Innerer Loop (K=3): Für Hyperparameter-Optimierung und Feature-Selektion.
Strikte Trennung: Resampling (SMOTE, CTGAN), Imputation, Skalierung und Feature-Selektion erfolgen ausschließlich innerhalb der Trainingsfolds des inneren Loops. Der Validierungs- und Testfold erhält nur Transformationsoperationen (kein Fitting).
Splitting-Strategie: Anstelle von zufälligen Splits werden zeitbewusste (time-forward) und gruppenbewusste (group-aware, z. B. nach Vendor) Splits verwendet, um Abhängigkeiten in den Daten zu berücksichtigen und realistische Szenarien zu simulieren.

C. Modell-Suite

Es werden vier Modellfamilien verglichen:

Lineare Baseline: Logistische Regression.
Baum-Ensembles: Random Forest, XGBoost, LightGBM, CatBoost.
Stacking-Ensemble: Eine Meta-Lern-Architektur, die die Out-of-Fold-Vorhersagen von XGBoost, LightGBM, CatBoost und Random Forest durch eine logistische Regression kombiniert.
Deep Tabular Models: TabNet und FT-Transformer.
Interpretierbare „Glassbox": Explainable Boosting Machine (EBM).

D. Evaluierung und Kostenanalyse

Metriken: Matthews Correlation Coefficient (MCC), Area Under the Precision-Recall Curve (AUPRC) und Balanced Accuracy (statt Accuracy).
Kosten-sensitive Entscheidungsfindung: Nutzung einer Kostenmatrix ( $C_{FP}$ vs. $C_{FN}$ ) zur Bestimmung des optimalen Schwellenwerts. Dies erfordert gut kalibrierte Wahrscheinlichkeiten (via Platt Scaling).
Stresstests: Ein „Scenario Augmented Test Suite" (SATS) prüft die Robustheit gegenüber Typologie-Shifts, Datenqualität (Missingness) und zeitlichem Drift.

3. Wichtige Ergebnisse

Leistung des Stacking-Ensembles: Das Stacking-Ensemble aus Gradient-Boosting-Modellen erzielte konsistent die besten Ergebnisse (höchster MCC und AUPRC) auf allen Datensätzen, gefolgt von LightGBM und XGBoost. Deep Learning-Modelle (TabNet, FT-Transformer) schnitten im Vergleich zu den optimierten Baum-Ensembles schlechter ab oder zeigten höhere Varianz.
Kritikalität des Splitting-Protokolls: Der wichtigste Befund ist, dass das Splitting-Verfahren den größten Einfluss auf die gemeldete Leistung hat. Zufällige stratifizierte Splits (A6) blähten die MCC um 0,08 bis 0,12 im Vergleich zu zeit- und gruppenbewussten Splits (A5) auf. Dies wirft die Glaubwürdigkeit vieler früherer Studien in Frage.
Effekt von Augmentation: SMOTE und CTGAN verbesserten die Recall-Rate für die Minderheitsklasse signifikant, wenn sie korrekt innerhalb der Trainingsfolds angewendet wurden. CTGAN bot einen kleinen zusätzlichen Vorteil gegenüber SMOTE, rechtfertigte aber nicht immer den zusätzlichen Aufwand.
Kalibrierung: Obwohl Kalibrierung (Platt Scaling) die Ranking-Metriken (MCC) nicht verbesserte, war sie essenziell für die kostensensitive Schwellenwertbestimmung, um realistische operative Kosten zu minimieren.
Robustheit: Das Stacking-Ensemble zeigte die geringste Leistungsdegradation bei Typologie-Shifts und zeitlichem Drift. Baum-Ensembles waren robuster gegenüber fehlenden Werten als Deep-Learning-Modelle.

4. Interpretierbarkeit und Governance

SHAP-Werte: Three-Way-Matching-Discrepanzen (Abweichungen zwischen Bestellung, Wareneingang und Rechnung) wurden als die wichtigsten Prädiktoren identifiziert.
Feature-Stabilität: Die Feature-Wichtigkeit war über die Kreuzvalidierungs-Folds hinweg bei Ensemble-Methoden (Stacking, LightGBM) sehr stabil (>0,85 Korrelation), während Deep-Learning-Modelle (TabNet) instabilere Erklärungen lieferten.
EBM als Alternative: Die Explainable Boosting Machine (EBM) lieferte fast gleich gute Ergebnisse wie die besten Ensembles, bot aber eine vollständige Transparenz (Glassbox) durch lernbare Formfunktionen, was für Audit-Zwecke wertvoll ist.

5. Bedeutung und Beitrag

Das Paper leistet einen wesentlichen Beitrag zur wissenschaftlichen Praxis im Bereich Financial Risk Detection:

Blueprint für Reproduzierbarkeit: Es bietet einen vollständigen, leakage-sicheren Workflow, der als Standard für zukünftige Forschung dienen soll.
Warnung vor Data Leakage: Es demonstriert quantitativ, wie stark Data Leakage (durch falsches Splitting oder Vorverarbeitung) die Ergebnisse verfälscht.
Operationaler Fokus: Durch die Integration von Kosten-Nutzen-Analysen und Kalibrierung wird der Brückenschlag von der akademischen Metrik zur betrieblichen Entscheidungsfindung geschlagen.
Benchmark: Die Einführung von ERP-RiskBench schafft eine notwendige, öffentlich zugängliche und kontrollierte Testumgebung, die reale und synthetische Daten kombiniert.

Fazit: Für den Einsatz in der Praxis wird empfohlen, vor der Komplexität des Modells die Daten-Splitting-Strategie zu optimieren, Leakage-Sicherheit strikt einzuhalten, kostensensitive Schwellenwerte zu nutzen und auf stabile Feature-Erklärungen zu achten. Ein gut getuntes Gradient-Boosting-Ensemble oder eine EBM sind derzeit die vielversprechendsten Ansätze.