Ursprüngliche Autoren: Joel Lim Zhi Quan, Tan Kar Way, Lau Hoong Chuin

Veröffentlicht 2026-06-16

📖 5 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Joel Lim Zhi Quan, Tan Kar Way, Lau Hoong Chuin

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie sind ein Detektiv, der versucht, die Geschichte eines Banküberfalls zu rekonstruieren. In einer perfekten Welt würden die Polizisten Ihnen ein ordentliches, chronologisches Tagebuch überreichen, in dem jeder Eintrag genau sagt, wer was und wann getan hat.

Aber in der realen Welt ist der Beweis verstreut. Sie haben einen Haufen loser Quittungen, einen Stapel Sicherheitskamera-Protokolle, ein paar handschriftliche Notizen und eine Tabelle mit Telefonaten. Keines dieser Dokumente spricht mit den anderen. Die Quittungen haben keine Namen, die Kamera-Protokolle haben keine Zeitstempel und die Telefonnotizen sind in einer anderen Sprache geschrieben. Zudem ändert die Bank jede Woche ihr Ablagesystem.

Dies ist das Problem, das die Autoren dieser Arbeit lösen. Sie befassen sich mit modernen Computersystemen (wie Banken oder großen Unternehmen), in denen Daten chaotisch sind, über viele verschiedene Tabellen verteilt liegen und sich ständig ändern. Traditionelle Methoden zur Analyse dieser Systeme scheitern, weil sie eine perfekte, vororganisierte Karte (ein „Schema“) verlangen, die schlichtweg nicht existiert.

So funktioniert ihre Lösung, unterteilt in einfache Schritte:

Das Problem: Der „unordentliche Aktenschrank“

In altertümlichen Computersystemen waren Daten wie eine gut organisierte Bibliothek. Jedes Buch hatte ein klares Etikett, und man wusste genau, in welches Regal es gehörte.
In modernen Systemen sind Daten wie der Dachboden eines Messie-Sammlers.

Keine Etiketten: Man kann nicht ohne Weiteres erkennen, welcher Datensatz zu welchem Kunden gehört (fehlende „Keys“).
Verstreute Hinweise: Die Geschichte einer einzigen Transaktion ist auf fünf verschiedene Tabellen aufgeteilt.
Verwirrende Zeitlinien: Eine Tabelle sagt „10:00 Uhr“, eine andere „10:05 Uhr“ und eine dritte sagt einfach nur „Gestern“.
Ständige Renovierung: Der Dachboden wird gerade umgeräumt, während man versucht, ihn aufzuräumen.

Aus diesem Grund erfordert der Aufbau einer klaren Zeitlinie (eines sogenannten „Process Trace“) normalerweise einen menschlichen Experten, der alles manuell zusammenfügt, was langsam, teuer und fehleranfällig ist.

Die Lösung: Ein „Schema-agnostischer“ Detektiv

Die Autoren haben eine automatisierte Pipeline entwickelt, die wie ein superintelligenter Detektiv fungiert, der keine Landkarte benötigt. Anstatt zu fragen: „Wo ist die Karte?“, betrachtet er einfach die Beweise selbst, um die Geschichte zu verstehen.

Hier sind die vier Schritte, die ihr „Detektiv“ unternimmt:

1. Spuren finden (Profiling)

Zuerast scannt das System jede Datenspalte, um zu erraten, worum es sich handelt.

Die Suche nach der ID: Es sucht nach Spalten, die wie eindeutige Namen aussehen (wie eine Kunden-ID). Es prüft: „Ist dieser Wert eindeutig? Ist er immer vorhanden? Sieht er wie ein Name aus?“
Die Suche nach der Zeit: Es sucht nach Spalten, die wie Daten aussehen. Es prüft: „Sieht das wie ein Zeitstempel aus? Ist es konsistent?“
Analogie: Stellen Sie sich vor, Sie sortieren einen Haufen gemischter Puzzleteile. Der Detektiv braucht das Bild auf dem Karton nicht; er betrachtet einfach die Form der Teile, um zu erraten, welche davon der Himmel und welche das Gras sind.

2. Die Punkte verbinden (Relationship Discovery)

Da es keine offiziellen „Verbindungs-Linien“ (Foreign Keys) gibt, nutzt das System statistische Signale.

Es vergleicht Spalten aus verschiedenen Tabellen. Wenn Tabelle A eine Liste von Zahlen enthält und Tabelle B eine Liste von Zahlen, die perfekt übereinstimmen, nimmt das System an, dass sie miteinander verbunden sind.
Es ignoriert die „offiziellen“ Regeln und achtet statraz auf die tatsächlichen Datenmuster.
Analogie: Wenn Sie einen Beleg in einer Tasche und einen passenden Kontoauszug in einer anderen finden, wissen Sie, dass sie zu derselben Person gehören, auch wenn sie nicht zusammengetackert sind.

3. Die Zeitlinie aufbauen (Sequencing)

Sobald das System weiß, welche Tabellen miteinander verbunden sind, sammelt es alle Ereignisse für einen einzelnen „Fall“ (wie eine bestimmte Kundenbestellung).

Es sortiert diese Ereignisse nach der Zeit.
Wenn die Zeiten verwirrend oder unvollständig sind, nutzt es Logik, um die Reihenfolge zu erraten.
Analogy: Der Detektiv nimmt alle verstreuten Notizen, Quittungen und Protokolle für einen spezifischen Überfall und ordnet sie auf einem Tisch an, um die Abfolge der Ereignisse zu sehen.

4. Das Muster lernen (Das „Gehirn“ – TCN)

Dies ist der fortschrittlichste Teil. Manchmal sind die Zeitstempel zu chaotisch, um zu sagen, welches Ereignis zuerst stattfand.

Das System verwendet eine spezielle Art von KI namens Temporal Convolutional Network (TCN). Betrachten Sie dies als eine Engine zur Mustererkennung.
Es betrachtet tausende vergangener Beispiele, um zu lernen: „Normalerweise passiert, wenn Ereignis A geschieht, folgt darauf Ereignis B.“
Selbst wenn die Uhr defekt ist, kann die KI den nächsten Schritt basierend auf dem Fluss der Geschichte vorhersagen.
Analogie: Wenn Sie sehen, wie jemand einen Mantel anzieht, die Schlüssel greift und die Tür öffnet, wissen Sie, dass er gleich gehen wird, auch wenn Sie den exakten Moment nicht gesehen haben, in dem er hinausging. Die KI lernt diese „Geschäftsabläufe“.

Die Ergebnisse: Wie gut ist der Detektiv?

Die Autoren haben dieses System mit fiktiven Daten (die messy Banken simulieren), Standard-Benchmarks und einem echten Industriesatz getestet.

Genauigkeit: Es hat den nächsten Schritt in einem Prozess zu 85 % der Zeit korrekt vorhergesagt.
Rekonstruktion: Es konnte etwa 82 % der korrekten Ereignisabfolgen finden und rekonstruieren, selbst wenn die Daten unvollständig oder chaotisch waren.
Resilienz: Wenn die Daten „drifteten“ (Namen änderten sich, Daten fehlten), funktionierte das System weiterhin, während traditionelle Methoden versagten.

Warum das wichtig ist

Das Paper argumentiert, dass wir aufhören müssen, auf perfekte Daten zu warten, bevor wir sie analysieren können. Anstatt chaotische Realdaten in eine starre, vordefinierte Box zu pressen, sollten wir die Daten selbst sprechen lassen.

Durch die Beseitigung der Notwendigkeit eines perfekten „Schemas“ (der Landkarte) ermöglicht dieser Ansatz Unternehmen, ihre eigenen Systeme automatisch zu verstehen, selbst wenn diese unordentlich, ständig im Wandel oder schlecht dokumentiert sind. Er verwandelt einen chaotischen Haufen von Beweisen in eine klare, lesbare Geschichte, ohne dass ein Mensch die gesamte schwere Arbeit leisten muss.

Technisches Resümee: Schema-agnostische Konstruktion von Prozessspuren

Problemstellung

Moderne Informationssysteme (IS), insbesondere in OLTP-Umgebungen, sind durch sich schnell entwickelnde, lose gekoppelte relationale Tabellen gekennzeichnet. In diesen Umgebungen versagen traditionelle Annahmen über stabile Schemata, explizite Primär-/Fremdschlüssel und kuratierte Ereignisprotokolle. Schemata driften, Surrogat-Schlüssel werden inkonsistent angewendet oder refakturiert, und Ausführungspuren sind über mehrere Tabellen mit spärlichen Schlüsseln und mehrdeutigen oder multiplen Zeitstempelfeldern verteilt.

Folglich erfordert die Rekonstruktion von Prozessausführungsspuren (Ereignisprotokollen) für Aufgaben wie Auditierung, Compliance und Process Mining kostspielige, fragile manuelle Interventionen unter Verwendung von Ad-hoc-Joins und Zeitstempelregeln. Bestehende Ansätze stützen sich typischerweise auf vordefinierte Schemata, zuverlässige PK/FK-Strukturen oder domänenspezifische Templates, was sie für schlüsselarme, heterogene und sich kontinuierlich verändernde Umgebungen ungeeignet macht. Das Kernproblem besteht darin, wie hochpräzise Ausführungssequenzen (Fälle, Ereignisse und zeitliche Ordnung) direkt aus Roh-Relationsdaten konstruiert werden können, ohne sich auf vordefinierte Schemata, zuverlässige Fremdschlüssel oder Domänenexpertise zu verlassen.

Methodik

Die Autoren schlagen eine vierstufige, schema-agnostische Pipeline vor, die zwischen-tabellarische Verknüpfungen aus statistischen Signalen ableitet, Zeitfelder zusammenstellt und Ordnungsmuster lernt. Die Pipeline arbeitet, ohne eine vollständige Schema-Rekonstruktion oder ontologische Abbildungen zu erfordern.

Stufe 1: Profiling von Identifikator- und Zeitstempelspalten

Die Pipeline profiliert die Spalten in jeder Tabelle, um deren Wahrscheinlichkeit zu schätzen, als Fall-Identifikatoren oder Zeitstempel zu fungieren.

Identifikator-Scoring: Ein Score $spk(c)$ wird basierend auf Unterscheidbarkeit ( $u$ ), Vollständigkeit ( $\gamma$ ) und String-Längen-Stabilität ( $\lambda$ ) berechnet. Spalten müssen in allen drei Metriken hoch punkten, um als Kandidaten für Identifikatoren beibehalten zu werden.
Zeitstempel-Scoring: Ein Score $sdt(c)$ wird als gewichtete Summe von Perzentilrängen für Dispersions- und Variationsmetriken (Vollständigkeit, Unterscheidbarkeit, Standardabweichung, Interquartilsabstand und Entropie) berechnet.
Ausgabe: Die Top- $k$ Kandidaten für Identifikatoren und Zeitstempelspalten werden für jede Tabelle ausgewählt.

Stufe 2: Entdeckung von Beziehungen (Spalte-zu-Spalte-Verknüpfungen)

Anstatt sich auf deklarierte Fremdschlüssel zu verlassen, entdeckt die Pipeline zwischen-tabellarische Verbindungen mittels typbewusster statistischer Ähnlichkeit.

Scoring-Mechanismus: Für jedes paarweise Spaltenpaar $(c_i, c_k)$ $(c_{i}, c_{k})$ über Tabellen hinweg wird ein Link-Score $s(c_i, c_k)$ $s (c_{i}, c_{k})$ als Produkt aus vier Faktoren berechnet:
1. Typkompatibilität (TC): Wertet Paare mit schwach kompatiblen Datentypen ab.
2. Spaltenqualität (Q): Bestraft Paare, die eine geringe Vollständigkeit oder Unterscheidbarkeit aufweisen.
3. Abdeckung (U): Stellt sicher, dass die Überlappung nicht durch seltene Randwerte getrieben wird.
4. Wertähnlichkeit (R): Misst die tatsächliche Übereinstimmung der Werte mittels Jaccard-Ähnlichkeit (JS) für symbolische Daten sowie einer JS/Kolmogorow-Smirnow-Mischung (KS) für numerische Verteilungen.
Link-Bildung: Paare, die einen Schwellenwert $\tau_S$ überschreiten, werden beibehalten, um einen ungerichteten Multigraphen aus Kandidaten-Links zu bilden.

Stufe 3: Temporalisierung und Sequenzierung

Unter Verwendung des entdeckten Link-Sets propagiert die Pipeline Stichproben von Fall-Identifikatoren über erreichbare Tabellen hinweg, um die entsprechenden Zeilen und Zeitstempel-Kandidaten zu sammeln.

Ereignis-Assemblierung: Jedes (Zeile, Zeitstempel)-Paar wird als provisorisches Ereignis behandelt.
Ordnung: Ereignisse für einen spezifischen Fall werden nach dem Zeitstempel sortiert. Gleichstände werden deterministisch mithilfe von Tabellennamen und Zeilen-IDs aufgelöst. Benachbarte Duplikate identischer Labels werden kollabiert, während nicht-benachbarte Wiederholungen erhalten bleiben.
Kontext: Optionale Geschäftsattribute (z. B. Region, Produkt) werden in Kontextvektoren eingebettet, um das anschließende Lernen zu konditionieren, ohne die Ereignisreihenfolge zu verändern.
Ausgabe: Provenienzreiche Ereignisspuren im JSON-Format, exportierbar nach XES oder überführbar in OCEL.

Stufe 4: Sequenzlernen (Ordnung über Tabellen hinweg)

Um Fälle zu adressieren, in denen Zeitstempel mehrdeutig, fehlend oder unzureichend zur Bestimmung der Ordnung sind, setzt die Pipeline ein Causal Temporal Convolutional Network (TCN) ein.

Lernziel: Das TCN sagt das nächste Ereignis $e_{t+1}$ basierend auf einem Fenster vergangener Ereignisse und einem optionalen Kontextvektor voraus.
Präzedenz-Extraktion: Durch Aggregation von Next-Event-Vorhersagen wird eine Übergangsmatrix gebildet. Gerichtete Kanten $i \to j$ werden hinzugefügt, wenn die Wahrscheinlichkeit, dass $j$ auf $i$ folgt, signifikant höher ist als der umgekehrte Fall. Paare mit ähnlichen bidirektionalen Häufigkeiten werden als Bidirectional Order Variability (BOV) markiert.
Ausgabe: Ein minimaler Präzedenzgraph, der Flussbeziehungen zusammenfasst, welcher von Standard-Process-Mining-Tools konsumiert werden kann.

Kernbeiträge

Schema-agnostische Pipeline: Ein neuartiger End-to-End-Ansatz zur Rekonstruktion von Prozessspuren aus Roh-Relationsdaten mit spärlichen Schlüsseln, ohne vordefinierte Schemata, ER-Diagramme oder Domänen-Templates.
Statistische Link-Entdeckung: Eine Methode zur Ableitung von Tabellenbeziehungen mittels typbewusster statistischer Ähnlichkeit (JS/KS) anstelle von expliziten Fremdschlüsseln, was die Robustheit gegenüber Schema-Drift und fehlenden Schlüsseln erhöht.
Gelerntes Präzedenzverhalten: Die Anwendung von TCNs zum Erlernen der zeitlichen Ordnung und der Flussbeziehungen über Tabellen hinweg direkt aus den rekonstruierten Spuren, um Szenarien mit unzureichenden oder widersprüchlichen Zeitstempeln zu bewältigen.
Operationale Robustheit: Ein Pfad zur Generierung von Ereignisprotokollen, die gegenüber fehlenden Zeitstempeln, Homonymen und partiellen Schlüsseln robust bleiben, was die automatisierte Log-Konstruktion in dynamischen IS-Umgebungen ermöglicht.

Ergebnisse

Die Pipeline wurde auf TPC-H/E Benchmarks, synthetischen Korpora (Synth-Light, Synth-Heavy) und einem realen Industriedatensatz (Industry-1) evaluiert.

Ereignis-Rekonstruktion (RQ1): Die Pipeline erreichte eine hohe Ereignis-Set-Rekonstruktionsrate, mit einer Position-Independent Token Accuracy (PITA) zwischen 0,82 (Synth-Heavy) und 1,00 (TPC-H). Sie sagte das nächste Ereignis mit 85 % Genauigkeit korrekt voraus.
Präzedenzlernen (RQ2): Der TCN-basierte Ansatz übertraf n-Gramm- und LSTM-Baselines in der Next-Event-Vorhersage und den Konformitätsmetriken. Er rekonstruierte etwa 82 % der Ground-Truth-Präzedenzrelationen (F1-Score 0,74–0,82) und zeigte eine überlegene Fähigkeit zur Erfassung von Cross-Table-Flussbeziehungen im Vergleich zu regelbasierten oder schema-zentrierten Ansätzen.
Änderungsresistenz (RQ3): Unter kontrolliertem Drift (Attribut-Umbenennung und fehlende Zeitstempel) behielt die vollständige Pipeline über 80 % ihrer Performance-Metriken aus dem Clean-Data-Szenario bei, während eine deterministische Baseline unter 50 % fiel. Dies demonstriert eine signifikante Resilienz gegenüber Schema- und Datenevolution.
Stufen-Attribution: Ablationsstudien bestätigten, dass die Stufen S1–S3 die Qualität der Rekonstruktion bestimmen, während Stufe S4 (TCN) die Treue der Präzedenzrelationen signifikant verbessert, insbesondere bei der Erfassung von Langzeitabhängigkeiten und kontextspezifischen Flüssen.

Bedeutung und Ansprüche

Das Paper beansprucht, einen generalisierbaren und skalierbaren Pfad für die automatisierte Rekonstruktion von Ausführungsverhalten in dynamischen IS-Umgebungen anzubieten. Es stellt die langjährige Annahme in der IS-Entwicklung infrage, dass zuverlässige Ereignisprotokolle saubere Schemata und kuratierte Schlüssel voraussetzen. Durch den Wechsel von einem „Schema-First“- zu einem „Data-First“-Ansatz argumentieren die Autoren, dass es möglich ist, hochwertige Protokolle zu erstellen, selbst wenn Schemata driften und Systeme sich entwickeln.

Die Arbeit schlägt ein neues IS-Engineering-Paradigma vor, bei dem operationale Schemata frei evolvieren dürfen, während eine datengesteuerte Log-Engineering-Schicht die Kontinuität für Analyse, Auditierung und Neugestaltung bewahrt. Die Autoren positionieren dies als Lösung für den Engpass der manuellen Spurenkonstruktion in modernen, lose gekoppelten OLTP-Systemen und ermöglichen so Process Mining und Compliance-Monitoring in Umgebungen, die zuvor als zu verrauscht oder unstrukturiert für solche Analysen galten.

Schema-Agnostic Process Trace Construction: From Raw Tables to Execution Behavior