Schema-Agnostic Process Trace Construction: From Raw Tables to Execution Behavior

Dieses Paper schlägt eine schema-agnostische Pipeline vor, die automatisch hochgetreue Prozess-Ausführungstraces aus rohen, lose miteinander verknüpften relationalen Tabellen rekonstruiert, indem sie statistisch Schlüssel- und Zeitattribute identifiziert, Verknüpfungen zwischen Tabellen entdeckt und ein Temporal Convolutional Network nutzt, um die Ereignisreihenfolge zu modellieren, wodurch die Notwendigkeit vordefinierter Schemata oder Domänen-Templates in dynamischen Informationssystemen eliminiert wird.

Ursprüngliche Autoren: Joel Lim Zhi Quan, Tan Kar Way, Lau Hoong Chuin

Veröffentlicht 2026-06-16
📖 5 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Joel Lim Zhi Quan, Tan Kar Way, Lau Hoong Chuin

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie sind ein Detektiv, der versucht, die Geschichte eines Banküberfalls zu rekonstruieren. In einer perfekten Welt würden die Polizisten Ihnen ein ordentliches, chronologisches Tagebuch überreichen, in dem jeder Eintrag genau sagt, wer was und wann getan hat.

Aber in der realen Welt ist der Beweis verstreut. Sie haben einen Haufen loser Quittungen, einen Stapel Sicherheitskamera-Protokolle, ein paar handschriftliche Notizen und eine Tabelle mit Telefonaten. Keines dieser Dokumente spricht mit den anderen. Die Quittungen haben keine Namen, die Kamera-Protokolle haben keine Zeitstempel und die Telefonnotizen sind in einer anderen Sprache geschrieben. Zudem ändert die Bank jede Woche ihr Ablagesystem.

Dies ist das Problem, das die Autoren dieser Arbeit lösen. Sie befassen sich mit modernen Computersystemen (wie Banken oder großen Unternehmen), in denen Daten chaotisch sind, über viele verschiedene Tabellen verteilt liegen und sich ständig ändern. Traditionelle Methoden zur Analyse dieser Systeme scheitern, weil sie eine perfekte, vororganisierte Karte (ein „Schema“) verlangen, die schlichtweg nicht existiert.

So funktioniert ihre Lösung, unterteilt in einfache Schritte:

Das Problem: Der „unordentliche Aktenschrank“

In altertümlichen Computersystemen waren Daten wie eine gut organisierte Bibliothek. Jedes Buch hatte ein klares Etikett, und man wusste genau, in welches Regal es gehörte.
In modernen Systemen sind Daten wie der Dachboden eines Messie-Sammlers.

  • Keine Etiketten: Man kann nicht ohne Weiteres erkennen, welcher Datensatz zu welchem Kunden gehört (fehlende „Keys“).
  • Verstreute Hinweise: Die Geschichte einer einzigen Transaktion ist auf fünf verschiedene Tabellen aufgeteilt.
  • Verwirrende Zeitlinien: Eine Tabelle sagt „10:00 Uhr“, eine andere „10:05 Uhr“ und eine dritte sagt einfach nur „Gestern“.
  • Ständige Renovierung: Der Dachboden wird gerade umgeräumt, während man versucht, ihn aufzuräumen.

Aus diesem Grund erfordert der Aufbau einer klaren Zeitlinie (eines sogenannten „Process Trace“) normalerweise einen menschlichen Experten, der alles manuell zusammenfügt, was langsam, teuer und fehleranfällig ist.

Die Lösung: Ein „Schema-agnostischer“ Detektiv

Die Autoren haben eine automatisierte Pipeline entwickelt, die wie ein superintelligenter Detektiv fungiert, der keine Landkarte benötigt. Anstatt zu fragen: „Wo ist die Karte?“, betrachtet er einfach die Beweise selbst, um die Geschichte zu verstehen.

Hier sind die vier Schritte, die ihr „Detektiv“ unternimmt:

1. Spuren finden (Profiling)

Zuerast scannt das System jede Datenspalte, um zu erraten, worum es sich handelt.

  • Die Suche nach der ID: Es sucht nach Spalten, die wie eindeutige Namen aussehen (wie eine Kunden-ID). Es prüft: „Ist dieser Wert eindeutig? Ist er immer vorhanden? Sieht er wie ein Name aus?“
  • Die Suche nach der Zeit: Es sucht nach Spalten, die wie Daten aussehen. Es prüft: „Sieht das wie ein Zeitstempel aus? Ist es konsistent?“
  • Analogie: Stellen Sie sich vor, Sie sortieren einen Haufen gemischter Puzzleteile. Der Detektiv braucht das Bild auf dem Karton nicht; er betrachtet einfach die Form der Teile, um zu erraten, welche davon der Himmel und welche das Gras sind.

2. Die Punkte verbinden (Relationship Discovery)

Da es keine offiziellen „Verbindungs-Linien“ (Foreign Keys) gibt, nutzt das System statistische Signale.

  • Es vergleicht Spalten aus verschiedenen Tabellen. Wenn Tabelle A eine Liste von Zahlen enthält und Tabelle B eine Liste von Zahlen, die perfekt übereinstimmen, nimmt das System an, dass sie miteinander verbunden sind.
  • Es ignoriert die „offiziellen“ Regeln und achtet statraz auf die tatsächlichen Datenmuster.
  • Analogie: Wenn Sie einen Beleg in einer Tasche und einen passenden Kontoauszug in einer anderen finden, wissen Sie, dass sie zu derselben Person gehören, auch wenn sie nicht zusammengetackert sind.

3. Die Zeitlinie aufbauen (Sequencing)

Sobald das System weiß, welche Tabellen miteinander verbunden sind, sammelt es alle Ereignisse für einen einzelnen „Fall“ (wie eine bestimmte Kundenbestellung).

  • Es sortiert diese Ereignisse nach der Zeit.
  • Wenn die Zeiten verwirrend oder unvollständig sind, nutzt es Logik, um die Reihenfolge zu erraten.
  • Analogy: Der Detektiv nimmt alle verstreuten Notizen, Quittungen und Protokolle für einen spezifischen Überfall und ordnet sie auf einem Tisch an, um die Abfolge der Ereignisse zu sehen.

4. Das Muster lernen (Das „Gehirn“ – TCN)

Dies ist der fortschrittlichste Teil. Manchmal sind die Zeitstempel zu chaotisch, um zu sagen, welches Ereignis zuerst stattfand.

  • Das System verwendet eine spezielle Art von KI namens Temporal Convolutional Network (TCN). Betrachten Sie dies als eine Engine zur Mustererkennung.
  • Es betrachtet tausende vergangener Beispiele, um zu lernen: „Normalerweise passiert, wenn Ereignis A geschieht, folgt darauf Ereignis B.“
  • Selbst wenn die Uhr defekt ist, kann die KI den nächsten Schritt basierend auf dem Fluss der Geschichte vorhersagen.
  • Analogie: Wenn Sie sehen, wie jemand einen Mantel anzieht, die Schlüssel greift und die Tür öffnet, wissen Sie, dass er gleich gehen wird, auch wenn Sie den exakten Moment nicht gesehen haben, in dem er hinausging. Die KI lernt diese „Geschäftsabläufe“.

Die Ergebnisse: Wie gut ist der Detektiv?

Die Autoren haben dieses System mit fiktiven Daten (die messy Banken simulieren), Standard-Benchmarks und einem echten Industriesatz getestet.

  • Genauigkeit: Es hat den nächsten Schritt in einem Prozess zu 85 % der Zeit korrekt vorhergesagt.
  • Rekonstruktion: Es konnte etwa 82 % der korrekten Ereignisabfolgen finden und rekonstruieren, selbst wenn die Daten unvollständig oder chaotisch waren.
  • Resilienz: Wenn die Daten „drifteten“ (Namen änderten sich, Daten fehlten), funktionierte das System weiterhin, während traditionelle Methoden versagten.

Warum das wichtig ist

Das Paper argumentiert, dass wir aufhören müssen, auf perfekte Daten zu warten, bevor wir sie analysieren können. Anstatt chaotische Realdaten in eine starre, vordefinierte Box zu pressen, sollten wir die Daten selbst sprechen lassen.

Durch die Beseitigung der Notwendigkeit eines perfekten „Schemas“ (der Landkarte) ermöglicht dieser Ansatz Unternehmen, ihre eigenen Systeme automatisch zu verstehen, selbst wenn diese unordentlich, ständig im Wandel oder schlecht dokumentiert sind. Er verwandelt einen chaotischen Haufen von Beweisen in eine klare, lesbare Geschichte, ohne dass ein Mensch die gesamte schwere Arbeit leisten muss.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →