Neuro-Symbolic Learning for Predictive Process Monitoring via Two-Stage Logic Tensor Networks with Rule Pruning

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie leiten eine große, chaotische Fabrik oder ein Krankenhaus. Tausende von Ereignissen passieren jeden Tag: Ein Patient wird aufgenommen, ein Laborergebnis kommt rein, eine Operation beginnt. Oder: Eine Kreditkarte wird benutzt, eine Überweisung getätigt, ein Konto gesperrt.

Das Problem:
Bisher haben Computer versucht, das Verhalten dieser Prozesse zu vorhersagen, indem sie einfach nur in die Vergangenheit geschaut haben. Sie haben gelernt: "Wenn A passiert, passiert meistens B." Das ist wie ein junger Auszubildender, der nur durch Beobachten lernt.
Aber das hat einen großen Haken: Der Auszubildende kennt die Regeln nicht.

Im Krankenhaus: "Man darf erst operieren, nachdem der Patient Nüchternheit geprüft wurde."
In der Bank: "Man darf kein Geld an einen neuen Empfänger senden, bevor die Identität geprüft ist."

Wenn der Computer nur auf Daten schaut und in der Vergangenheit selten ein Fehler passiert ist, lernt er vielleicht, dass man die Identitätsprüfung überspringen kann. Das ist gefährlich! Er ist "dumm" im Sinne von regelkonform, auch wenn er statistisch "klug" ist.

Die Lösung: Der "Neuro-Symbolische" Ansatz
Die Autoren dieses Papers haben eine clevere Idee entwickelt, die wir wie eine Zusammenarbeit zwischen einem Genie und einem strengen Lehrer vorstellen können.

Der Genie-Teil (Neural Network): Das ist der Computer, der Muster erkennt. Er sieht tausende von Abläufen und lernt: "Aha, meistens passiert X nach Y." Er ist schnell und gut im Sehen von Trends.
Der Lehrer-Teil (Symbolic Logic): Das sind die festen Regeln (wie die oben genannten). "Regel Nr. 1: Nie ohne Prüfung!"

Das alte Problem:
Wenn man den Genie und den Lehrer einfach zusammenbringt, passiert oft etwas Dummes. Der Genie versucht so sehr, den Lehrer zu gefallen (die Regeln zu erfüllen), dass er vergisst, die eigentlichen Muster zu lernen. Er sagt: "Okay, ich werde einfach nie operieren, dann verletze ich ja keine Regel!" – Das ist technisch korrekt, aber nutzlos für die Vorhersage. Der Computer wird "faul" und erfüllt die Regeln, indem er gar nichts tut.

Die neue Lösung: Der "Zwei-Stufen-Plan"
Die Autoren haben einen cleveren Trainingsplan entwickelt, um dieses Problem zu lösen. Man kann es sich wie das Lernen für eine schwierige Prüfung vorstellen:

Stufe 1: Das "Grundlagen-Seminar" (Pretraining mit Gewichtung)
Zuerst lässt man den Computer (den Genie) erst mal die Daten lernen, ohne sich zu sehr um die strengen Regeln zu kümmern. Man sagt ihm: "Lies erst mal die Geschichte, versteh den Ablauf!" Die Regeln sind da, aber sie haben weniger Gewicht. So lernt der Computer, wie die Welt wirklich funktioniert, basierend auf echten Daten.
Stufe 2: Der "Strenge Filter" (Rule Pruning)
Jetzt kommt der spannende Teil. Nicht alle Regeln sind gleich gut. Manche sind alt, falsch oder passen gar nicht zur aktuellen Situation.
Der Computer schaut sich an: "Welche Regeln helfen mir wirklich, die Vorhersage zu verbessern? Und welche machen mich nur verwirrt?"
Er wirft die schlechten, widersprüchlichen oder unnützen Regeln weg (das nennt man "Rule Pruning" oder "Regel-Schnitt"). Er behält nur die Regeln, die wirklich sinnvoll sind und die er auch wirklich einhalten kann, ohne die Vorhersage zu ruinieren.
Stufe 3: Das "Finale" (Fine-Tuning)
Mit diesem bereinigten, perfekten Regelwerk und dem gelernten Datenwissen wird der Computer noch einmal feinjustiert. Jetzt ist er ein Meister: Er kennt die Muster der Vergangenheit und hält sich strikt an die wichtigen Sicherheitsregeln.

Warum ist das so cool?
Stellen Sie sich vor, Sie wollen ein Auto fahren lernen.

Ein reiner Daten-Ansatz (nur Muster) würde Sie lehren: "Fahr so schnell wie möglich, weil die meisten das tun." (Gefährlich!)
Ein reiner Regel-Ansatz würde sagen: "Fahre 0 km/h, dann verletze du keine Geschwindigkeitsbegrenzung." (Unnütz!)
Ihr Ansatz: Erst lernen Sie, wie man das Auto fährt (Daten), dann lernen Sie die Verkehrsregeln (Logik), aber Sie streichen die Regeln, die unsinnig sind (z.B. "Verbot von roter Farbe"), und behalten nur die wichtigen (Bremsen bei Rot).

Das Ergebnis:
Die Forscher haben das an echten Daten aus Krankenhäusern und Banken getestet. Das Ergebnis war beeindruckend:

Woherherkömmliche Computer bei seltenen, aber wichtigen Regeln (wie "Identitätsprüfung") versagten, weil sie diese Fälle in den Daten kaum sahen, glänzte ihr System.
Es konnte vorhersagen: "Achtung, hier fehlt die Identitätsprüfung!" – selbst wenn das in den Trainingsdaten nur 4% der Fälle waren.
Ohne ihren "Zwei-Stufen-Plan" wäre das System komplett zusammengebrochen und hätte schlechtere Ergebnisse geliefert als ein einfacher Computer ohne Regeln.

Zusammenfassend:
Sie haben eine Methode entwickelt, um Künstliche Intelligenz nicht nur "klug" (datenbasiert), sondern auch "diszipliniert" (regelbasiert) zu machen. Der Trick war, die Regeln nicht einfach aufzuzwingen, sondern sie erst zu lernen, dann zu filtern und erst dann voll einzusetzen. So wird die KI zum perfekten Assistenten, der keine Fehler macht und trotzdem die Welt versteht.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Vorhersage des Prozessverlaufs (Predictive Process Monitoring, PPM) ist entscheidend für Bereiche wie Finanzwesen, Gesundheitswesen und Fertigung, um Anomalien zu erkennen und Ergebnisse vorherzusagen.

Herausforderung: Bestehende rein datengetriebene Ansätze (z. B. LSTM, Transformer) lernen zwar Korrelationen aus historischen Daten, scheitern jedoch oft daran, domänenspezifische sequenzielle Constraints und logische Regeln (z. B. Compliance-Vorschriften, Sicherheitsregeln) zu integrieren.
Konsequenz: Modelle können Vorhersagen treffen, die zwar statistisch plausibel, aber in der Praxis illegal oder gefährlich sind (z. B. eine Operation planen, bevor die Entlassung des Patienten erfolgt ist).
Spezifisches Problem bei Neuro-Symbolischen Ansätzen: Bestehende Frameworks wie Logic Tensor Networks (LTNs) neigen dazu, logische Formeln auf Kosten der Vorhersagegenauigkeit zu erfüllen („vacuous satisfaction"), was zu einer Verschlechterung der Leistung führt, wenn Regeln nicht sorgfältig gewichtet oder gefiltert werden.

2. Methodik

Das Paper schlägt einen neuro-symbolischen Ansatz vor, der neuronale Netze mit symbolischem logischem Schlussfolgern kombiniert, basierend auf Logic Tensor Networks (LTNs).

A. Wissensformalisierung

Domänenwissen wird in drei Kategorien extrahiert und in Lineare Temporallogik (LTL) und Prädikatenlogik erster Ordnung (FOL) formalisiert:

Control-Flow: Sequenzielle Abhängigkeiten (z. B. „Schritt A muss vor Schritt B erfolgen").
Temporal: Zeitliche Constraints (z. B. Wartezeiten, Dauer).
Payload: Kontextdaten und Attribute (z. B. Patientenalter, Beträge).

Diese Regeln werden als differentiable Axiome in den Lernprozess integriert, wobei Wahrheitswerte im Intervall [0, 1] liegen (fuzzy semantics).

B. Zwei-Phasen-Optimierungsstrategie (Kerninnovation)

Um das Problem zu lösen, dass LTNs logische Konsistenz über die Vorhersagegenauigkeit stellen, wird eine zweistufige Strategie entwickelt:

Phase 1: Weighted Pretraining & Regel-Selektion
- Ein gewichteter Axiom-Verlust wird verwendet: $L = 1 - (\alpha \cdot \text{SatAgg}(K_D) + \beta \cdot \text{SatAgg}(K_P))$ .
- Dabei wird $\alpha > \beta$ gesetzt, um das Lernen aus den Daten ( $K_D$ ) in der Anfangsphase zu priorisieren. Dies verhindert, dass das Modell „leere" logische Lösungen findet, bevor es die Datenstruktur verstanden hat.
- Nach dem Pretraining werden Regeln basierend auf Satisfaction Dynamics gefiltert. Eine „Gating-Score"-Formel ( $g_i = \bar{s}_i \cdot e^{-\lambda \cdot \text{Var}(s_i)}$ ) bewertet Regeln nach ihrer durchschnittlichen Zufriedenheit und Varianz. Nur konsistente und beitragende Regeln werden beibehalten.
Phase 2: Fine-Tuning
- Das Modell wird auf dem bereinigten Wissensspeicher (Datenaxiome + gefilterte Regelaxiome) feinabgestimmt.
- Dies führt zu einem stabilen Training, bei dem das neuronale Netz die Daten lernt und die logischen Regeln als sinnvolle Induktionsbias dienen, ohne die Leistung zu dominieren.

3. Hauptbeiträge

Systematische Wissensintegration: Ein Prinzip zur Extraktion und Kategorisierung von Prozesswissen (Control-Flow, Zeit, Payload) und dessen Formalisierung mittels LTL/FOL für neuronale Modelle.
Neue Trainingsstrategie: Die Einführung der zweistufigen Optimierung mit Regel-Pruning. Dies adressiert die fundamentale Schwäche von LTNs, bei der logische Konsistenz die Vorhersagegenauigkeit opfert.
Robustheit bei Datenknappheit: Nachweis, dass dieser Ansatz besonders in Szenarien mit wenigen konformen Trainingsbeispielen (Compliance-constrained) überlegen ist.

4. Ergebnisse

Die Evaluation erfolgte auf vier realen Event-Logs (Sepsis, BPIC2012, BPIC2017, Traffic fines).

RQ1 (Einfluss von Domänenwissen): Die neuro-symbolischen Modelle (Two-Stage) übertrafen rein datengetriebene Baselines (LSTM, Transformer) konsistent, insbesondere bei kleineren Datensätzen. Auf dem Sepsis-Datensatz konnte der F1-Score um bis zu 5,23 % (gegenüber LSTM) gesteigert werden.
RQ2 (Ablation der Zwei-Phasen-Strategie):
- Ein LTN ohne Pruning (LTN-NoP) führte zu einem katastrophalen Leistungsabfall (z. B. F1 von ~70 % auf ~19 % bei Sepsis), da das Modell logische Abkürzungen nutzte.
- Die Zwei-Phasen-Strategie erholte die Leistung vollständig und zeigte, dass die Optimierung essenziell ist, um Wissen nutzbar zu machen.
RQ3 (Generalisierung auf Compliance-Szenarien): In Szenarien, in denen nur wenige konforme Trainingsbeispiele vorhanden waren (z. B. nur 4 % bei Sepsis), aber der Testset stark konform war, schnitt der Two-Stage-Ansatz deutlich besser ab als alle Baselines (F1-Score von 89,96 % vs. 73,26 % bei LSTM). Reine Datenmodelle konnten die seltenen, aber kritischen Compliance-Muster nicht generalisieren.

5. Bedeutung und Fazit

Das Paper demonstriert, dass die Integration von Domänenwissen in Predictive Process Monitoring nicht automatisch zu besseren Ergebnissen führt; sie erfordert eine sorgfältige Balance zwischen Datenlernen und logischen Constraints.

Praktische Relevanz: Der Ansatz ermöglicht es Organisationen, Modelle zu entwickeln, die nicht nur akkurat sind, sondern auch Compliance- und Sicherheitsregeln einhalten, was für kritische Infrastrukturen (Gesundheit, Finanzen) unerlässlich ist.
Wissenschaftlicher Beitrag: Die Arbeit liefert einen robusten Mechanismus (Weighted Loss + Pruning), um die inhärenten Konflikte zwischen symbolischer Logik und neuronalem Lernen in zeitlichen Prozessdaten zu lösen. Sie zeigt, dass Neuro-Symbolic AI in datenarmen, regelbasierten Umgebungen einen entscheidenden Vorteil bietet.

Neuro-Symbolic Learning for Predictive Process Monitoring via Two-Stage Logic Tensor Networks with Rule Pruning

1. Problemstellung

2. Methodik

A. Wissensformalisierung

B. Zwei-Phasen-Optimierungsstrategie (Kerninnovation)

3. Hauptbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Bitboard version of Tetris AI

Multiverse: Language-Conditioned Multi-Game Level Blending via Shared Representation

Concerning Uncertainty -- A Systematic Survey of Uncertainty-Aware XAI

Compliance-Aware Predictive Process Monitoring: A Neuro-Symbolic Approach

Transparency as Architecture: Structural Compliance Gaps in EU AI Act Article 50 II