Deterministic Fuzzy Triage for Legal Compliance Classification and Evidence Retrieval

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der riesige Haufen Papierkram

Stell dir vor, du bist ein Sicherheitsbeauftragter in einem großen Unternehmen (z. B. im Gesundheitswesen oder bei einer Bank). Deine Aufgabe ist es, tausende von Verträgen, E-Mails und Richtlinien zu prüfen, um sicherzustellen, dass alles den strengen Gesetzen entspricht.

Das ist wie der Versuch, in einem riesigen, chaotischen Lagerhaus nach einem einzigen, spezifischen Werkzeug zu suchen, während du gleichzeitig prüfen musst, ob das Werkzeug überhaupt erlaubt ist.

Bisher haben viele versucht, riesige, „intelligente" KI-Modelle (wie moderne Chatbots) einzusetzen, die alles auf einmal lesen und entscheiden sollen. Das Problem dabei: Diese Modelle sind wie Zauberer in einer undurchsichtigen Kiste.

Man weiß nicht genau, warum sie eine Entscheidung treffen.
Wenn man sie heute fragt, geben sie vielleicht eine Antwort, und morgen eine andere (sie sind nicht „deterministisch").
Für Gesetze wie HIPAA (Datenschutz im Gesundheitswesen) reicht das nicht. Behörden wollen sehen: „Zeig mir genau, wie du zu diesem Ergebnis gekommen bist."

Die Lösung: Ein cleverer, vorhersehbarer Sortierroboter

Die Autoren dieses Papiers haben einen anderen Weg gewählt. Statt eines riesigen, undurchsichtigen Zauberers bauen sie einen kleinen, sehr präzisen Sortierroboter.

Stell dir diesen Roboter wie einen super-effizienten Bibliothekar vor, der zwei Dinge kann:

Er findet die richtigen Bücher (Recherche):
Der Roboter hat gelernt, Verträge zu lesen und zu erkennen: „Hey, dieser Satz hier passt gut zu dieser Regel dort." Er vergleicht nicht nur Wörter, sondern versteht die Bedeutung. Er gibt jedem Satz eine Punktzahl: „Wie gut passt das?"
- Vergleich: Es ist wie ein sehr guter Suchalgorithmus, der nicht nur nach dem Wort „Feuer" sucht, sondern versteht, dass „Brandmeldeanlage" auch gemeint sein könnte.
Er trifft eine klare Entscheidung (Triage):
Das ist der geniale Teil. Der Roboter gibt nicht einfach nur „Ja" oder „Nein" aus. Er teilt alle gefundenen Sätze in drei Schubladen ein:
- Schublade 1: „Klarer Fall – Alles in Ordnung" (Auto-Compliant)
  Wenn der Satz sehr klar und deutlich die Regel erfüllt (z. B. „Alle Mitarbeiter müssen ein Passwort haben"), schickt der Roboter das direkt in die „Fertig"-Schublade. Kein Mensch muss das lesen.
- Schublade 2: „Klarer Fall – Problem!" (Auto-Non-Compliant)
  Wenn der Satz offensichtlich falsch ist oder fehlt (z. B. „Niemand braucht ein Passwort"), kommt es in die „Alarm"-Schublade. Auch hier muss niemand lange überlegen.
- Schublade 3: „Zwischenbereich – Mensch muss schauen" (Human-Review)
  Hier ist es unscharf. Der Satz ist vielleicht etwas vage oder passt nur halb. Der Roboter sagt: „Ich bin mir nicht sicher, das ist zu riskant, um es automatisch zu entscheiden." Er legt diesen Fall auf den Tisch eines echten Menschen.

Warum ist das besser als ein Chatbot?

Stell dir vor, du musst vor Gericht beweisen, warum du eine Entscheidung getroffen hast.

Der Chatbot (LLM): Sagt: „Ich denke, das ist okay." Aber wenn du fragst: „Warum?", zitiert er vielleicht etwas, das nicht im Vertrag stand, oder er ändert seine Meinung, wenn du ihn morgen wieder fragst. Das ist vor Gericht schwer zu verteidigen.
Der Sortierroboter (dieses Papier): Sagt: „Ich habe diesen Satz mit einer Punktzahl von 0,98 bewertet. Die Schwelle für 'Automatisch OK' liegt bei 0,90. Da 0,98 > 0,90 ist, habe ich ihn in die 'OK'-Schublade gelegt."
- Das ist vorhersehbar (deterministisch). Wenn du den Prozess morgen mit den gleichen Daten wiederholst, kommt exakt das gleiche Ergebnis heraus.
- Das ist überprüfbar. Ein Auditor kann die Schwellenwerte (die Grenzen zwischen den Schubladen) sehen und verstehen.

Die Ergebnisse in der Praxis

Der Roboter wurde an echten Daten getestet:

Er findet die relevanten Sätze in Verträgen ziemlich gut (besser als zufälliges Raten).
Er kann extrem gut erkennen, ob etwas gefährlich ist (selbst wenn nur 1 von 100 Sätzen ein Problem ist).
Durch die „drei Schubladen" kann er 96–98 % aller Fälle automatisch abwickeln. Nur die kniffligen 2–4 % landen beim Menschen. Das spart enorm viel Zeit, ohne die Sicherheit zu gefährden.

Fazit: Einfachheit gewinnt

Die Botschaft des Papiers ist: Man braucht nicht unbedingt den größten, teuersten und undurchsichtigsten KI-Modell, um rechtliche Probleme zu lösen.

Ein kleiner, klarer und vorhersehbarer Algorithmus, der unsichere Fälle an Menschen weiterleitet, ist oft besser. Er ist wie ein sorgfältiger Assistent, der die schwere Arbeit macht, aber weiß, wann er aufhören und den Chef holen muss. Das ist sicherer, fairer und vor allem vor Gericht viel leichter zu verteidigen.

Each language version is independently generated for its own context, not a direct translation.

Titel und Kernthema

Das Papier stellt einen Ansatz vor, der deterministische, fuzzy-basierte Triage-Systeme für die rechtliche Compliance-Klassifizierung und den Abruf von Beweismitteln entwickelt. Ziel ist es, eine transparente, reproduzierbare Alternative zu undurchsichtigen, nicht-deterministischen Large Language Models (LLMs) zu schaffen, die speziell für hochregulierte Umgebungen (z. B. HIPAA, NERC-CIP) geeignet ist.

1. Problemstellung

Rechts- und Compliance-Teams müssen große Mengen an Vertragsdaten, Richtlinien und E-Mail-Verläufen prüfen, um die Einhaltung von Vorschriften nachzuweisen.

Herausforderungen:
- Intransparenz & Nicht-Determinismus: Aktuelle LLM-basierte „Copilots" neigen zu Halluzinationen, liefern inkonsistente Ergebnisse (durch Sampling) und sind schwer zu auditieren oder zu zertifizieren.
- Extreme Klassenungleichgewichte: In Compliance-Daten sind relevante Klauseln selten (positive Rate ca. 0,6 %).
- Fehlende Abstufung: Bestehende Modelle liefern oft nur binäre Ja/Nein-Antworten, obwohl Compliance-Experten differenzierte Bewertungen (von „leicht relevant" bis „hoch relevant") benötigen.
- Hohe Risiken: Fehler können zu Strafen führen; daher ist eine vollständige Automatisierung ohne menschliche Überprüfung riskant.

Das Ziel ist ein System, das abgestufte Relevanz liefert, kalibrierte Unsicherheitsmaße bereitstellt und eine Triage (Automatisierung vs. menschliche Prüfung) ermöglicht.

2. Methodik

Der vorgeschlagene Ansatz basiert auf einem dualen Encoder mit einem nachgelagerten „Fuzzy Triage"-Modul.

A. Architektur

Backbone: Ein RoBERTa-base-Modell, das als dualer Encoder trainiert wird.
- Query (Regel/Vorschrift) und Clause (Vertragsklausel) werden unabhängig voneinander encodiert.
- Die Ausgabe wird auf einen 512-dimensionalen Vektorraum projiziert.
- Die Ähnlichkeit wird über die Cosine-Similarity berechnet.
Zwei Trainingsphasen:
1. Ranking (ACORD-Datensatz): Training mit einer listweisen Verlustfunktion (Listwise Loss), die abgestufte Relevanz-Scores (0–4/5) nutzt, um die Rangfolge der Klauseln zu optimieren. Ziel ist die Maximierung von NDCG (Normalized Discounted Cumulative Gain).
2. Klassifizierung (CUAD-ähnlicher Datensatz): Feinabstimmung für eine binäre Compliance-Klassifizierung (Einhaltung vs. Verstoß). Hier wird ein gewichteter Binary Cross-Entropy-Loss verwendet, um das extreme Klassenungleichgewicht (Positiv-Weight = 200) zu kompensieren.

B. Fuzzy Triage Head (Unscharfe Triage)

Anstatt einer starren Schwelle wird ein Fuzzy-Gating-Mechanismus eingeführt, der den Skalar-Score in drei Bereiche unterteilt:

Auto-noncompliant: Klare Verstöße (untere Schwelle $\tau_{low}$ ).
Human-review: Unsichere Fälle (zwischen $\tau_{low}$ und $\tau_{high}$ ).
Auto-compliant: Klare Einhaltung (obere Schwelle $\tau_{high}$ ).

Die Schwellenwerte werden auf Validierungsdaten so optimiert, dass die Abdeckung der automatisierten Entscheidungen maximiert wird, unter der harten Nebenbedingung, dass die Fehlerrate innerhalb der automatisierten Bereiche maximal 2 % beträgt.

C. Determinismus und Reproduzierbarkeit

Alle Experimente laufen auf einer einzigen NVIDIA A100 GPU.
Feste Random Seeds (40–44) und gepinnte Bibliotheksversionen gewährleisten, dass das System bei gleichen Eingaben immer identische Scores und Entscheidungen liefert. Dies ist entscheidend für rechtliche Verteidigungsfähigkeit und Audits.

3. Wichtige Beiträge

Reproduzierbare Dual-Encoder-Basis: Ein einfacher, aber effektiver Ansatz für die rechtliche Klausel-Rule-Retrieval, der auf dem ACORD-Benchmark trainiert wird.
Fuzzy-Triage-Ansatz: Ein Mechanismus, der explizit Coverage- und Fehler-Trade-offs auf einer binären Compliance-Aufgabe mit extremem Ungleichgewicht darstellt.
Regulatorische Ausrichtung: Der Ansatz bietet eine Schnittstelle, um Scores und Triage-Bereiche direkt auf regulatorische Konzepte (wie Zugriffskontrolle, risikobasierte Prüfung und Restrisiko-Management) abzubilden, was bei Black-Box-LLMs fehlt.

4. Ergebnisse

ACORD Retrieval (Abgestufte Relevanz)

NDCG@5: ca. 0,38 – 0,42
NDCG@10: ca. 0,45 – 0,50
4-Sterne Precision@5: ca. 0,37
Bedeutung: Das Modell zeigt eine signifikant bessere Leistung als Majoritäts- und Zufalls-Baselines und ist für die Suche nach relevanten Beweisklauseln geeignet.

CUAD Binary Classification (Compliance)

AUC: ca. 0,98 – 0,99 (hervorragende Diskriminierungsfähigkeit trotz Ungleichgewicht).
F1-Score: 0,22 – 0,30 (abhängig vom Positiv-Gewicht).
Recall: Bei hohem Positiv-Gewicht (w=200) erreicht das Modell einen Recall von ~98 %, was für Compliance-„Screener" (Vermeidung von False Negatives) ideal ist, auch auf Kosten der Präzision.

Triage-Leistung

Das Fuzzy-Modell kann 96–98 % der Fälle automatisch entscheiden (Auto-Compliant oder Auto-Noncompliant).
Die Fehlerrate innerhalb dieser automatisierten Bereiche bleibt strikt unter 2 % (z. B. 1,15 % bei w=0, 3,18 % bei w=200, wobei der Wert bei w=200 durch die extreme Recall-Orientierung bedingt ist).
Unsichere Fälle werden gezielt in den menschlichen Review-Bereich geleitet.

5. Bedeutung und Fazit

Das Papier argumentiert, dass für hochriskante Compliance-Anwendungen kleine, deterministische Modelle oft besser geeignet sind als große, nicht-deterministische LLMs.

Auditierbarkeit: Da das System aus festen Parametern und klaren Schwellenwerten besteht, können Regulierungsbehörden und Prüfer den gesamten Prozess nachvollziehen und bei gleichen Eingaben exakt die gleichen Ergebnisse reproduzieren.
Erklärbarkeit: Die Aufteilung in drei klare Bereiche (Auto-Compliant, Review, Auto-Noncompliant) ermöglicht es Teams, Restrisiken zu dokumentieren und menschliche Ressourcen gezielt einzusetzen.
Praktischer Nutzen: Der Ansatz bietet einen „mittleren Weg" zwischen starren, manuellen Regeln und undurchsichtigen KI-Modellen. Er ist leicht zu implementieren, benötigt wenig Rechenleistung (ein A100 reicht) und liefert signifikante Verbesserungen gegenüber Baselines.

Zukunftsausblick: Die Autoren schlagen vor, stärkere Encoders, gelernte Triage-Richtlinien (z. B. conformal prediction) und Fairness-Audits pro Mandant zu integrieren, um das System weiter zu verfeinern.

Kernaussage: Ein einfacher, deterministischer Dual-Encoder mit transparenter Fuzzy-Triage liefert bereits jetzt nützliche, reproduzierbare Signale für die rechtliche Compliance und bietet eine deutlich bessere Grundlage für Erklärbarkeit und regulatorische Konformität als nicht-deterministische LLM-Copiloten.