A Two-Stage Architecture for NDA Analysis: LLM-based Segmentation and Transformer-based Clause Classification

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein Anwalt oder eine Geschäftsperson, die jeden Tag Dutzende von Geheimhaltungsvereinbarungen (NDAs) erhält. Diese Dokumente sind wie riesige, unordentliche Bibliotheken: Sie sehen alle unterschiedlich aus, haben verschiedene Schriftarten, Tabellen und Absätze, die durcheinandergeraten sind.

Normalerweise müssten Sie diese Dokumente manuell durchlesen, um herauszufinden:

Wo fängt ein wichtiger Abschnitt an und wo hört er auf? (Das ist die Segmentierung).
Was sagt dieser Abschnitt eigentlich? Ist es eine Regel für "Vertraulichkeit", eine "Haftungsklausel" oder etwas über "Geistiges Eigentum"? (Das ist die Klassifizierung).

Das manuelle Durchforsten dieser "Bücher" ist langsam, mühsam und fehleranfällig. Genau hier kommt die in diesem Papier vorgestellte zweistufige KI-Architektur ins Spiel. Man kann sich das wie ein hochspezialisiertes Zwei-Personen-Team vorstellen:

1. Der "Scharfsichtige Schere-Träger" (Die Segmentierung)

Die Aufgabe: Dieser Teil der KI muss das riesige, unstrukturierte Dokument in sinnvolle Häppchen schneiden.
Das Werkzeug: Ein sehr großes und kluges Sprachmodell namens LLaMA-3.1.
Die Analogie: Stellen Sie sich vor, Sie haben einen riesigen, zusammengeklebten Papierstreifen mit Text darauf. Ein normaler Computer würde raten, wo die Schnitte sein sollen. Unser "Schere-Träger" (LLaMA) ist aber wie ein erfahrener Bibliothekar, der sofort erkennt: "Aha, hier beginnt ein neuer Absatz, hier endet eine Regel." Er schneidet den Text präzise in einzelne Klauseln.

Das Ergebnis: Das System war extrem präzise. Es hat fast perfekt (zu 95 %) erkannt, welche Wörter zu welcher Klausel gehören, ohne wichtige Informationen zu verlieren oder falsche Schnitte zu machen.

2. Der "Erfahrene Klassifizierer" (Die Einordnung)

Die Aufgabe: Sobald die KI die Textstücke in Häppchen geschnitten hat, muss sie jedem Häppchen ein Etikett geben.
Das Werkzeug: Ein spezialisiertes, trainiertes Modell namens Legal-Roberta.
Die Analogie: Nehmen wir an, Sie haben einen Haufen unsortierter Briefe. Der "Schere-Träger" hat sie in einzelne Blätter getrennt. Jetzt kommt der "Klassifizierer" ins Spiel. Er nimmt jedes Blatt, liest es schnell und klebt ein farbiges Etikett darauf: "Das ist eine Haftungs-Klausel (Rot)", "Das ist eine Laufzeit-Regel (Blau)" oder "Das ist Geistiges Eigentum (Grün)".

Die Herausforderung: Manche Etiketten kommen sehr oft vor (wie "Vertraulichkeit"), andere sind sehr selten. Das ist wie ein Spiel, bei dem man 50-mal "Apfel" und nur 2-mal "Kaktus" finden muss. Das System hat gelernt, die häufigen Dinge fast perfekt zu erkennen (85 % Trefferquote bei den wichtigen Kategorien), hat aber bei den sehr seltenen "Kaktus"-Fällen noch etwas Schwierigkeiten.

Wie funktioniert das Ganze technisch? (Vereinfacht)

Die Autoren haben ein System gebaut, das wie eine Fließbandarbeit funktioniert:

Eingang: Das ganze NDA-Dokument wird hereingeschoben.
Station 1 (LLaMA): Der "Schere-Träger" schneidet alles in sinnvolle Sätze und Absätze.
Station 2 (Legal-Roberta): Der "Klassifizierer" liest jeden einzelnen Schnitt und gibt ihm den passenden Namen.
Ausgang: Sie erhalten eine saubere Liste: "Klausel 1: Vertraulichkeit", "Klausel 2: Laufzeit", "Klausel 3: Haftung".

Warum ist das wichtig?

Früher mussten Menschen stundenlang in diesen "Wüsten von Text" herumstochern. Mit diesem System wird die Arbeit wie das Sortieren von Wäsche mit einem intelligenten Roboter:

Er findet die Socken (Klauseln) sofort.
Er weiß genau, welche Socke zu welchem Paar gehört (Klassifizierung).
Er macht das viel schneller und vergisst weniger Details als ein müder Mensch.

Das Fazit:
Die Forscher haben bewiesen, dass man mit moderner KI (LLMs) und spezialisierten Trainern (BERT-Modellen) diese chaotischen juristischen Dokumente automatisch und sehr genau in Ordnung bringen kann. Es ist ein großer Schritt, um Anwälte von der langweiligen "Papierarbeit" zu befreien, damit sie sich auf das wirklich Wichtige konzentrieren können: die Strategie und die Beratung.

Ein kleiner Haken: Da Geheimhaltungsvereinbarungen per Definition geheim sind, gab es nur wenige Beispiele zum Trainieren. Das System ist also schon sehr gut, könnte aber durch noch mehr Trainingsdaten (vielleicht künstlich erzeugte Beispiele) noch besser werden.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „A Two-Stage Architecture for NDA Analysis: LLM-based Segmentation and Transformer-based Clause Classification" auf Deutsch:

1. Problemstellung

In Geschäftsbeziehungen (B2B) sind Geheimhaltungsvereinbarungen (Non-Disclosure Agreements, NDAs) üblich. Die manuelle Analyse dieser Dokumente ist jedoch langsam, fehleranfällig und ineffizient, da NDAs erhebliche Variationen in Format, Struktur und Schreibstil aufweisen.

Herausforderungen: Fehlende Standardisierung, domänenspezifische Fachbegriffe, Mehrdeutigkeiten und die hohe Anzahl zu prüfender Verträge erhöhen das Risiko, rechtliche Inkonsistenzen zu übersehen.
Ziel: Automatisierung der Analyse von NDAs, insbesondere der Segmentierung (Extrahierung einzelner Klauseln) und der Klassifizierung dieser Klauseln in rechtliche Kategorien, um den manuellen Aufwand zu reduzieren und die Konsistenz zu erhöhen.

2. Methodik

Die Autoren schlagen eine Zwei-Phasen-Architektur vor, die mit LangGraph implementiert wurde und zwei Hauptkomponenten umfasst:

A. Segmentierungs-Komponente (Segmenter)

Aufgabe: Zerlegung des gesamten NDA-Dokuments in einzelne, logische Klauseln.
Modell: LLaMA-3.1-8B-Instruct.
Infrastruktur: Einsatz von vLLM (Virtual LLM) für effizientes Inference und Speichermanagement (PagedAttention), um lange Dokumentkontexte zu verarbeiten.
Herausforderung: NDAs haben keine einheitliche Struktur. Das Modell musste durch Prompt-Engineering (499-Token-Prompt) angewiesen werden, Klauselgrenzen trotz variierender Layouts (z. B. Tabellen, Überschriften) korrekt zu erkennen.
Evaluation: Da die Anzahl der generierten Klauseln ( $N$ ) nicht immer der Anzahl der Referenzklauseln ( $M$ ) entspricht, wurde der Needleman-Wunsch-Algorithmus (ursprünglich für biologische Sequenzalignment) verwendet, um generierte und annotierte Klauseln optimal abzugleichen. Dies reduzierte die rechenintensive paarweise Vergleichszahl um ca. 92,5 %.

B. Klassifizierungs-Komponente (Classifier)

Aufgabe: Zuweisung von semantischen Kategorien zu den extrahierten Klauseln (Multi-Label-Klassifikation).
Modell: Legal-Roberta-Base (eine auf juristische Texte spezialisierte Variante von RoBERTa), die feinabgestimmt (fine-tuned) wurde.
Datensatz: Verwendung des öffentlichen Kleister-NDA-Datensatzes (726 Dokumente, davon 322 manuell annotiert mit 3.714 Klauseln).
Klassen: 14 Kategorien (z. B. Parteienidentifikation, Zweck, Art der NDA, Vertraulichkeitspflichten, Haftung, etc.).
Besonderheit: Das Problem ist multi-label (eine Klausel kann mehreren Klassen angehören) und stark unausgewogen (Klasse 14 macht ~49 % aus, während einige Klassen <100 Beispiele haben).
Training: Einsatz von Focal Loss ( $\alpha=0.25, \gamma=2$ ) zur Bewältigung der Klassenungleichheit.

3. Wichtige Beiträge

Architektur-Design: Eine modulare Zwei-Phasen-Pipeline, die die Stärken von LLMs (Kontextverständnis, lange Texte) für die Segmentierung mit der Effizienz von spezialisierten BERT-Modellen für die Klassifizierung kombiniert.
Neuartige Evaluierungsmethode: Die Anwendung des Needleman-Wunsch-Algorithmus zur Lösung des Problems der nicht-linearen Zuordnung zwischen generierten und referenziellen Klauseln bei der Segmentierung.
Umgang mit Datenknappheit: Bewältigung der Schwierigkeit, annotierte NDA-Daten zu erhalten, und Entwicklung robuster Strategien für unausgewogene Datensätze im juristischen Bereich.
Infrastruktur: Demonstration der Effizienz von vLLM für die Verarbeitung langer juristischer Dokumente in Produktionsumgebungen.

4. Ergebnisse

Segmentierung (Segmenter)

Die Ergebnisse zeigen eine hohe Präzision und Vollständigkeit:

ROUGE-F1-Score: $0,95 \pm 0,0036$ (auf Klausel-Ebene).
Faktische Korrektheit (Factual Correctness): $0,95 \pm 0,0044$ (garantiert, dass keine Informationen verloren gehen).
Semantische Ähnlichkeit: $0,98 \pm 0,0027$ (hohe Übereinstimmung in der Bedeutung).
Beobachtung: Das Modell behält die Informationsvollständigkeit des Originaltextes bei, auch wenn es Schwierigkeiten hatte, Tabellen und Header exakt zu reproduzieren.

Klassifizierung (Classifier)

Aufgrund der Klassenungleichheit zeigen die Metriken ein differenziertes Bild:

Weighted F1-Score: $0,85$ (Testset). Dies zeigt eine gute Gesamtleistung, da häufige Klassen gut erkannt werden.
Macro F1-Score: $0,69$ (Testset). Der niedrigere Wert resultiert aus der schlechteren Erkennung seltener Klassen (<100 Beispiele).
Hamming Loss: $0,03$ (sehr niedrig, wenige Fehler pro Label).
Matthews Correlation Coefficient (MCC): $0,84$ (starke Korrelation zwischen Vorhersage und Wahrheit).

5. Bedeutung und Ausblick

Praktische Relevanz: Die vorgestellte Architektur reduziert den manuellen Aufwand für Rechtsabteilungen erheblich und erhöht die Zuverlässigkeit der Vertragsprüfung. Sie ist skalierbar und auf andere Vertragstypen erweiterbar.
Limitationen: Die Leistung bei seltenen Klassen ist aufgrund der Datenknappheit begrenzt. Die manuelle Annotation ist zeitaufwendig und teuer.
Zukünftige Arbeiten:
- Verbesserung der Klassifizierung durch Data Augmentation und Paraphrasierung mit generativen Modellen.
- Integration weiterer Agenten für die automatische Korrektur und Überprüfung von Inkonsistenzen in NDAs.
- Erweiterung des Systems um Funktionen zur Vertragsrevision.

Fazit: Das Paper demonstriert erfolgreich, wie moderne LLMs und spezialisierte Transformer-Modelle kombiniert werden können, um komplexe juristische Textaufgaben wie die Segmentierung und Klassifizierung von NDAs mit hoher Präzision zu automatisieren, trotz der Herausforderungen durch unstrukturierte Daten und Klassenungleichgewicht.