Ursprüngliche Autoren: Hejia Geng, Leo Liu

Veröffentlicht 2026-06-04✓ Author reviewed ⓘ

📖 5 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Hejia Geng, Leo Liu

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie stellen einen brillanten, superschnellen Jura-Studenten ein, um Ihnen bei einem riesigen Rechtsfall zu helfen. Dieser Student hat jedes Buch in der Bibliothek gelesen und kann in Sekundenschnelle einen perfekten Satz schreiben. Doch wenn Sie ihn bitten, einen ganzen Fall von Anfang bis Ende zu bearbeiten, übersieht er oft kleine, aber kritische Details: Er vergisst eine Frist, zählt einen Dollarbetrag falsch oder versäumt es, die spezifische Seite anzugeben, auf der ein Gesetz steht.

Dieses Papier, „Parthenon Law“, argumenttiert, dass das Problem nicht darin besteht, dass der „Student“ (das KI-Modell) nicht klug genug ist. Das Problem ist, dass das Arbeitssystem um ihn herum defekt ist.

Hier ist die Aufschlüsselung ihrer Lösung, unter Verwendung einfacher Analogien:

1. Das Problem: Der „brillante, aber abgelenkte Praktikant“

Die Autoren testeten die klügsten verfügbaren KI-Modelle bei 12.510 realen juristischen Aufgaben (wie der Prüfung von Verträgen oder der Analyse von Gerichtsterminen).

Das Ergebnis: Selbst die klügsten KIs konnten 80–90 % der einzelnen Fragen richtig beantworten. Aber in der Rechtswelt reicht es nicht aus, 90 % richtig zu machen. Wenn man eine Frist oder eine Zitierung verpasst, ist das gesamte Dokument unbrauchbar.
Die Analogie: Stellen Sie sich einen Koch vor, der Gemüse perfekt schneiden und ein Steak perfekt würzen kann. Aber wenn er vergisst, den Ofen einzuschalten, ist die Mahlzeit ruiniert. Der „Ofen“ (der Prozess) fehlte, nicht die Fähigkeiten des Kochs.

2. Die Lösung: Das „Parthenon“-Framework

Die Autoren entwickelten ein neues System namens Parthenon. Anstatt die KI einfach nur die „Arbeit erledigen“ zu lassen, bauten sie eine starre, sechsschichtige „Werkstatt“ um die KI herum auf. Denken Sie daran wie beim Bau einer hochtechnisierten Fabrikhalle um einen Roboter herum.

Das Framework besteht aus drei Hauptteilen:

Die „Checkliste“ (Fähigkeiten & Werkzeuge):
Bevor die KI auch nur ein einziges Wort schreibt, wird sie gezwungen, spezifische Werkzeuge zu benutzen. Sie darf ein Datum nicht einfach nur „raten“; sie muss ein „Datumskalkulator“-Tool verwenden. Sie kann ein Gesetz nicht einfach nur „finden“; sie muss ein „Suchwerkzeug“ benutzen, das sie dazu zwingt, ihren Rechenweg offenzulegen.
- Analogie: Es ist, als würde man dem Praktikanten eine Checkliste geben, die besagt: „1. Prüfe den Kalender. 2. Zähle das Geld. 3. Finde die Quelle. 4. Verifiziere die Zahlen.“ Er kann keinen Schritt überspringen.
Das „Drei-Köpfe-Monster“ (Löser, Evaluator, Lerner):
Das System teilt die Arbeit in drei unterschiedliche Rollen auf, die nicht so miteinander kommunizieren, dass Betrug entstehen kann:
1. Der Löser (Solver): Erstellt den eigentlichen Entwurf.
2. Der Evaluator (Bewertungsinstanz): Ein separater „Richter“, der den Entwurf nach der Fertigstellung gegen die Regeln prüft.
3. Der Lerner (Learner): Ein Mechaniker, der sich die Notizen des „Richters“ ansieht und die Checkliste oder die Werkzeuge für das nächste Mal verbessert.
- Analogie: Der Löser schreibt den Aufsatz. Der Evaluator bewertet ihn. Der Lerner ändert nicht den Aufsatz, sondern schreibt statweise die Anweisungen für den nächsten Studenten um, damit dieser denselben Fehler nicht wiederholt.
Die „Anti-Betrugs-Regel“ (Anti-Leakage):
Dies ist entscheidend. Das System lernt aus seinen Fehlern, es ist jedoch strengstens untersagt, die Antworten auf die spezifischen Testfragen auswendig zu lernen.
Analogie: Wenn der Praktikant eine Mathearbeit verhaut, lehrt das System ihn nicht, dass „die Antwort auf Frage 5 die Zahl 42 ist“, sondern lehrt ihn, wie man besser schriftlich dividiert. Dies stellt sicher, dass das System allgemein klüger wird, anstatt nur den Test auswendig zu lernen.

3. Die Ergebnisse: „Besserer Prozess, nicht nur klügere Gehirne“

Die Autoren ließen dieselben KI-Modelle mit und ohne dieses neue „Parthenon“-Workshop laufen.

Ohne Parthenon: Die KI war wie ein schnelles Auto ohne Bremsen. Sie war schnell, krachte aber oft zusammen.
Mit Parthenon: Die KI wurde zu einem zuverlässigen Lieferwagen. Sie folgte der Route, überprüfte die Ladung und kam sicher an.

Die magische Zahl: Das Hinzufügen dieses Frameworks verbesserte die Leistung der KI etwa um denselben Betrag, wie es die Aufrüstung auf ein viel teureres, „klügeres“ KI-Modell tun würde. Tatsächlich war ein günstigeres KI-Modell mit dem Parthenon-System leistungsfähiger als ein Top-Tier-KI-Modell ohne es.

4. Das Fazit: Der „Co-Pilot“

Die Autoren kommen zu dem Schluss, dass dieses System kein Ersatz für menschliche Juristen ist.

Die Realität: Selbst mit dem Parthenon-System macht die KI immer noch etwa 10 % der winzigen Details falsch.
Die Rolle: Die KI ist nun ein „Super-Entwurfsverfasser“. Sie erledigt 90 % der schweren Arbeit, prüft ihre eigene Arbeit und markiert die verbleibenden 10 % zur Überprüfung durch einen menschlichen Anwalt.
Der Nutzen: Anstatt dass ein Mensch 12 Stunden damit verbringt, ein Dokument von Grund auf neu zu entwerfen, kann er 10 Minuten damit verbringen, einen Entwurf zu prüfen, der bereits zu 90 % perfekt und durch die tatsächlichen Beweise fundiert ist.

Kurz gesagt: Parthenon macht die KI nicht auf magische Weise „schlauer“; es zwingt sie lediglich dazu, aufzuhören zu raten und stattdenweise einem strengen, prüfbaren und selbstverbessernden Satz von Regeln zu folgen. Es verwandelt eine chaotische Brainstorming-Sitzung in einen disziplinierten juristischen Arbeitsablauf.

Technisches Resümee: Parthenon Law: Ein selbstentwickelndes Framework für juristische Agenten

1. Problemstellung

Der Einsatz von Large Language Model (LLM)-Agenten in der juristischen Praxis steht trotz des Potenzials, dokumentenintensive Angelegenheiten in überprüfbare Arbeitsergebnisse zu verwandeln, vor drei kritischen Hindernissen:

Mangel an empirischen Belegen: Es gibt keine groß angelegte Datenlage darüber, wie aktuelle State-of-the-Art Modell-und-Harness-Kombinationen bei End-to-End-Rechtsangelegenheiten abschneiden.
Architektonische Diskrepanz: Bestehende Agenten-Architekturen sind allgemeine Zweck-Harnesses, die nicht an die spezifischen Invarianten des juristischen Vertikals (z. B. strikte Fristen, Quellentransparenz und Erfüllung von Deliverables) angepasst sind.
Statische Systeme: In einem Bereich, in dem sich Fakten, Autoritäten und Fristen ständig ändern, fehlt ein Mechanismus, mit dem Systeme aus ihren eigenen Ergebnissen lernen können, ohne die Modellgewichte feinabzustimmen oder das Risiko von Datenlecks einzugehen.

Aktuelle Auswertungen zeigen, dass zwar stärkere Modelle die Genauigkeit pro Kriterium verbessern, sie jedoch nicht in der Lage sind, eine „strikte Angelegenheitsabschluss-Qualität“ (das Bestehen aller Kriterien für eine einzelne Angelegenheit) zu erreichen. Häufige Fehlermuster sind unvollständige Quellenabdeckung, verlorene quantitative Details, fehlerhafte Deliverables und eine schwache Fundierung. Der Engpass wird nicht allein in der Modellkapazität identifiziert, sondern im Fehlen eines strukturierten juristischen Arbeitssystems, das das Modell umgibt.

2. Methodik: Das PARTHENON-Framework

Die Autoren führen PARTHENON ein, ein sechsschichtiges, selbstentwickelndes Framework für juristische Agenten, das darauf ausgelegt ist, bestehende Workspace-Runtimes mit juristischen Kontrollen zu umschließen. Die Architektur ist um Attribution und Auditierbarkeit organisiert:

2.1 Architekturschichten

Modellschicht (Model Layer): Ein austauschbarer Kapazitätsanbieter (z. B. GPT, Claude, Gemini), der es ermöglicht, Angelegenheiten nach Fachgebieten zu routen, ohne das System an ein einzelnes Modell zu binden.
Harness-Schicht (Harness Layer): Der beobachtbare Ausführungsvertrag (z. B. Codex, Claude Code, OpenCode), der Workspace, Werkzeugzugriff und Trace-Erfassung bereitstellt. PARTHENON behandelt dies als austauschbar und umschließt es mit juristischer Spezialisierung.
Agentenschicht (Agent Layer): Definiert strikte Rollengrenzen, um Informationslecks zu verhindern:
- Solver: Erstellt das Arbeitsergebnis unter Verwendung von Aufgaben, Quellen, Fähigkeiten und Werkzeugen.
- Evaluator: Bewertet das fertige Werk gegen eine Rubrik außerhalb des Kontextes des Solvers, um Auswendiglernen zu verhindern.
- Learner: Schlägt aufgabenagnostische Änderungen am Harness basierend auf redigierten Traces und aggregierten Signalen vor.
Wissensschicht (Knowledge Layer): Speichert dauerhaftes juristisches Gedächtnis (Statuten, Fristen, Schemata, Kalender, Synonyme) als Daten, nicht als Prompt-Text. Dies sind allgemeine Objekte, die explizit keine angelegenheitsspezifischen Fakten oder Benchmark-Antworten enthalten, um Datenlecks zu vermeiden.
Werkzeugschicht (Tools Layer): Überführt wiederkehrende juristische Anforderungen in deterministische, interpretierbare Operationen (z. B. Datumsberechnung, Zitierprüfung, Zahlenabgleich). Diese ersetzen das implizite Modellgedächtnis durch ausführbaren Code.
Fähigkeitsschicht (Skills Layer): Enthält rubrikblinde prozedurale Pläne (z. B. Triage, Lebenszyklus einer Angelegenheit, obligatorische Werkzeugaufrufe), die nach der Klasse der Angelegenheit ausgewählt werden. Diese Schicht verwandelt empirische Fehler in wiederverwendbare Prozeduren.

2.2 Die selbstentwickelnde Schleife (Self-Evolving Loop)

PARTHENON implementiert eine kontrollierte Optimierungsschleife, die den Harness aktualisiert, anstatt die Modellgewichte:

Ausführung (Execution): Der Solver erstellt einen Entwurf.
Evaluierung (Evaluation): Der Evaluator bewertet den Entwurf gegen eine verborgene Rubrik und generiert Feedback.
Lernen (Learning): Der Learner erhält redigierte Fehlertrajektorien (bereinigt um Aufgaben-IDs, Rubrik-Phrasen und Kundendaten) und schlägt Änderungen für die Wissens-, Werkzeug- oder Fähigkeitsschicht vor.
Kontrolle (Gating): Änderungen werden nur zugelassen, wenn sie verallgemeinerbar sind, statische Sicherheitsprüfungen bestehen und die Erfolgsrate pro Aufgabe strikt verbessern. Dieses „Anti-Leakage“-Protokoll stellt sicher, dass das System prozedurale Verbesserungen lernt und nicht Benchmark-Signale auswendig lernt.

3. Experimenteller Aufbau

Benchmark: Harvey LAB, ein Korpus von 1.251 Angelegenheiten aus 24 Fachgebieten, bestehend aus Quelldokumenten, Deliverables und Expertenrubriken.
Baselines: Evaluierung über vier Ausführungsfamilien: Direkte API-Prompting, ein grundlegendes juristisch-natives Harness sowie die Workspace-Harnesses Codex und Claude Code.
Modelle: Getestet über drei Modell-Tiers (GPT-5.4-mini, GPT-5.5 und Claude Sonnet 4.6/Haiku 4.5).
Metriken:
- Kriteriumsgenauigkeit (Criterion Accuracy): Der Anteil aller erfüllten Rubrik-Kriterien.
- All-Pass: Der strikte Anteil der Angelegenheiten, bei denen jedes Kriterium erfüllt wurde.

4. Kernergebnisse

4.1 Leistungssteigerung

Bei festem Modell und Agent-Harness liefert das Hinzufügen von PARTHENON Leistungssteigerungen, die mit einem Upgrade des Basismodells vergleichbar sind:

Genauigkeitsgewinne: PARTHENON steigerte die gepoolte Kriteriumsgenauigkeit um +13,8, +10,2 und +7,4 Prozentpunkte über die drei Modell-Tiers hinweg und erreichte Werte von 82,0 %, 89,9 % und 90,2 %.
Strikter Abschluss (Strict Completion): Bei schwächeren Solvern verdreifachte sich der strikte All-Pass-Abschluss in etwa (z. B. von 14 auf 42 Angelegenheiten bei GPT-5.4-mini).
Fehlerreduktion: Das Framework reduzierte mechanische Fehler (fehlende Fakten, Zahlen/Daten, Form der Deliverables) signifikant, die zuvor die Baseline-Fehler dominierten.

4.2 Verbesserungsmechanismus

Aktionsmix: Die Verbesserung wird durch eine neue „Tool/Script“-Kategorie von Aktionen (z. B. obligatorische Audits, Schema-Füllungen) getrieben, statt durch erhöhte Textgenerierung. Baseline-Agenten waren textlastig; PARTHENON-Agenten führen strukturierte Inspektionen und Validierungen durch.
Kosteneffizienz: Für den teuersten Solver (GPT-5.5) senkte PARTHENON die Kosten pro Angelegenheit sogar (1,51 $→ 1,29$ ), während die Genauigkeit stieg, da der Audit-Zyklus kürzere, präzisere Outputs produzierte. Für günstigere Solver war der Kostenanstieg im Verhältnis zum Genauigkeitsgewinn minimal.
Ablationsstudien:
- Optimierung: Die Selbstverbesserungsschleife konvergiert zu einem transferierbaren Harness; verschiedene Solver konvergieren zu ähnlichen Genauigkeitsniveaus.
- Reasoning-Aufwand (Reasoning Effort): Eine Erhöhung des rohen Inferenzbudgets (Reasoning Effort) lieferte unzuverlässige Ergebnisse, während prozedurale Kontrollen verlässliche Gewinne brachten.
- Dokument-Zusammenfassungen: Das Hinzufügen von gecashten Dokumentenzusammenfassungen verbesserte die Leistung bei langen Inputs nicht; der Engpass war die prozedurale Disziplin, nicht die Input-Länge.

4.3 Menschlicher Vergleich

Im Vergleich zu einem „Release-Standard“, der die menschliche juristische Prüfung (100 % Genauigkeit) approximiert:

Genauigkeit: Selbst die stärkste PARTHENON-Konfiguration (90,2 % Kriteriumsgenauigkeit) erfüllt jedes Kriterium in nur etwa 12 % der Fälle, was zeigt, dass es sich um einen Entwurfsassistenten handelt, nicht um einen autonomen Anwalt.
Zeit & Kosten: Das System bietet einen massiven Effizienzvorteil. Die geschätzte Zeit pro Angelegenheit sinkt von ~12,6 Stunden (Mensch) auf ~10 Minuten (KI), und die Kosten sinken von ~$4.399 auf ~$0,81.

5. Bedeutung und Behauptungen

Das Paper behauptet, dass die primäre Barriere für zuverlässige Rechts-KI prozeduraler Natur ist, nicht parametrisch. Stärkere Modelle scheitern an juristischer Arbeit, weil ihnen ein strukturiertes System fehlt, um professionelle Invarianten (Fristen, Zitate, Fundierung) durchzusetzen.

Wesentliche Beiträge:

Empirische Analyse: Eine groß angelegte Studie von 12.510 Agenten-Trajektorien auf Harvey LAB, die zeigt, dass der strikte Abschluss von Angelegenheiten selbst bei Frontier-Modellen niedrig bleibt.
PARTHENON-Framework: Eine sechsschichtige Architektur, die Modellkapazität von juristischem Gedächtnis, Werkzeugen und prozeduralen Fähigkeiten trennt und somit Fehler auditierbar und editierbar macht.
Selbstentwickelnde Schleife: Ein Mechanismus, um scored Fehler in aufgabenagnostische Harness-Updates umzuwandeln, ohne Modelle feinabzustimmen oder Benchmark-Daten zu leaken.

Fazit:
Die Autoren kommen zu dem Schluss, dass PARTHENON die Rolle der juristischen KI von „Entwerfen von Grund auf“ zu „Überprüfen eines quellenbasierten, audit-markierten ersten Entwurfs“ transformiert. Durch die Einbettung von Solvern in einen auditierbaren juristischen Harness erzielt das System Gewinne, die mit Modell-Upgrades vergleichbar sind, und überträgt diese über verschiedene Modellfamilien hinweg. Die Bedeutung liegt in der Demonstration, dass Zuverlässigkeit in Hochrisikodomänen durch externe, inspizierbare prozedurale Kontrollen erreicht werden kann, anstatt sich allein auf die Erhöhung der Modellskalierung zu verlassen.

Parthenon Law: A Self-Evolving Legal-Agent Framework