Oorspronkelijke auteurs: Hejia Geng, Leo Liu

Gepubliceerd 2026-06-04✓ Author reviewed ⓘ

📖 5 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Hejia Geng, Leo Liu

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je een briljante, razendsnelle rechtenstudent inhuurt om je te helpen bij een enorme juridische zaak. Deze student heeft elk rechtboek in de bibliotheek gelezen en kan in enkele seconden een perfecte zin schrijven. Echter, wanneer je hen vraagt om een hele zaak van begin tot eind af te handelen, missen ze vaak kleine maar cruciale details: ze vergeten een deadline, tellen een dollarbedrag verkeerd of verzuimen de specifieke pagina te citeren waar een wet wordt beschreven.

Dit artikel, "Parthenon Law," betoogt dat het probleem niet is dat de "student" (het AI-model) niet slim genoeg is. Het probleem is dat het werkproces om hen heen kapot is.

Hier is de uiteenzetting van hun oplossing, gebruikmakend van eenvoudige analogieën:

1. Het Probleem: De "Briljante maar Afgeleide Stagiair"

De auteurs testten de slimste beschikbare AI-modellen op 12.510 echte juridische taken (zoals het beoordelen van contracten of het analyseren van gerechtelijke deadlines).

Het resultaat: Zelfs de slimste AI's behaalden 80–90% van de individuele vragen goed. Maar in de juridische wereld is het goed hebben van 90% niet genoeg. Als je één deadline of één citatie mist, is het hele document waardeloos.
De analogie: Stel je een chefkok voor die perfect groenten kan snijden en een biefstuk perfect kan kruiden. Maar als hij vergeet de oven aan te zetten, is de maaltijd verpest. De "oven" (het proces) ontbrak, niet de vaardigheden van de chef.

2. De Oplossing: Het "Parthenon"-framework

De auteurs bouwden een nieuw systeem genaamd Parthenon. In plaats van de AI simpelweg te vragen om "het werk te doen," bouwden ze een rigide, zeslaagse "werkplaats" rond de AI. Denk aan het bouwen van een hoogtechnologische fabrieksvloer rond een robot.

Het framework heeft drie hoofdonderdelen:

De "Checklist" (Vaardigheden & Tools):
Voordat de AI ook maar één woord schrijft, wordt het gedwongen specifieke tools te gebruiken. De AI kan niet zomaar een datum "raden"; het moet een "Datumcalculator"-tool gebruiken. Het kan niet zomaar "een wet vinden"; het moet een "Zoektool" gebruiken die het dwingt om zijn werk te bewijzen.
- Analogie: Het is alsof je de stagiair een checklist geeft met: "1. Controleer de kalender. 2. Tel het geld. 3. Zoek de bron. 4. Verifieer de cijfers." Ze kunnen een stap niet overslaan.
Het "Driehoofdige Monster" (Solver, Evaluator, Learner):
Het systeem splitst het werk op in drie verschillende rollen die niet op een manier met elkaar communiceren die tot valsspelen leidt:
1. De Solver: Doet de eigenlijke conceptvorming.
2. De Evaluator: Een aparte "rechter" die het concept beoordeelt tegen de regels nadat het klaar is.
3. De Learner: Een monteur die naar de aantekeningen van de "rechter" kijkt en de checklist of de tools voor de volgende keer aanpast.
- Analogie: De Solver schrijft het essay. De Evaluator beoordeelt het. De Learner verandert niet het essay, maar herschrijft in plaats daarvan de instructies voor de volgende student, zodat deze dezelfde fout niet meer maakt.
De "Anti-Cheating" Regel (Anti-Leakage):
Dit is cruciaal. Het systeem leert van zijn fouten, maar het is strikt verboden om de antwoorden op de specifieke testvragen te onthouden.
- Analogie: Als de stagiair faalt voor een wiskundetoets, leert het systeem hen niet alleen de antwoorden, maar leert het hen hoe ze beter lang delen kunnen doen. Het leert hen niet dat "het antwoord op vraag 5 het getal 42 is." Dit zorgt ervoor dat het systeem algemeen slimmer wordt, in plaats van alleen maar de test uit het hoofd te leren.

3. De Resultaten: "Beter Proces, Niet Alleen Slimmere Breinen"

De auteurs draalden dezelfde AI-modellen met en zonder dit nieuwe "Parthenon"-workshop.

Zonder Parthenon: De AI was als een snelle auto zonder remmen. Hij ging hard, maar crashte vaak.
Met Parthenon: De AI werd een betrouwbare bezorgwagen. Hij volgde de route, controleerde de lading en kwam veilig aan.

Het Magische Getal: Het toevoegen van dit framework verbeterde de prestaties van de AI met ongeveer evenveel als het upgraden naar een veel duurdere, "slimmere" AI-model. Sterker nog, een goedkoper AI-model met het Parthenon-systeem presteerde beter dan een topmodel zonder het.

4. De Kernboodschap: De "Co-Pilot"

De paper concludeert dat dit systeem geen vervanging is voor menselijke juristen.

De Realiteit: Zelfs met het Parthenon-systeem maakt de AI nog steeds ongeveer 10% van de kleine details fout.
De Rol: De AI is nu een "super-conceptschrijver". Het doet 90% van het zware werk, controleert eigen werk en markeert de resterende 10% voor beoordeling door een menselijke jurist.
Het Voordeel: In plaats van dat een mens 12 uur besteedt aan het vanaf nul opstellen van een document, kan hij 10 minuten besteden aan het beoordelen van een concept dat al voor 90% perfect is en gebaseerd is op de werkelijke bewijslast.

Kortom: Parthenon maakt de AI niet op een magische manier "slimmer"; het dwingt de AI simpelweg om te stoppen met raden en te beginnen met het volgen van een strikte, controleerbare en zelfverbeterende set regels. Het verandelt een chaotische brainstormsessie in een gedisciplineerde juridische workflow.

Technische Samenvatting: Parthenon Law: Een Zelfevoluerend Juridisch-Agent Framework

1. Probleemstelling

De inzet van Large Language Model (LLM) agents in de juridische praktijk staat voor drie kritieke obstakels, ondanks het potentieel om documentintensieve zaken te transformeren naar controleerbare werkproducten:

Gebrek aan empirisch bewijs: Er is geen grootschalige data over hoe huidige state-of-the-art model-en-harness-combinaties presteren op end-to-end juridische zaken.
Architecturale mismatch: Bestaande agent-architecturen zijn algemene werkruimte-harnesses die niet zijn aangepast aan de specifieke invarianten van de juridische verticale sector (bijv. strikte deadlines, brontraceerbaarheid en naleving van deliverables).
Statische systemen: In een domein waar feiten, autoriteiten en deadlines verschuiven, is er geen mechanisme voor systemen om te leren van hun eigen uitkomsten zonder de modelgewichten te finetunen of het risico op datalekken te lopen.

Huidige evaluaties tonen aan dat hoewel sterkere modellen de nauwkeurigheid per criterium verbeteren, ze er niet in slagen "strikte zaakvoltooiing" (het passeren van alle criteria voor een enkele zaak) te bereiken. Veelvoorkomende foutmodi zijn onvolledige brondekking, verloren kwantitatieve details, slecht gevormde deliverables en zwakke gronding. De bottleneck wordt geïdentificeerd als de afwezigheid van een gestructureerd juridisch werksysteem rondom het model, in plaats van enkel de modelcapaciteit zelf.

2. Methodologie: Het PARTHENON-framework

De auteurs introduceren PARTHENON, een zeslaags, zelfevoluerend juridisch-agent framework dat ontworpen is om bestaande workspace runtimes te omwikkelen met juridische specifieke controles. De architectuur is georganiseerd rond attributie en controleerbaarheid:

2.1 Architecturale lagen

Model-laag: Een vervangbare capaciteitsleverancier (bijv. GPT, Claude, Gemini) die routing van zaken per rechtsgebied mogelijk maakt zonder het systeem aan één specifend model te binden.
Harness-laag: Het observeerbare executiecontract (bijv. Codex, Claude Code, OpenCode) dat werkruimte, toegang tot tools en trace-opname biedt. PARTHENON behandelt dit als vervangbaar en omwikkelt het met juridische specialisatie.
Agent-laag: Definieert strikte rolgrenzen om informatielekken te voorkomen:
- Solver: Stelt het werkproduct op met behulp van taken, bronnen, vaardigheden en tools.
- Evaluator: Scoort het voltooide werk tegen een rubric buiten de context van de solver om memorisatie te voorkomen.
- Learner: Stelt taakonafhankelijke wijzigingen voor aan de harness op basis van gereduceerde traces en geaggregeerde signalen.
Kennis-laag: Slaat duurzaam juridisch geheugen op (wetten, deadlines, schema's, kalenders, synoniemen) als data, niet als prompt-tekst. Dit zijn algemene objecten die expliciet matter-specifieke feiten of benchmark-antwoorden uitsluiten om lekkage te voorkomen.
Tools-laag: Converteert terugkerende juridische vereisten naar deterministische, interpreteerbare operaties (bijv. datumarithmetiek, citatiecontroles, getalreconciliatie). Deze vervangen impliciet modelgeheugen door uitvoerbare code.
Skills-laag: Bevat rubric-blinde procedurele plannen (bijv. triage, levenscyclus van een kwestie, verplichte tool-aanroeping) die worden geselecteerd op basis van de klasse van de zaak. Deze laag zet empirische fouten om in herbruikbare procedures.

2.2 De zelfevoluerende loop

PARTHENON implementeert een gated optimalisatie-loop die de harness bijwerkt in plaats van de modelgewichten:

Executie: De Solver produceert een concept.
Evaluatie: De Evaluator scoort het concept tegen een verborgen rubric, wat feedback genereert.
Leren: De Learner ontvangt gereduceerde fouttrajecten (gestript van task ID's, rubric-frases en cliëntgegevens) en stelt wijzigingen voor aan de Knowledge, Tools of Skills lagen.
Gating: Wijzigingen worden alleen toegelaten als ze generaliseerbaar zijn, voldoen aan statische veiligheidscontroles en de per-taak pass rate strikt verbeteren. Dit "anti-lekkage" protocol zorgt ervoor dat het systeem leert van procedurele verbeteringen in plaats van het memoriseren van benchmark-signalen.

3. Experimentele opzet

Benchmark: Harvey LAB, een corpus van 1.251 zaken verspreid over 24 rechtsgebieden, inclusief brondocumenten, deliverables en expert-rubrics.
Baselines: Geëvalueerd over vier executiefamilies: Direct API prompting, een basis juridisch-native harness, en de Codex en Claude Code workspace harnesses.
Modellen: Getest over drie modeltiers (GPT-5.4-mini, GPT-5.5, en Claude Sonnet 4.6/Haiku 4.5).
Metrieken:
- Criterium Nauwkeurigheid: Het aandeel van alle door de rubric doorstane criteria.
- All-Pass: Het strikte aandeel van zaken waarbij elk criterium is doorstaan.

4. Belangrijkste resultaten

4.1 Prestatiewinst

Bij een vaste model- en agent-harness levert het toevoegen van PARTHENON prestatiewinsten op die vergelijkbaar zijn met het upgraden van het basismodel:

Nauwkeurigheidswinst: PARTHENON verhoogde de gecombineerde criterium nauwkeurigheid met +13,8, +10,2 en +7,4 procentpunten over de drie modeltiers, bereikend respectievelijk 82,0%, 89,9% en 90,2%.
Strikte Voltooiing: Bij zwakkere solvers verdrievoudigde de strikte all-pass voltooiing ongeveer (bijv. van 14 naar 42 zaken voor GPT-5.4-mini).
Foutreductie: Het framework verminderde mechanische fouten (ontbrekende feiten, getallen/data, vorm van de deliverable) aanzienlijk, wat voorheen de dominante oorzaak van falen was.

4.2 Mechanisme van verbetering

Actiemix: De verbetering wordt gedreven door een nieuwe "tool/script" bucket van acties (bijv. verplichte audits, schema invullingen) in plaats van toegenomen tekstgeneratie. Baseline agents waren tekst-zwaar; PARTHENON agents voeren gestructureerde inspecties en validaties uit.
Kostenefficiëntie: Voor de duurste solver (GPT-5.5) verminderde PARTHENON de kosten per zaak zelfs (van $1,51 →$ 1,29) terwijl de nauwkeurigheid toenam, omdat de audit-loop kortere, preciezere outputs produceerde. Voor goedkopere solvers was de kostenstijging minimaal in verhouding tot de nauwkeurigheidswinst.
Ablatie-studies:
- Optimalisatie: De zelfverbeteringsloop convergeert naar een overdraagbare harness, waarbij verschillende solvers naar vergelijkbare nauwkeurigheidsniveaus convergeren.
- Redeneringsinspanning: Het verhogen van het ruwe inferentiebudget (redeneringsinspanning) leverde onbetrouwbare resultaten op, terwijl procedurele controles betrouwbare winsten boden.
- Documentsamvattingen: Het toevoegen van gecachte documentsamvattingen verbeterde de prestaties op lange inputs niet; de bottleneck was procedurele discipline, niet de inputlengte.

4.3 Menselijke Vergelijking

Vergeleken met een "release standaard" die een menselijke juridische review benadert (100% nauwkeurigheid):

Nauwkeurigheid: Zelfs de sterkste PARTHENON-configuratie (90,2% criterium nauwkeurigheid) slaagt voor elk criterium in slechts ~12% van de zaken, wat aangeeft dat het een conceptuele assistent is, geen autonome advocaat.
Tijd & Kosten: Het systeem biedt een enorme efficiëntiewinst. De geschatte tijd per zaak daalt van ~12,6 uur (mens) naar ~10 minuten (AI), en de kosten dalen van ~$4.399 naar ~$0,81.

5. Betekenis en Claims

Het artikel claimt dat de primaire barrière voor betrouwbare juridische AI procedureel is, niet parametrisch. Sterkere modellen falen in juridisch werk omdat ze een gestructureerd systeem missen om professionele invarianten (deadlines, citaties, gronding) af te dwingen.

Kernbijdragen:

Empirische Analyse: Een grootschalige studie van 12.510 agent-trajecten op Harvey LAB, die aantoont dat strikte zaakvoltooiing zelfs voor frontier-modellen laag blijft.
PARTHENON Framework: Een zeslaagse architectuur die modelcapaciteit scheidt van juridisch geheugen, tools en procedurele vaardigheden, waardoor falen controleerbaar en aanpasbaar wordt.
Zelfevoluerende Loop: Een mechanisme om gescoorde fouten om te zetten in taakonafhankelijke harness-updates zonder modellen te finetunen of benchmark-data te lekken.

Conclusie:
De auteurs concluderen dat PARTHENON de rol van juridische AI transformeert van "vanaf nul ontwerpen" naar "het beoordelen van een bron-gegronde, audit-gemerkte eerste concept". Door solvers te omwikkelen met een controleerbare juridische harness, bereikt het systeem winsten die vergelijkbaar zijn met model-upgrades en die overdraagbaar zijn tussen verschillende modelfamilies. De betekenis ligt in het bewijs dat betrouwbaarheid in hoog-risico domeinen kan worden bereikt door externe, inspecteerbare procedurele controles in plaats van enkel te vertrouwen op het vergroten van de modelschaal.

Parthenon Law: A Self-Evolving Legal-Agent Framework