Towards Trustworthy Legal AI through LLM Agents and Formal Reasoning

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een rechter bent in een heel complexe rechtszaak. Je moet beslissen of iemand schuldig is en wat de straf moet zijn. In het echte leven doe je dit door de wetboeken te lezen, te kijken naar wat er precies is gebeurd, en te luisteren naar zowel de aanklager als de verdediging.

Nu proberen computers (kunstmatige intelligentie) dit ook te doen. Maar tot nu toe waren deze computers als een slimme, maar dromerige student. Ze kunnen prachtige verhalen vertellen en lijken alles te begrijpen, maar ze verzinnen soms feiten, verwarren wetten met elkaar, en kunnen niet bewijzen waarom ze tot een bepaalde conclusie komen. Ze zeggen: "Ik denk dat dit strafbaar is," maar kunnen niet laten zien hoe ze daar bij zijn gekomen.

De auteurs van dit paper hebben een nieuwe manier bedacht, genaamd L4L. Ze willen een AI bouwen die niet alleen slim is, maar ook betrouwbaar en controleerbaar.

Hier is hoe ze dat doen, vertaald in een simpel verhaal:

1. De Bouwplaat van de Wet (Formalisering)

Stel je voor dat de wetboeken (zoals het Wetboek van Strafrecht) een enorme, ingewikkelde legpuzzel zijn in gewone taal. De AI moet deze puzzel eerst omzetten in een strikt bouwplaat met meetlatjes en schroeven.

In plaats van te lezen "het is verboden om veel drugs te vervoeren", zet de AI dit om in een wiskundige formule: Als gewicht > 20 gram EN type = MDMA, DAN = strafbaar.
Dit is als het vertalen van een recept in een taal die een robot kan begrijpen, zodat er geen twijfel mogelijk is over de hoeveelheden of voorwaarden.

2. Het Toneelstuk met Twee Spelers (De Agenten)

In een echte rechtzaal heb je een aanklager en een verdediger. Ze kijken naar hetzelfde verhaal, maar proberen het op hun eigen manier te interpreteren.

De Aanklager-AI probeert zo veel mogelijk feiten te vinden die de verdachte in de problemen brengen.
De Verdediger-AI probeert twijfels te zaaien en feiten te vinden die de verdachte vrijpleiten.
Ze werken onafhankelijk van elkaar. Dit voorkomt dat de AI in één kant van het verhaal vastloopt. Het is alsof je twee detectives hebt die elk hun eigen dossier maken.

3. De Rekenmachine die Altijd Wint (De Oplosser)

Dit is het belangrijkste deel. Na dat de twee AI's hun dossiers hebben gemaakt, gooien ze alles in een super-rekenmachine (een zogenaamde SMT-oplosser).

Deze rekenmachine is niet slim in de zin van "verhalen vertellen", maar hij is onfeilbaar in logica.
Hij kijkt naar de bouwplaat (de wet) en de dossiers (de feiten) en zegt: "Dit klopt wiskundig niet" of "Dit is wiskundig bewezen".
Als de rekenmachine zegt dat een bepaalde wet niet van toepassing is, dan is dat zo. Geen discussie, geen "misschien". Het is als een keurslager die controleert of een deur precies 2 meter breed is; als hij 1,99 meter is, past hij niet.

4. De Rechter die het Verhaal Vertelt (De Uitspraak)

Nu hebben we een wiskundig bewezen feit, maar mensen willen een verhaal lezen.

Een Rechter-AI neemt de harde, wiskundige resultaten van de rekenmachine en schrijft daar een menselijk, begrijpelijk vonnis over.
Deze rechter kijkt ook naar eerdere vergelijkbare zaken (precedenten) om de straf te verfijnen, maar altijd binnen de grenzen die de rekenmachine heeft vastgesteld.
Het resultaat is een vonnis dat klinkt als een menselijke rechter, maar dat stevig verankerd is in onweerlegbare logica.

Waarom is dit zo cool?

Stel je voor dat je een brug bouwt.

De oude AI's waren als een architect die een prachtige brug tekende op papier, maar die soms dacht dat de brug zou staan terwijl hij eigenlijk zou instorten.
L4L is als een architect die eerst een computermodel gebruikt om te berekenen of de brug wiskundig kan staan. Pas als de computer zegt "Ja, dit is veilig", tekent de architect het mooie plaatje voor de mensen.

De voordelen:

Geen hallucinaties: De AI kan niet zomaar een wet verzinnen die niet bestaat.
Controleerbaar: Je kunt precies zien welke logische stappen de AI heeft genomen. Het is als een audit-spoor.
Betrouwbaar: Omdat de harde logica de "rechter" is, zijn de uitspraken eerlijker en consistenter.

Kortom: L4L combineert de creativiteit en taalvaardigheid van een moderne computer met de strenge, onwrikbare logica van een wiskundige formule. Het zorgt ervoor dat AI in de rechtbank niet alleen slim klinkt, maar ook wiskundig correct is.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Juridische besluitvorming vereist meer dan alleen een accurate linguïstische interpretatie van wettelijke teksten; het moet voldoen aan formele rationaliteit. In rechtsstaten moeten conclusies worden onderbouwd door hun consistentie met expliciete, logisch samenhangende regels. Huidige Large Language Models (LLMs) presteren goed in het begrijpen van juridische tekst, maar hebben ernstige tekortkomingen:

Hallucinaties: Ze citeren vaak niet-bestaande autoriteiten of wetten.
Logische onverenigbaarheid: Ze kunnen verschillende doctrinaire vereisten verwarren.
Ontbrekende verifieerbaarheid: Hun redeneringen zijn "black boxes" en bieden geen garantie dat de conclusie logisch volgt uit de feiten en de wet.
Bestaande systemen die gebruikmaken van Retrieval-Augmented Generation (RAG) verminderen feitelijke fouten, maar bieden geen formele garanties voor de logica van het oordeel.

Methodologie: Het L4L Framework

De auteurs stellen L4L (Legal Logic for Law) voor, een solver-gecentreerd framework dat de flexibiliteit van natuurlijke taal (LLMs) combineert met de strikte logica van symbolische redenering (SMT-solvers). Het systeem werkt in vier fasen:

1. Wetgeving Formalisering (Law Formalization)

Meta-schema: Juridische normen worden vertaald naar een universeel first-order template: Actor–Action–Condition–Norm met bijbehorende straffen.
SMT-constraints: Natuurlijke taalwetten en gerechtelijke interpretaties worden geautomatiseerd omgezet in uitvoerbare SMT-constraints (met behulp van de Z3-solver).
Validatie: Het formaliseren van de kennisbasis (KB) gebeurt via een neuro-symbolisch paradigma. De gegenereerde modellen worden getest op syntactische correctheid en semantische geldigheid met behulp van echte juridische casussen met bekende uitkomsten.

2. Juridische AI Agents (Role-Differentiated)

Het systeem gebruikt gespecialiseerde agents die de rol van aanklager en verdediging nabootsen:

Suspect-Centric Decomposition: Een zaak wordt opgesplitst in perspectieven per verdachte om rollen en aansprakelijkheid niet te vermengen.
Dual Fact & Statute Extraction: Een Prosecutor-agent (gericht op veroordeling) en een Defense-agent (gericht op vrijspraak) extraheren onafhankelijk feiten en kandidaat-wetten uit dezelfde casus.
Output: Ze produceren gestructureerde tuple's (Actor, Action, Condition) met een betrouwbaarheidsscore en een ranglijst van toepasselijke wetten.

3. Solver-Centred Adjudication (Formele Redenering)

Dit is het kernproces waar de LLM-outputs worden getoetst aan de formele wetgeving:

Autoformalizer: Een neutrale LLM zet de outputs van de agents om in een gestrikt SMT-constraint systeem ( $\Phi$ ). Dit omvat het grondvesten van waarden (bijv. "groot bedrag" naar een numerieke waarde) en het oplossen van wettelijke verwijzingen.
Twee-staps verificatie:
1. Artikel-toepasbaarheid: De solver controleert of een wetsartikel toepasbaar is op de geëxtraheerde feiten ( $\Phi \land \exists \text{art}$ ). Als dit unsat (onbevredigbaar) is, wordt het artikel verworpen.
2. Klausalen-kwalificatie: Voor toepasbare artikelen wordt gecontroleerd welke specifieke klausalen (bijv. zware straf bij specifieke omstandigheden) voldoen.
Iteratieve feedback: Als de solver geen oplossing vindt (unsat), wordt de oorzaak (feitelijke fout, over-schatting van de wet) geïdentificeerd en wordt het proces herhaald.

4. Judicial Rendering (Rechterlijke Uitspraak)

De Judge-agent ontvangt de door de solver gevalideerde resultaten.
Deze agent integreert de formele uitkomst met juridische interpretatieprincipes en vergelijkbare jurisprudentie (precedents).
Het resultaat is een transparant, juridisch onderbouwd vonnis en een straf, waarbij de formele logica de basis vormt en de LLM de contextuele nuance toevoegt.

Belangrijkste Bijdragen

Systematische Formalisering: Een methode om natuurlijke taalwetten om te zetten in uitvoerbare logische constraints met een expliciete semantische structuur.
Solver-gecentreerd Framework: Een architectuur die formele redenering (via SMT-solvers) integreert in het juridische oordeelsproces om substantiële en formele rationaliteit te verbinden.
Role-Differentiated Agents: Een architectuur met gescheiden aanklager- en verdedigingsagents die onder dezelfde formele constraints werken, wat bias vermindert.
Auditable Justifications: Het systeem levert symbolische, door de solver gecontroleerde rechtvaardigingen die controleerbaarheid mogelijk maken.

Resultaten

Het framework is geëvalueerd op publieke juridische benchmarks (LeCaRDv2 en LEEC) en vergeleken met state-of-the-art baselines (zoals GPT-4o, DeepSeek, LexiLaw, DISC-LawLLM).

Prestatie: L4L presteert consistent beter dan baselines op het gebied van:
- Statute Selection: Hogere precisie en F1-scores bij het identificeren van toepasselijke wetten.
- Verdict Accuracy: Betere voorspelling van de uitkomst.
- Sentencing Quality: De gemiddelde strafafwijking (ASE) is lager (bijv. 12,72 maanden vs. 14,54 bij GPT-5.2 op LeCaRDv2).
Robuustheid: Bij gecontroleerde feitelijke verstoringen (perturbations) behaalde L4L de hoogste Change Accuracy (62,56%), wat aantoont dat het systeem correct reageert op wijzigingen in feiten die de toepasbaarheid van wetten beïnvloeden.
Validiteit: Het systeem produceert een hoger percentage juridisch geldige uitspraken (Valid Ratio), omdat de solver inconsistenties filtert.

Betekenis en Conclusie

L4L biedt een nieuwe weg naar vertrouwenswaardige juridische AI. Door de "black box" van pure neurale netwerken te combineren met de "witte doos" van formele logica, lost het systeem het probleem van hallucinaties en onverifieerbare redeneringen op.

Het behoudt de noodzakelijke discretionaire ruimte voor rechters (via de Judge-agent en precedenten), maar zorgt ervoor dat de uiteindelijke conclusies stevig verankerd zijn in formeel geverifieerde wettelijke beperkingen.
Hoewel er enige computatiekosten zijn (gemiddeld ~107 seconden per zaak door meerdere LLM-aanroepen), weegt de winst in interpreteerbaarheid, nauwkeurigheid en juridische veiligheid hier ruimschoots tegen op.

Dit werk markeert een verschuiving van AI die alleen "lijkt" te redeneren naar AI die daadwerkelijk verifieerbare juridische logica toepast.