An LLM Agentic Approach for Legal-Critical Software: A Case Study for Tax Prep Software

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer strenge, maar soms verwarrende instructieboekje hebt: de Amerikaanse belastingwet. Deze wet is geschreven in juridisch taal, vol met uitzonderingen, nuance en complexe regels. Nu moet je een computerprogramma bouwen dat deze regels perfect volgt, zodat mensen hun belastingaangifte kunnen doen zonder fouten te maken.

Het probleem? Computers zijn niet van nature goed in het begrijpen van die vage juridische taal. Als je ze gewoon vraagt "reken de belasting uit", maken ze vaak fouten. Ze kunnen bijvoorbeeld denken dat je op je hele inkomen een hoog tarief moet betalen, terwijl je dat eigenlijk alleen op het deel boven een bepaalde grens moet betalen.

Dit artikel beschrijft een slimme oplossing: gebruik geen enkele supercomputer, maar een heel team van gespecialiseerde "AI-assistenten".

Hier is hoe dit werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Orakel" die er niet is

In de softwarewereld is het normaal om te testen of een programma goed werkt door te kijken of het antwoord klopt met een "juiste oplossing" (een orakel). Bij belastingen is dat echter bijna onmogelijk. Zelfs experts zijn het soms oneens over wat de juiste uitkomst is voor een specifieke situatie. Hoe test je dan of je software goed werkt zonder dat je het antwoord al kent?

2. De Oplossing: Het Team van AI-Agenten (Synedrion)

De auteurs hebben een systeem gebouwd dat ze Synedrion noemen. In plaats van één grote AI die alles probeert te doen, hebben ze een team van vijf gespecialiseerde agenten (AI's) die samenwerken, net als een goed georganiseerd kantoor.

Stel je dit team voor als een groep specialisten in een kantoor:

De Jurist (TaxExpertAgent): Deze AI leest de ingewikkelde wettekst en vertaalt die naar een duidelijke, gestructureerde lijst (een JSON-bestand). Hij zorgt dat de regels logisch zijn opgeschreven voordat er ook maar een regel code wordt geschreven.
De Schrijvers (Coder Agents): Twee AI's schrijven het daadwerkelijke programma op basis van de lijst van de Jurist. Ze werken samen: de één schrijft een versie, de ander kijkt er kritisch naar en maakt verbeteringen.
De Hoofdredacteur (Senior Coder): Deze AI houdt toezicht. Hij kijkt of de schrijvers de regels van de Jurist hebben gevolgd en kiest de beste versie.
De Kwaliteitscontroleur (Metamorphic Testing Agent): Dit is het meest creatieve deel. Deze AI is geen "rekenmachine" die het juiste antwoord zoekt, maar een detective die op zoek is naar onlogisch gedrag.

3. De Creatieve Test: De "Vergelijkings-Detective"

Hoe test je een belastingprogramma als je het juiste antwoord niet kent? De auteurs gebruiken een methode die Metamorphic Testing heet.

De Analogie:
Stel je voor dat je een belastingprogramma test. Je weet niet precies hoeveel belasting iemand met €50.000 moet betalen. Maar je weet wel iets heel belangrijks: Als iemand blind is, moet hij of zij minder belasting betalen dan iemand die precies hetzelfde verdient maar niet blind is.

De "Kwaliteitscontroleur" (de Metamorphic Agent) doet dit:

Hij neemt een situatie (bijv. iemand met €50.000).
Hij verandert één ding (bijv. maakt de persoon blind).
Hij kijkt of het programma logisch reageert (moet de belasting zakken?).

De "Hoogwaardige" Versie (Higher-Order):
De echte innovatie in dit artikel is dat ze niet alleen kijken naar één verandering, maar naar patronen in veranderingen.

Standaard test: "Als ik mijn inkomen verhoog, moet mijn belasting ook omhoog."
De slimme test: "Als ik mijn inkomen verhoog, moet mijn belasting sneller omhoog gaan naarmate ik in een hoger tariefgebied kom."

Stel je voor dat je een trap beklimt.

Een foutief programma zou denken dat elke stap even hoog is (een rechte lijn).
De slimme AI-agent ziet: "Hé, bij stap 10 wordt de trap steiler! Als het programma dat niet ziet, is het fout."

Deze agent zoekt naar deze "steilte" in de berekeningen. Als het programma zegt dat iemand met een heel hoog inkomen hetzelfde percentage betaalt als iemand met een laag inkomen (een "vlakke" trap), dan weet de agent: "Dit klopt niet met de wet!"

4. Het Verbluffende Resultaat

Het meest verrassende aan dit onderzoek is wat ze ontdekten:
Een team van kleinere, goedkopere AI's werkt beter dan één enorme, dure "super-AI".

Als je de duurste AI (zoals GPT-4o) alleen laat werken, maakt hij in complexe situaties veel fouten (slechts 15% succes bij de moeilijkste tests).
Als je diezelfde dure AI gebruikt als "Hoofdredacteur" en "Jurist", maar de "Schrijvers" en "Detectives" laat doen door kleinere, snellere AI's, dan werkt het veel beter.
Zelfs een kleine AI (GPT-4o-mini) in dit team presteerde beter dan de grootste AI's die alleen werkten.

Conclusie

Dit artikel laat zien dat voor kritieke taken (zoals belastingen, waar fouten leiden tot juridische problemen), je niet gewoon een "slimme" computer moet nemen. Je moet een systeem bouwen waarin:

Iemand de regels duidelijk uitlegt (Jurist).
Iemand de regels omzet in code (Schrijvers).
Iemand constant controleert of de logica klopt door vergelijkingen te maken (Detective).

Door dit team aan te sturen, kunnen we zelfs met kleinere, goedkopere technologie zeer betrouwbare software bouwen die de complexe wetten van de wereld correct volgt. Het is alsof je een groepje slimme studenten samenwerkt met een strenge leraar, in plaats van één genie dat alleen werkt. De samenwerking maakt het verschil.

An LLM Agentic Approach for Legal-Critical Software: A Case Study for Tax Prep Software

1. Het Probleem: De "Orakel" die er niet is

2. De Oplossing: Het Team van AI-Agenten (Synedrion)

3. De Creatieve Test: De "Vergelijkings-Detective"

4. Het Verbluffende Resultaat

Conclusie

Probleemstelling

Methodologie: Synedrion

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

An LLM Agentic Approach for Legal-Critical Software: A Case Study for Tax Prep Software

1. Het Probleem: De "Orakel" die er niet is

2. De Oplossing: Het Team van AI-Agenten (Synedrion)

3. De Creatieve Test: De "Vergelijkings-Detective"

4. Het Verbluffende Resultaat

Conclusie

Probleemstelling

Methodologie: Synedrion

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Multi-objective optimization determines when, which and how to fuse deep networks: an application to predict COVID-19 outcomes

Explainable machine learning for predicting shellfish toxicity in the Adriatic Sea using long-term monitoring data of HABs

Talking like Piping and Instrumentation Diagrams (P&IDs)

SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models

IntrinsicWeather: Controllable Weather Editing in Intrinsic Space