Benchmarking Legal RAG: The Promise and Limits of AI Statutory Surveys

Each language version is independently generated for its own context, not a direct translation.

De Wetboek- detectives: Waarom AI-rechters soms de verkeerde antwoorden geven (en hoe we ze kunnen verbeteren)

Stel je voor dat je een enorme bibliotheek hebt met 50 verschillende boeken, elk geschreven door een andere staat in de VS. Elk boek bevat duizenden regels over werkloosheidsuitkeringen. Als je een advocaat bent en je wilt weten: "Kan iemand in Californië een uitkering krijgen als hij of zij een eigen bedrijfje start?", dan moet je al die 50 boeken doorzoeken.

Vroeger deden teams van gespecialiseerde advocaten dit handmatig. Ze zaten maandenlang te lezen, te noteren en tabellen te maken. Dat is als het zoeken naar een naald in een hooiberg, maar dan met 50 hooibergen.

Nu hebben we AI (kunstmatige intelligentie) om ons te helpen. Maar werkt dat? Een nieuw onderzoek van Stanford-universiteit pakt deze vraag aan en komt met een verrassend verhaal.

Het Grote Experiment: De "Werkloosheids-Quiz"

De onderzoekers hebben een enorme quiz gemaakt, genaamd LaborBench. Het bevat 1.647 vragen over werkloosheidswetten in alle 50 staten. Het antwoord moet simpel zijn: Ja of Nee.

Ze hebben drie soorten "AI-detectives" laten meedoen aan deze quiz:

De Commerciële Reuzen: Westlaw AI en Lexis+ AI. Dit zijn de dure, beroemde tools die advocatenkantoren gebruiken. Ze beloven je dat ze in "minuten" een overzicht geven van alle 50 staten.
De Nieuwe Uitdager: STARA. Een speciaal gebouwd hulpmiddel dat is ontworpen om precies te kijken hoe wetboeken zijn opgebouwd (met hoofdstukken, paragrafen en kruisverwijzingen).
De "Gemiddelde" AI: De standaard versies van grote taalmodellen (zoals wat je misschien kent van ChatGPT), maar dan aangepast voor juridische taken.

De Uitslag: Een Schokkend Resultaat

Je zou denken dat de dure, bekende tools (Westlaw en Lexis) de beste zouden zijn. Maar nee. Het was een complete verrassing:

De Commerciële Reuzen (Westlaw & Lexis): Ze scoorden slecht. Ze maakten veel fouten.
- Analogie: Stel je voor dat je vraagt: "Is er een stoplicht op dit kruispunt?" en de AI zegt: "Ja!" terwijl er alleen een bordje staat met "Verkeersregelaar". Ze zien wel iets dat op een stoplicht lijkt, maar begrijpen niet wat het echt betekent. Ze gaven vaak "Ja" als antwoord, zelfs als het antwoord "Nee" was. Ze waren te snel en te slordig.
De Nieuwe Uitdager (STARA): Deze deed het veel beter. Hij scoorde 83% correct.
- Analogie: STARA is als een detective die niet alleen naar de woorden kijkt, maar ook begrijpt hoe de zinnen in elkaar zitten. Hij leest de kleine lettertjes en ziet de verbanden.

De Grootste Verrassing: De "Meesters" maakten ook fouten

Hier wordt het echt interessant. De onderzoekers keken naar de "fouten" die STARA maakte. Ze dachten eerst: "Oh, STARA heeft het verkeerd." Maar toen ze de wetboeken zelf gingen nakijken, ontdekten ze iets verbazends:

STARA had vaak gelijk, en de menselijke experts van het ministerie (DOL) hadden het fout!

De menselijke experts, die maandenlang hebben gewerkt aan hun tabellen, hadden 135 keer een wet over het hoofd gezien.

Voorbeeld: In een staat was er een wet die zei: "Je mag een uitkering houden als je een eigen bedrijf start." De menselijke experts hadden dit over het hoofd gezien. STARA zag het wel.
Conclusie: Als we rekening houden met deze "vergeten" wetten, was STARA eigenlijk 92% correct.

Dit is als een toets maken waarbij de leraar de antwoorden heeft gemaakt, maar de leraar heeft zelf drie vragen verkeerd beantwoord. De leerling die het juiste antwoord gaf, werd eerst als "fout" bestempeld, maar bleek eigenlijk de slimste te zijn.

Waarom maakten de dure tools zulke stomme fouten?

De onderzoekers ontdekten waarom Westlaw en Lexis zo slecht scoorden:

Te korte vragen: Westlaw liet de AI maar 300 tekens in de vraag invoeren. Dat is als proberen een complex juridisch probleem uit te leggen in één tweet. De AI miste dan de belangrijke context.
Te veel "hallucinaties": De AI's gaven vaak lange lijsten met wetten op, maar veel daarvan hadden niets met de vraag te maken. Het was alsof ze een recept voor pannenkoeken gaven terwijl je om een recept voor soep vroeg, zolang het maar "eten" was.
Geen diepgang: Ze keken alleen naar woorden, niet naar de betekenis. Als een wet zegt "dit geldt alleen voor boeren", en de AI ziet alleen het woord "boer", denkt hij: "O, dit is een antwoord!" terwijl het antwoord eigenlijk "Nee" is voor de stad.

Wat betekent dit voor de toekomst?

Deze studie leert ons drie belangrijke dingen:

Snelheid is niet alles: De dure tools zeggen: "Wij doen het in minuten!" Maar als je daarna uren moet zitten om te controleren of ze het goed hebben, heb je geen tijd gewonnen.
Specifieke tools zijn beter: Een AI die is gebouwd om wetboeken te begrijpen (zoals STARA), werkt beter dan een algemene AI die alles probeert te doen. Je hebt een gespecialiseerde tandarts nodig voor je gebit, niet een algemene dokter.
Mensen maken ook fouten: Zelfs de beste menselijke experts kunnen wetten over het hoofd zien. AI kan ons helpen om die gaten op te vullen, mits we de AI goed bouwen en controleren.

Kortom: AI voor juridisch onderzoek is veelbelovend, maar de huidige dure tools zijn nog niet klaar voor de grote show. We hebben slimme, gespecialiseerde systemen nodig die net zo goed lezen als een ervaren advocaat, en misschien zelfs beter, omdat ze niet vermoeid raken na zes maanden werken.

Benchmarking Legal RAG: The Promise and Limits of AI Statutory Surveys

Het Grote Experiment: De "Werkloosheids-Quiz"

De Uitslag: Een Schokkend Resultaat

De Grootste Verrassing: De "Meesters" maakten ook fouten

Waarom maakten de dure tools zulke stomme fouten?

Wat betekent dit voor de toekomst?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Benchmarking Legal RAG: The Promise and Limits of AI Statutory Surveys

Het Grote Experiment: De "Werkloosheids-Quiz"

De Uitslag: Een Schokkend Resultaat

De Grootste Verrassing: De "Meesters" maakten ook fouten

Waarom maakten de dure tools zulke stomme fouten?

Wat betekent dit voor de toekomst?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Constraining constructions with WordNet: pros and cons for the semantic annotation of fillers in the Italian Constructicon

Attribution Quality in AI-Generated Content:Benchmarking Style Embeddings and LLM Judges

QA-Dragon: Query-Aware Dynamic RAG System for Knowledge-Intensive Visual Question Answering

OraPO: Oracle-educated Reinforcement Learning for Data-efficient and Factual Radiology Report Generation

Stop Before You Fail: Operational Capability Boundaries for Mitigating Unproductive Reasoning in Large Reasoning Models