Beyond Case Law: Evaluating Structure-Aware Retrieval and Safety in Statute-Centric Legal QA

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme, ouderwetse bibliotheek binnenstapt om een antwoord te vinden op een heel specifieke vraag over brandveiligheid. In deze bibliotheek zijn de boeken niet zomaar op een rijtje gezet; ze zijn verbonden door een ingewikkeld web van verwijzingen. Om het juiste antwoord te vinden, moet je van het ene boek naar het andere springen, van de hoofdwet naar de uitvoeringsregels, en dan weer naar de technische specificaties.

Dit is precies het probleem dat de onderzoekers van de Seoul National University in hun paper SEARCHFIRESAFETY aanpakken. Ze kijken naar hoe kunstmatige intelligentie (AI) omgaat met wetten en regels, en ze ontdekken dat de huidige technologie vaak vastloopt.

Hier is een uitleg in gewone taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Wetboek-Loze" Bibliotheek

De meeste AI-modellen zijn getraind om te zoeken in "casusrecht" (rechtspraak). Dat is als het zoeken naar een verhaal in een verzameling verhalenboeken. Als je vraagt: "Wie heeft er gewonnen in een zaak over een hond?", zoekt de AI naar een verhaal dat lijkt op jouw vraag.

Maar bij wetten en regels (statuten) werkt het anders. Stel je voor dat je vraagt: "Mag ik een brandblusser in mijn auto zetten?"

Het antwoord staat niet in één boek.
Het antwoord zit verspreid over drie verschillende lagen:
1. De hoofdwet (de basisregel).
2. Het uitvoeringsbesluit (hoe pas je de regel toe).
3. De technische norm (de exacte afmetingen en materialen).

De AI heeft vaak moeite om deze lagen met elkaar te verbinden. Ze kijken alleen naar de woorden. Als jij "brandblusser" zegt en de wet zegt "blusapparaat conform norm X", ziet de AI geen verband. Dit noemen de auteurs de "Statutory Retrieval Gap" (het gat in het ophalen van wetgeving). Het is alsof je zoekt naar een sleutel, maar de AI kijkt alleen naar de sleutelkast, terwijl de sleutel eigenlijk in de tuin hangt aan een haak die via een touw met de kast verbonden is.

2. De Oplossing: De "Metriskaart" voor Wetten

Om dit op te lossen, hebben de onderzoekers een nieuw systeem bedacht dat ze SEARCHFIRESAFETY noemen. Ze hebben een speciale "metriskaart" gemaakt voor de wetten.

In plaats van alleen te kijken naar welke woorden op elkaar lijken, kijkt hun systeem naar de structuur: "Welk artikel verwijst naar welk ander artikel?"

Vergelijking: Stel je voor dat je een toerist bent in een grote stad. Een normale zoekmachine geeft je een lijst met gebouwen die op elkaar lijken (allemaal rode bakstenen huizen). De nieuwe methode geeft je echter een metrokaart. Die kaart laat zien: "Ga naar Station A (de hoofdwet), stap over op lijn B (het uitvoeringsbesluit) en stap uit bij Station C (de technische norm)."
Door deze "kaart" te gebruiken, vinden de AI-modellen veel sneller het juiste antwoord, zelfs als de woorden heel verschillend zijn.

3. Het Gevaar: De "Zekere Leugenaar"

Dit is het meest spannende en belangrijke deel van het onderzoek. Ze ontdekten iets gevaarlijks.

Wanneer een AI-model niet genoeg informatie heeft, zou het eigenlijk moeten zeggen: "Ik weet het niet, ik kan dit niet beantwoorden."
Maar wat gebeurt er vaak? De AI wordt te zelfverzekerd.

De Analogie: Stel je voor dat je een arts bent die een diagnose moet stellen. Als de patiënt niet alle medische testen heeft gedaan, zou de arts moeten zeggen: "Ik kan geen diagnose stellen, we moeten wachten op de uitslagen."
- De huidige AI-modellen doen echter alsof ze de arts zijn die altijd een diagnose durft te stellen, zelfs zonder de testen. Ze "hallucineren" een antwoord dat klinkt als een arts, maar dat volledig fout is.
- In de wereld van brandveiligheid is dit levensgevaarlijk. Als een AI zegt: "Ja, die brandblusser is veilig," terwijl de regels eigenlijk zeggen dat hij niet veilig is, kan dat leiden tot een brand die niet geblust kan worden.

4. De Test: De "Gevarenzone"

De onderzoekers hebben een speciale test gemaakt (de benchmark) om dit te meten. Ze stelden vragen waarbij ze expres één belangrijk stukje informatie (het "bruggetje" tussen de wetten) weglieten.

Resultaat: De slimste AI-modellen vielen hierop in de valkuil. Ze gaven een zelfverzekerd, fout antwoord in plaats van te zeggen: "Ik heb niet genoeg info."
Opvallend: Modellen die extra getraind waren op juridische teksten, werden hier slechter in. Ze werden zo goed in het "juridisch klinken" dat ze hun voorzichtigheid verloren. Ze werden als het ware overmoedig.

Conclusie: Wat betekent dit voor ons?

De boodschap van dit onderzoek is tweeledig:

Structuur is koning: Om AI slim te maken in de juridische wereld, moeten we niet alleen kijken naar woorden, maar naar de verbindingen tussen de regels (zoals een metrokaart).
Veiligheid boven zelfvertrouwen: We moeten AI-modellen leren om stil te vallen als ze niet genoeg weten. In gebieden waar mensenlevens op het spel staan (zoals brandveiligheid), is een "Ik weet het niet" veel waardevoller dan een fout antwoord dat klinkt alsof het waar is.

Kortom: We hebben AI nodig die niet alleen slim is, maar ook bescheiden genoeg om te weten wanneer ze de antwoorden niet heeft.

Each language version is independently generated for its own context, not a direct translation.

Titel: Beyond Case Law: Evaluating Structure-Aware Retrieval and Safety in Statute-Centric Legal QA

1. Het Probleem: De Statutaire Retrieval-Gap

Bestaande benchmarks voor juridische Vraag-Antwoord (QA) systemen richten zich voornamelijk op case law (rechtspraak) in Common Law-systemen. In deze context worden documenten vaak als onafhankelijke eenheden behandeld, en is het doel het vinden van semantisch vergelijkbare precedents.

Het paper identificeert echter een fundamenteel ander probleem in statutaire domeinen (zoals wet- en regelgeving in Civil Law-systemen, zoals in Zuid-Korea):

Gedistribueerde Bewijslast: Juridische betekenis is niet in één document opgesloten, maar verspreid over een hiërarchisch netwerk van gekoppelde documenten (Wet $\rightarrow$ Uitvoeringsbesluit $\rightarrow$ Uitvoeringsregeling $\rightarrow$ Technische Standaard).
De Statutaire Retrieval-Gap: Een gebruikersvraag kan lexicaal overeenkomen met een hooggelegen wetsartikel, maar het feitelijke antwoord bevindt zich vaak in een lager gelegen, technisch document dat alleen via expliciete citaties is verbonden.
Veiligheidsrisico: In veiligheidskritieke domeinen (zoals brandveiligheid) kunnen modellen gevaarlijke hallucinaties produceren als ze proberen een antwoord te geven op basis van onvolledige context, in plaats van zich te onthouden van een antwoord.

2. Methodologie: De SEARCHFIRESAFETY Benchmark

De auteurs introduceren SEARCHFIRESAFETY, een benchmark specifiek ontworpen voor het evalueren van retrieval en veiligheid in statutaire regelgeving, geïmplementeerd op het Zuid-Koreaanse brandveiligheidsrecht.

Dataverzameling en Constructie:

Corpus: Een tijdsynchroniseerde verzameling van 131 wetten en 4.467 atomische juridische eenheden (artikelen, paragrafen), opgefrist tot april 2025 om verouderde informatie te elimineren.
Citation Graph: Een expliciete graafstructuur is opgebouwd door hyperlinks en tekstuele verwijzingen (inclusief intra-wet verwijzingen zonder hyperlinks) te parsen, waardoor een volledig verbonden netwerk van juridische documenten ontstaat.
Dual-Source QA:
1. Real-World Expert QA: 876 vragen afkomstig van het petition portal van de Nationale Brandweer, waarbij experts antwoorden baseren op specifieke wetsartikelen.
2. Synthetische Multi-Hop QA: 3.395 meerkeuzevragen (MCQ) gegenereerd om strikte conditionele afhankelijkheden te testen. Vragen zijn zo ontworpen dat ze alleen beantwoord kunnen worden als beide gekoppelde documenten aanwezig zijn. Als het brondocument ontbreekt, moet het model "niet te beantwoorden" kiezen.

Technische Aanpak:

Retrieval: Vergelijking van sparse (BM25) en dense retrievers (Qwen3-Emb, BGE-M3).
Structure-Aware Reranking (SAR): Een nieuwe strategie die gebruikmaakt van de citatie-graaf. SAR gebruikt de top-K resultaten als "zaden" en verspreidt relevantie naar expliciet gelinkte buren in de graaf, ongeacht de semantische afstand. Dit omvat een "Robust Voting" mechanisme met een dubbele straf voor hubs (documenten met te veel of te weinig links).
Veiligheidsevaluatie: Testen van modellen in drie scenario's:
1. Zero-Shot (geen context).
2. Full Context (volledige bewijslast).
3. Partial Context (ontbrekende brugdocumenten) om te zien of het model zich weet te onthouden (abstention) in plaats van te hallucineren.

3. Belangrijkste Bijdragen

SEARCHFIRESAFETY Benchmark: De eerste benchmark die zich richt op de unieke uitdagingen van statutaire regelgeving (hiërarchische fragmentatie) en modelveiligheid in plaats van alleen case retrieval.
Expliciete Citation Graph: Een dataset met geannoteerde citatie-relaties die systematische evaluatie van hiërarchie-bewuste retrieval mogelijk maakt.
Inzicht in Veiligheidstrade-offs: Het blootleggen van het gevaar dat domein-aangepaste modellen (via Continued Pretraining) vaker hallucineren bij onvolledige context, omdat ze overtuigd lijken te zijn van hun antwoorden.

4. Resultaten

Retrieval Performance:
- Dense retrievers presteren significant beter dan BM25, maar kampen nog steeds met de "Statutory Retrieval Gap" door de grote semantische afstand tussen vraag en antwoorddocument.
- SAR (Structure-Aware Reranking) levert de grootste verbetering op. Door gebruik te maken van de graafstructuur, verbetert SAR de Recall@50 met ongeveer 4-5% ten opzichte van de beste dense baselines. Het slaagt erin documenten te vinden die semantisch ver weg liggen maar structureel direct verbonden zijn.
- Traditionele methoden zoals Reciprocal Rank Fusion (RRF) en Rocchio tonen minder consistente verbeteringen of zelfs degradatie.
Model Veiligheid en Hallucinaties:
- Full Context: Modellen presteren goed wanneer alle bewijslast aanwezig is.
- Partial Context: Er is een kritiek falenpatroon. Zelfs geavanceerde modellen (zoals GPT-4o en open-weight modellen) geven vaak zelfverzekerde, maar ongefundeerde antwoorden als de cruciale brugdocumenten ontbreken.
- Effect van Fine-tuning: Modellen die zijn voorgeïmplementerd (Continued Pretraining) op juridische data, presteren beter in Zero-Shot en Full Context, maar presteren slechter in Partial Context. Ze worden overtuigender in het hallucineren van antwoorden in plaats van zich te onthouden. Dit toont aan dat domein-aanpassing de kalibratie van onzekerheid kan verslechteren.

5. Betekenis en Conclusie

Het paper concludeert dat voor juridische AI in regelgevende domeinen retrieval alleen niet voldoende is.

Hiërarchische Retrieval is Cruciaal: Om feitelijke grondslagen te bieden, moeten systemen in staat zijn om door complexe citatie-netwerken te navigeren, wat SAR mogelijk maakt.
Veiligheid is een Eerste Klasse Burger: In veiligheidskritieke toepassingen (zoals brandveiligheid) is het vermogen om "Ik weet het niet" te zeggen bij onvolledige context even belangrijk als het vinden van het juiste antwoord.
Toekomstige Richting: Bestaande benchmarks overschatten de veiligheid van modellen omdat ze zich alleen richten op volledige context. Er is behoefte aan benchmarks die expliciet testen op onzekerheidsbewustzijn en weigervermogen.

De studie benadrukt dat de volgende stap in juridische AI niet alleen het verbeteren van het redeneren is, maar het ontwikkelen van systemen die bewust zijn van de grenzen van hun kennis en de structuur van de wetgeving respecteren.

Beyond Case Law: Evaluating Structure-Aware Retrieval and Safety in Statute-Centric Legal QA

1. Het Probleem: De "Wetboek-Loze" Bibliotheek

2. De Oplossing: De "Metriskaart" voor Wetten

3. Het Gevaar: De "Zekere Leugenaar"

4. De Test: De "Gevarenzone"

Conclusie: Wat betekent dit voor ons?

Titel: Beyond Case Law: Evaluating Structure-Aware Retrieval and Safety in Statute-Centric Legal QA

1. Het Probleem: De Statutaire Retrieval-Gap

2. Methodologie: De SEARCHFIRESAFETY Benchmark

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

EviSnap: Faithful Evidence-Cited Explanations for Cold-Start Cross-Domain Recommendation

X-BCD: Explainable Sensor-Based Behavioral Change Detection in Smart Home Environments

User-Centric Design of UI for Mobile Banking Apps: Improving UI and Features for Better Customer Experience

Robustness Risk of Conversational Retrieval: Identifying and Mitigating Noise Sensitivity in Qwen3-Embedding Model

WebExpert: domain-aware web agents with critic-guided expert experience for high-precision search