MAWARITH: A Dataset and Benchmark for Legal Inheritance Reasoning with LLMs

Each language version is independently generated for its own context, not a direct translation.

Mawarith: De Digitale Erfgoedrekenaar voor Islamitisch Recht

Stel je voor dat je een enorme, ingewikkelde puzzel moet oplossen. Maar dit is geen gewone puzzel met stukjes die je in elkaar moet klikken; het is een juridische puzzel gebaseerd op eeuwenoude islamitische regels. Als iemand overlijdt, moet precies worden uitgerekend wie er erft en hoeveel. Dit heet Mawarith (erfrecht).

In dit onderzoek introduceren de auteurs MAWARITH, een nieuw hulpmiddel om te testen hoe goed kunstmatige intelligentie (AI) dit soort puzzels kan oplossen. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: AI is slim, maar niet altijd logisch

Grote taalmodellen (zoals de slimme chatbots die we vandaag de dag kennen) zijn geweldig in het schrijven van verhalen of het beantwoorden van algemene vragen. Maar als het gaat om stap-voor-stap logisch redeneren met strikte regels, raken ze vaak in de war.

Stel je voor dat je een AI vraagt: "Wie erft er van deze familie en hoeveel krijgen ze?"
Een menselijke jurist zou denken:

Wie zijn er allemaal? (Kinderen, echtgenoot, ouders?)
Wie mag er niet erfen omdat er iemand dichter bij staat? (Dit heet 'blokkeren' of Hajb).
Hoeveel krijgt elke persoon precies?
Moeten we de bedragen aanpassen als het totaal te hoog of te laag is?

Veel AI-modellen springen hierin direct naar het antwoord, zonder de tussenstappen goed te doen. Ze maken een foutje in stap 1, en dat zorgt ervoor dat stap 2, 3 en 4 ook fout zijn. Het is alsof je een cake bakt, maar vergeet het meel toe te voegen; je kunt de rest van het recept nog zo perfect volgen, de cake wordt een mislukking.

2. De Oplossing: MAWARITH (De Grote Oefenboeken)

De onderzoekers hebben een gigantisch oefenboek gemaakt met 12.500 voorbeelden van erfzaken in het Arabisch.

Niet alleen het antwoord: In plaats van alleen te vragen "Wat is het antwoord?", eist MAWARITH dat de AI elke stap uitlegt.
De 'Gedachtenkrant': De AI moet eerst zijn gedachten opschrijven (wie erft, wie wordt geblokkeerd, welke regels gelden) en pas daarna het eindantwoord geven.
De Expert: Elk voorbeeld is gemaakt door echte experts in islamitisch recht, zodat de 'goede oplossing' perfect is.

3. De Nieuwe Scorebord: MIR-E

Vroeger keek je alleen naar het eindantwoord: "Is het getal goed?" Nieuw is het MIR-E systeem. Dit is als een sportjury die niet alleen kijkt naar wie de finish haalt, maar ook naar hoe ze rennen.

Als de AI de verkeerde mensen in de lijst zet, krijgt ze een straf, zelfs als het eindbedrag per toeval klopt.
Als ze de regels voor 'blokkeren' verkeerd toepast, wordt dat ook bestraft.
Het systeem kijkt dus naar de reis, niet alleen naar de bestemming.

4. Wat hebben ze ontdekt? (De Uitslag)

Ze hebben vijf verschillende AI-modellen getest. Het resultaat was verrassend duidelijk:

De Winnaar: Gemini-2.5-flash (een commercieel model) deed het fantastisch. Het haalde een score van bijna 90%. Het kon de regels goed volgen en de stappen logisch doorlopen.
De Verliezers: De andere modellen (vaak open-source of gespecialiseerde Arabische modellen) haalden nauwelijks 50%.
- Ze vergeten vaak familieleden die er wel mogen zijn.
- Ze laten familieleden erbij die er juist niet mogen zijn (bijvoorbeeld een oom die erft terwijl er nog een zoon is; volgens de regels blokkeert de zoon de oom).
- Ze maken rekenfouten in de verdeling.

5. Waarom is dit belangrijk?

Dit onderzoek toont aan dat AI nog niet zover is om complexe juridische taken volledig zelfstandig en betrouwbaar uit te voeren. Ze kunnen wel 'praten' als een expert, maar als je ze dwingt om de logica stap voor stap te bewijzen, vallen ze vaak door de mand.

De kernboodschap in één zin:
AI kan nu goed praten over erfrecht, maar om het echt te begrijpen en correct toe te passen, moeten we hen leren om niet alleen het antwoord te raden, maar de hele redenering stap voor stap te bouwen, net als een echte jurist.

De onderzoekers hopen dat hun nieuwe dataset (MAWARITH) helpt om toekomstige AI's te trainen die niet alleen slim praten, maar ook juridisch en wiskundig correct kunnen denken.

Each language version is independently generated for its own context, not a direct translation.

`-tags, die de stap-voor-stap oplossing beschrijft (identificatie, blokkering, toewijzing, correctie, definitieve verdeling), gevolgd door een gestructureerd eindantwoord.

Data Generatie: Cases werden gegenereerd via een rekenmachine, omgezet naar natuurlijk taal, verrijkt door experts in islamitische studies, gestandaardiseerd en gevalideerd.

2. Evaluatiemetric: MIR-E

Om de beperkingen van "eindantwoord-accuraatheid" te overwinnen, introduceren de auteurs MIR-E (Mawarith Inheritance Reasoning Evaluation). Dit is een gewogen, multi-stadia metric die de redeneringsketen in vier componenten opsplitst:

Identificatie Erfgenamen & Blokkering ( $S_h$ ): Evalueert of het model de juiste erfgenamen selecteert, de juiste blokkeringen toepast en de aantallen correct heeft (gebaseerd op F1-score en nauwkeurigheid).
Aandelen Toewijzing ( $S_s$ ): Evalueert de correctheid van de numerieke waarden (fracties/percentages) die aan de geldige erfgenamen worden toegewezen.
Correctie/Adjustment ( $S_a$ ): Evalueert of het model correct bepaalt of ʿawl of radd nodig is (of geen correctie).
Definitieve Verdeling ( $S_f$ ): De nauwkeurigheid van de uiteindelijke verdeling.

De totale score is een gewogen som: $MIR-E = 0.30 \cdot S_h + 0.30 \cdot S_s + 0.10 \cdot S_a + 0.30 \cdot S_f$ .

3. Experimenteel Opzet

Modellen: Zes LLMs werden geëvalueerd in een zero-shot setting (zonder fijnafstemming) met Arabische prompts.
- Commercieel: Gemini-2.5-flash.
- Open-source (Meertalig): Qwen3-32B, GPT-OSS-120B, LLaMA-3.3-70B.
- Arabisch-georiënteerd: Fanar-C-2-27B, Fanar-Sadiq (gespecialiseerd in islamitische kennis).
Prompting: De prompts eisten een gestructureerde output die de tussenstappen blootlegt, zodat fouten op elk niveau kunnen worden geanalyseerd.

Belangrijkste Resultaten

Prestatieverschil:
- Gemini-2.5-flash presteert overtuigend met een MIR-E-score van ongeveer 90% op zowel validatie- als testsets.
- Alle andere modellen (open-source en gespecialiseerd) blijven onder de 50%. Qwen3-32B scoort het beste onder de open modellen (~44%), gevolgd door Fanar-Sadiq.
Foutpropagatie:
- Er is een sterke correlatie tussen vroege fouten en het mislukken van de hele keten. Zodra een model een erfgenaam verkeerd identificeert of blokkeert, worden de daaropvolgende berekeningen onjuist.
- Gemini haalt een succespercentage van 78,2% in de eerste stap (identificatie/blokkering), terwijl alle andere modellen onder de 25% blijven.
- De grootste daling in prestaties voor open modellen treedt op tussen stap 1 (identificatie) en stap 2 (toewijzing), wat aangeeft dat zelfs bij correcte erfgenamen de berekeningsregels vaak verkeerd worden toegepast.
Foutanalyse:
- Identificatiefouten: De meest voorkomende fout is "Valse Toelating" (False Eligibility), waarbij modellen erfgenamen toevoegen die volgens de regels zijn geblokkeerd (bijv. broers toevoegen terwijl een zoon aanwezig is).
- Taalverwerking: Modellen hebben moeite met complexe Arabische kinship-uitdrukkingen (bijv. het verkeerd ontleden van "vier dochters van een kleinzoon" als twee aparte groepen).
- Juridische kennis: Zelfs bij correcte erfgenamen maken modellen fouten in het toepassen van uitzonderingsregels (bijv. het niet toepassen van de vermindering van het moeder-aandeel van 1/3 naar 1/6 bij aanwezigheid van broers/zussen).
- Correctie (ʿawl/radd): Zodra de eerdere stappen correct zijn, presteren de meeste modellen goed op het herkennen van de noodzaak tot correctie, hoewel Gemini hier nog steeds het minst fouten maakt.

Bijdragen en Significantie

Nieuwe Benchmark: MAWARITH is de eerste dataset die de volledige redeneringsketen van islamitisch erfrecht ondersteunt, inclusief tussenstappen en juridische rechtvaardigingen, in plaats van alleen eindantwoorden.
Gedetailleerde Evaluatie: De MIR-E-metric biedt een manier om fouten te lokaliseren (is het een taalprobleem, een kennisprobleem, of een rekenfout?) en toont aan dat "reasoning-oriented" modellen niet automatisch goed zijn in domeinspecifieke, regelgebaseerde taken.
Inzicht in LLM-beperkingen: Het onderzoek toont aan dat zelfs geavanceerde modellen moeite hebben met strikte, hiërarchische regels waar eerdere fouten de hele uitkomst ongeldig maken. Commerciële modellen (Gemini) tonen hier een significant voordeel op, waarschijnlijk door grotere schaal en diverse trainingsdata.
Toekomstperspectief: De auteurs suggereren het gebruik van Reinforcement Learning (zoals Process Reward Models) om modellen te trainen op de validiteit van tussenstappen, en plannen uitbreiding naar nog complexere gevallen (zwangerschap, vermiste personen, interseks erfgenamen).

Conclusie: Het paper benadrukt dat voor juridische en numerieke redeneringstaken, vloeiende tekstgeneratie niet voldoende is. Succes vereist een model dat in staat is om een strikte, fouttolerante logica te volgen, waarbij elke stap correct moet zijn om tot een geldig juridisch oordeel te komen. MAWARITH biedt de infrastructuur om deze capaciteiten te meten en te verbeteren.

MAWARITH: A Dataset and Benchmark for Legal Inheritance Reasoning with LLMs

1. Het Probleem: AI is slim, maar niet altijd logisch

2. De Oplossing: MAWARITH (De Grote Oefenboeken)

3. De Nieuwe Scorebord: MIR-E

4. Wat hebben ze ontdekt? (De Uitslag)

5. Waarom is dit belangrijk?

2. Evaluatiemetric: MIR-E

3. Experimenteel Opzet

Belangrijkste Resultaten

Bijdragen en Significantie

Meer zoals dit

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models