MAWARITH: A Dataset and Benchmark for Legal Inheritance Reasoning with LLMs

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Forschungspapier „MAWARITH", die wie eine Geschichte erzählt wird, damit jeder sie verstehen kann – egal ob man Jurist ist oder nicht.

🌟 Die große Erbschafts-Rätsel-Challenge

Stell dir vor, du hast einen riesigen, komplizierten Kuchen gebacken (das ist der Nachlass eines Verstorbenen). Jetzt musst du den Kuchen gerecht unter deiner Familie aufteilen. Aber es gibt eine sehr strenge Regel: Du darfst nicht einfach raten, wer wie viel bekommt. Es gibt ein altes, mathematisch perfektes Regelwerk (das islamische Erbrecht), das genau festlegt:

Wer darf überhaupt einen Krümel bekommen? (Vielleicht ist ein Bruder ausgeschlossen, weil ein Sohn da ist.)
Wer bekommt wie viel? (Die Mutter bekommt genau 1/6, die Tochter 1/2.)
Was passiert, wenn die Stücke zusammen größer sind als der ganze Kuchen? (Dann müssen alle etwas abgeben.)
Was passiert, wenn noch etwas übrig bleibt? (Dann wird es wieder verteilt.)

Das Problem: Künstliche Intelligenz (KI) ist super darin, Texte zu schreiben und Fragen zu beantworten. Aber wenn es darum geht, dieses komplexe Kuchen-Rätsel Schritt für Schritt zu lösen, macht sie oft dumme Fehler. Sie vergisst jemanden, rechnet falsch oder ignoriert die Regeln.

🍪 Was haben die Forscher gemacht? (Das MAWARITH-Set)

Die Forscher von der Hamad Bin Khalifa University in Katar haben sich gedacht: „Wir müssen der KI beibringen, wie man diesen Kuchen wirklich aufteilt, nicht nur wie man darüber redet."

Dafür haben sie MAWARITH erstellt. Das ist wie ein riesiges Trainingsbuch mit 12.500 verschiedenen Erbschafts-Fällen.

Die Aufgabe: Die KI bekommt eine Geschichte („Der Verstorbene hinterlässt eine Frau, drei Töchter und einen Onkel...").
Die Lösung: Die KI muss nicht nur das Endergebnis nennen, sondern den ganzen Denkprozess zeigen: „Zuerst habe ich geprüft, ob der Onkel dran ist (Nein, die Töchter blockieren ihn). Dann habe ich berechnet, wie viel die Frau bekommt..."

Das Besondere: Frühere Tests waren wie Multiple-Choice-Fragen („Ist Antwort A oder B richtig?"). MAWARITH zwingt die KI, den ganzen Weg zu erklären, genau wie ein menschlicher Richter es tun würde.

📏 Der neue Test: MIR-E (Der „Schritt-für-Schritt"-Fahrrad-Check)

Wie prüft man, ob die KI gut ist? Ein einfacher Punktest reicht nicht. Wenn die KI am Ende sagt „Jeder bekommt 100 Euro", aber davor behauptet hat, der Onkel sei noch am Leben (was er gar nicht ist), ist die Antwort zwar zufällig richtig, aber der Weg war falsch.

Die Forscher haben einen neuen Maßstab namens MIR-E erfunden. Stell dir das wie einen Fahrrad-Check vor:

Rad 1 (Die Erben): Hat die KI die richtigen Leute gefunden? (Falsch? -> Das ganze Fahrrad fällt um.)
Rad 2 (Die Regeln): Hat sie die richtigen Anteile berechnet?
Rad 3 (Die Anpassung): Hat sie gemerkt, ob der Kuchen zu groß oder zu klein war für die Stücke?
Rad 4 (Das Endergebnis): Stimmt die Summe?

Wenn die KI bei Schritt 1 einen Fehler macht, ist der Rest egal. MIR-E belohnt die KI dafür, jeden einzelnen Schritt korrekt zu machen.

🤖 Das Rennen der KI-Modelle

Die Forscher haben fünf verschiedene KIs gegeneinander antreten lassen, um zu sehen, wer den Kuchen am besten aufteilt. Das Ergebnis war überraschend klar:

Der Gewinner: Gemini-2.5-flash. Dieser KI-Modell hat fast 90 % der Schritte perfekt gemacht. Es hat die Regeln verstanden, die richtigen Leute gefunden und die Mathematik korrekt angewendet. Es ist wie ein erfahrener Anwalt, der den Kuchen sofort sieht.
Die Verlierer: Alle anderen Modelle (wie LLaMA, Qwen, Fanar) lagen weit hinterher (unter 50 %).
- Warum? Sie machen oft Fehler ganz am Anfang. Sie denken, ein Onkel darf erben, obwohl ein Sohn da ist. Oder sie zählen die Töchter falsch. Sobald dieser erste Fehler passiert, ist die ganze Rechnung danach falsch – wie ein Dominoeffekt.

🔍 Wo liegen die Probleme? (Die Fehleranalyse)

Die Forscher haben genau hingeschaut, wo die KIs hängen bleiben:

Sprachverständnis: Manche KIs verstehen komplexe arabische Familienbezeichnungen nicht. Statt „vier Enkelinnen" zu verstehen, denken sie, es wären zwei verschiedene Gruppen von Leuten.
Die „Blockierungs"-Regel: Das ist die schwierigste Regel. Wenn ein direkter Erbe (wie ein Sohn) da ist, werden entfernte Verwandte (wie Onkel) oft „blockiert" und bekommen nichts. Die KIs vergessen das oft und geben trotzdem etwas ab.
Die Mathematik: Selbst wenn die KIs die richtigen Leute finden, scheitern sie manchmal an der Bruchrechnung, wenn der Kuchen zu groß oder zu klein ist.

💡 Was bedeutet das für die Zukunft?

Diese Studie zeigt uns etwas Wichtiges: KI ist gut darin, Texte zu schreiben, aber noch nicht gut darin, komplexe, logische Regeln strikt einzuhalten.

Das MAWARITH-Set ist jetzt wie ein Lehrbuch für KI, das ihr beibringt, wie man juristisch und mathematisch korrekt denkt. Die Hoffnung ist, dass zukünftige KIs nicht nur „schöne Antworten" generieren, sondern wirklich verlässliche Berater sein können, die keine Fehler bei Erbschaften machen.

Kurz gesagt: Die Forscher haben der KI einen riesigen Haufen Erbschafts-Rätsel gegeben, um zu sehen, ob sie den Kuchen gerecht aufteilen kann. Eine KI hat es fast perfekt gemacht, die anderen haben sich noch viel zu oft vertan. Jetzt wissen wir genau, wo wir sie noch mehr trainieren müssen! 🍰⚖️🤖

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „MAWARITH: A Dataset and Benchmark for Legal Inheritance Reasoning with LLMs" auf Deutsch:

1. Problemstellung

Die Anwendung von Large Language Models (LLMs) auf das islamische Erbrecht (ʿilm al-mawārīth) stellt eine besondere Herausforderung dar. Im Gegensatz zu reinen Wissensabfragen erfordert die Lösung von Erbfällen eine komplexe, strukturierte Mehrstufigkeits-Logik:

Identifikation der Erben: Bestimmung, wer basierend auf Verwandtschaftsgraden erbberechtigt ist.
Anwendung von Sperrregeln (ḥajb): Ausschluss bestimmter Erben durch das Vorhandensein näherer Verwandter.
Berechnung der Anteile: Zuweisung festgelegter Bruchteile (z. B. 1/6, 1/2) und Berechnung des Restanteils.
Korrekturmechanismen: Anwendung von ʿAwl (proportionale Kürzung, wenn die Summe der Anteile > 1 ist) oder Radd (proportionale Verteilung des Überschusses, wenn die Summe < 1 ist und kein Resterbe vorhanden ist).

Bestehende Datensätze beschränken sich oft auf Multiple-Choice-Fragen (MCQs), die nur das Endergebnis bewerten. Dies erlaubt keine Analyse der Zwischenschritte. Fehler in frühen Phasen (z. B. falsche Erbenidentifikation) propagieren jedoch deterministisch und machen das Endergebnis ungültig, ohne dass dies durch eine reine Ergebnisbewertung erkannt wird. Zudem neigen LLMs zu Halluzinationen bei juristischen Quellen und Fehlern in der sprachlichen Parsing von komplexen arabischen Verwandtschaftsbeschreibungen.

2. Methodik und Datensatz (MAWARITH)

Die Autoren stellen MAWARITH vor, einen großen, annotierten Datensatz und Benchmark für das islamische Erbrecht.

Datensatz-Größe und -Aufbau: Der Datensatz enthält 12.500 Fälle in arabischer Sprache. Er wurde durch eine mehrstufige Pipeline erstellt:
1. Generierung strukturierter Eingaben mittels eines Erbrechtrechners.
2. Konvertierung in natürliche Sprache (Arabisch).
3. Anreicherung durch Experten für islamische Studien, die detaillierte Rechenschritte und juristische Begründungen hinzufügen.
4. Standardisierung und Validierung durch KI (Gemini-2.5-flash) und Experten-Review.
Komplexität: Die Fälle decken ein breites Spektrum ab, von einfachen Szenarien mit einer Erbenkategorie bis hin zu komplexen Fällen mit bis zu 12 verschiedenen Erbenkategorien (36 Kategorien insgesamt).
Struktur der Annotation: Jeder Eintrag enthält:
- Eine detaillierte Reasoning-Trace (in <thought>-Tags), die den schrittweisen juristischen Prozess nachvollzieht (Identifikation, Sperrung, Anteilszuweisung, Korrekturmechanismen).
- Eine strukturierte Ausgabe (answer_structured), die Listen von Erben, blockierten Erben, Anteilen und den angewandten Korrekturmechanismen (awl/radd) enthält.
Bewertungsmetrik (MIR-E): Um die Limitationen von reinen „Final-Answer"-Metriken zu umgehen, wurde MIR-E (Mawarith Inheritance Reasoning Evaluation) entwickelt. Dies ist eine gewichtete, mehrstufige Metrik, die folgende Komponenten bewertet:
1. Heir Identification ( $S_h$ ): Korrekte Identifikation von Erben und Sperrung (F1-Score + Zählgenauigkeit).
2. Share Assignment ( $S_s$ ): Korrekte numerische Zuweisung der Anteile.
3. Adjustment ( $S_a$ ): Korrekte Erkennung, ob ʿAwl oder Radd nötig ist (nur bewertet, wenn vorherige Schritte korrekt waren).
4. Final Allocation ( $S_f$ ): Korrekte endgültige Verteilung.
  Die Gesamtnote ist eine gewichtete Summe ( $\alpha_h=0.3, \alpha_s=0.3, \alpha_f=0.3, \alpha_a=0.1$ ).

3. Experimentelles Setup

Modelle: Es wurden fünf verschiedene LLMs im Zero-Shot-Setting (ohne Feinabstimmung) evaluiert:
- Gemini-2.5-flash (kommerziell)
- Qwen3-32B (multilingual, reasoning-fokussiert)
- GPT-OSS-120B (open-source)
- LLaMA-3.3-70B (open-source)
- Fanar-C-2-27B und Fanar-Sadiq (arabisch-zentriert, wobei Fanar-Sadiq spezialisiert auf islamische Themen ist).
Prompting: Die Prompts forderten explizit die Einhaltung der formalen Regeln des islamischen Erbrechts und die Ausgabe im strukturierten Format.

4. Ergebnisse

Die Evaluation zeigt deutliche Leistungsunterschiede zwischen kommerziellen und Open-Weight-Modellen:

Gesamtleistung (MIR-E):
- Gemini-2.5-flash erreicht mit ca. 90% (0.901 auf dem Testset) die mit Abstand beste Leistung.
- Alle anderen Modelle liegen deutlich darunter (< 50%). Qwen3-32B führt die Open-Source-Modelle mit ~~44% an, gefolgt von Fanar-Sadiq (~~37%).
Fehlerfortpflanzung:
- Die Analyse der Pipeline-Erfolgsraten (Abb. 2) zeigt, dass fast alle Modelle (außer Gemini) bereits in der ersten Phase (Erbenidentifikation) stark scheitern. Während Gemini hier eine Erfolgsrate von 78,2% hat, liegen die anderen unter 25%.
- Fehler in der Erbenidentifikation führen dazu, dass spätere Schritte (Anteilsberechnung, Korrektur) nicht mehr sinnvoll bewertet werden können.
Fehleranalyse:
- Sprachliches Parsing: Modelle scheitern oft an der korrekten Interpretation komplexer arabischer Verwandtschaftsbeschreibungen (z. B. „vier Töchter des Sohnes des Sohnes"), was zu falschen Erbenlisten führt.
- Falsche Sperrung (False Blocking) vs. Falsche Berechtigung (False Eligibility): Die häufigsten Fehler sind das Hinzufügen von nicht berechtigten Erben (False Eligibility) oder das fälschliche Sperren berechtigter Erben. Modelle neigen dazu, entfernte Verwandte (z. B. Onkel) hinzuzufügen, obwohl sie durch nähere Verwandte (z. B. Söhne) blockiert sein sollten.
- Rechenfehler: Selbst bei korrekter Erbenliste machen Modelle Fehler bei der Anwendung von Quran-Versen mit Bedingungen (z. B. Reduktion des Mutteranteils von 1/6 auf 1/3 bei Anwesenheit von Geschwistern) oder bei der Berechnung von ʿAwl und Radd.

5. Wichtige Beiträge

MAWARITH-Datensatz: Der erste große, annotierte Datensatz für islamisches Erbrecht, der nicht nur MCQs, sondern vollständige Reasoning-Traces und strukturierte Zwischenergebnisse bereitstellt.
MIR-E-Metrik: Eine neue Evaluationsmetrik, die den Reasoning-Prozess in einzelne Stufen zerlegt und Fehlerfortpflanzung quantifiziert, anstatt nur das Endergebnis zu prüfen.
Benchmark für strukturiertes Reasoning: Der Nachweis, dass selbst fortschrittliche LLMs Schwierigkeiten haben, domänenspezifische, regelbasierte Mehrstufigkeits-Logik korrekt anzuwenden, wenn sie nicht explizit darauf trainiert wurden.
Open-Source vs. Kommerziell: Die Studie unterstreicht die aktuelle Überlegenheit kommerzieller Modelle (insbesondere Gemini) bei komplexen juristischen Reasoning-Aufgaben im Vergleich zu Open-Weight-Modellen, selbst wenn diese auf arabische Inhalte spezialisiert sind.

6. Bedeutung und Ausblick

Das Paper zeigt, dass LLMs für den Einsatz in sensiblen Rechtsbereichen wie dem islamischen Erbrecht noch nicht zuverlässig genug sind, da frühe Fehler katastrophale Folgen für das Endergebnis haben. MAWARITH bietet eine notwendige Infrastruktur, um Modelle zu trainieren, die nicht nur Antworten generieren, sondern nachvollziehbare, juristisch korrekte Argumentationsketten aufbauen.

Zukünftige Arbeiten zielen darauf ab, Reinforcement-Learning-Ansätze (z. B. Process Reward Models) zu nutzen, um Modelle bei jedem Reasoning-Schritt zu belohnen und so die Fehlerfortpflanzung zu reduzieren. Zudem soll der Datensatz um noch komplexere Fälle (z. B. ungeborene Kinder, Vermisste) erweitert werden. Der Datensatz ist öffentlich verfügbar, um die Forschung im Bereich rechtlicher KI und islamischer Wissensverarbeitung voranzutreiben.

MAWARITH: A Dataset and Benchmark for Legal Inheritance Reasoning with LLMs

🌟 Die große Erbschafts-Rätsel-Challenge

🍪 Was haben die Forscher gemacht? (Das MAWARITH-Set)

📏 Der neue Test: MIR-E (Der „Schritt-für-Schritt"-Fahrrad-Check)

🤖 Das Rennen der KI-Modelle

🔍 Wo liegen die Probleme? (Die Fehleranalyse)

💡 Was bedeutet das für die Zukunft?

1. Problemstellung

2. Methodik und Datensatz (MAWARITH)

3. Experimentelles Setup

4. Ergebnisse

5. Wichtige Beiträge

6. Bedeutung und Ausblick

Mehr davon

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models