MAWARITH: A Dataset and Benchmark for Legal Inheritance Reasoning with LLMs

Die Arbeit stellt MAWARITH vor, einen umfassenden arabischen Datensatz und Benchmark mit 12.500 annotierten Erbfällen, der große Sprachmodelle durch detaillierte Schritt-für-Schritt-Lösungen und eine neue Evaluierungsmetrik (MIR-E) in der komplexen reasoning-Aufgabe des islamischen Erbrechts testet.

Abdessalam Bouchekif, Shahd Gaben, Samer Rashwani, Somaya Eltanbouly, Mutaz Al-Khatib, Heba Sbahi, Mohammed Ghaly, Emad Mohamed

Veröffentlicht 2026-03-10
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Forschungspapier „MAWARITH", die wie eine Geschichte erzählt wird, damit jeder sie verstehen kann – egal ob man Jurist ist oder nicht.

🌟 Die große Erbschafts-Rätsel-Challenge

Stell dir vor, du hast einen riesigen, komplizierten Kuchen gebacken (das ist der Nachlass eines Verstorbenen). Jetzt musst du den Kuchen gerecht unter deiner Familie aufteilen. Aber es gibt eine sehr strenge Regel: Du darfst nicht einfach raten, wer wie viel bekommt. Es gibt ein altes, mathematisch perfektes Regelwerk (das islamische Erbrecht), das genau festlegt:

  • Wer darf überhaupt einen Krümel bekommen? (Vielleicht ist ein Bruder ausgeschlossen, weil ein Sohn da ist.)
  • Wer bekommt wie viel? (Die Mutter bekommt genau 1/6, die Tochter 1/2.)
  • Was passiert, wenn die Stücke zusammen größer sind als der ganze Kuchen? (Dann müssen alle etwas abgeben.)
  • Was passiert, wenn noch etwas übrig bleibt? (Dann wird es wieder verteilt.)

Das Problem: Künstliche Intelligenz (KI) ist super darin, Texte zu schreiben und Fragen zu beantworten. Aber wenn es darum geht, dieses komplexe Kuchen-Rätsel Schritt für Schritt zu lösen, macht sie oft dumme Fehler. Sie vergisst jemanden, rechnet falsch oder ignoriert die Regeln.

🍪 Was haben die Forscher gemacht? (Das MAWARITH-Set)

Die Forscher von der Hamad Bin Khalifa University in Katar haben sich gedacht: „Wir müssen der KI beibringen, wie man diesen Kuchen wirklich aufteilt, nicht nur wie man darüber redet."

Dafür haben sie MAWARITH erstellt. Das ist wie ein riesiges Trainingsbuch mit 12.500 verschiedenen Erbschafts-Fällen.

  • Die Aufgabe: Die KI bekommt eine Geschichte („Der Verstorbene hinterlässt eine Frau, drei Töchter und einen Onkel...").
  • Die Lösung: Die KI muss nicht nur das Endergebnis nennen, sondern den ganzen Denkprozess zeigen: „Zuerst habe ich geprüft, ob der Onkel dran ist (Nein, die Töchter blockieren ihn). Dann habe ich berechnet, wie viel die Frau bekommt..."

Das Besondere: Frühere Tests waren wie Multiple-Choice-Fragen („Ist Antwort A oder B richtig?"). MAWARITH zwingt die KI, den ganzen Weg zu erklären, genau wie ein menschlicher Richter es tun würde.

📏 Der neue Test: MIR-E (Der „Schritt-für-Schritt"-Fahrrad-Check)

Wie prüft man, ob die KI gut ist? Ein einfacher Punktest reicht nicht. Wenn die KI am Ende sagt „Jeder bekommt 100 Euro", aber davor behauptet hat, der Onkel sei noch am Leben (was er gar nicht ist), ist die Antwort zwar zufällig richtig, aber der Weg war falsch.

Die Forscher haben einen neuen Maßstab namens MIR-E erfunden. Stell dir das wie einen Fahrrad-Check vor:

  1. Rad 1 (Die Erben): Hat die KI die richtigen Leute gefunden? (Falsch? -> Das ganze Fahrrad fällt um.)
  2. Rad 2 (Die Regeln): Hat sie die richtigen Anteile berechnet?
  3. Rad 3 (Die Anpassung): Hat sie gemerkt, ob der Kuchen zu groß oder zu klein war für die Stücke?
  4. Rad 4 (Das Endergebnis): Stimmt die Summe?

Wenn die KI bei Schritt 1 einen Fehler macht, ist der Rest egal. MIR-E belohnt die KI dafür, jeden einzelnen Schritt korrekt zu machen.

🤖 Das Rennen der KI-Modelle

Die Forscher haben fünf verschiedene KIs gegeneinander antreten lassen, um zu sehen, wer den Kuchen am besten aufteilt. Das Ergebnis war überraschend klar:

  • Der Gewinner: Gemini-2.5-flash. Dieser KI-Modell hat fast 90 % der Schritte perfekt gemacht. Es hat die Regeln verstanden, die richtigen Leute gefunden und die Mathematik korrekt angewendet. Es ist wie ein erfahrener Anwalt, der den Kuchen sofort sieht.
  • Die Verlierer: Alle anderen Modelle (wie LLaMA, Qwen, Fanar) lagen weit hinterher (unter 50 %).
    • Warum? Sie machen oft Fehler ganz am Anfang. Sie denken, ein Onkel darf erben, obwohl ein Sohn da ist. Oder sie zählen die Töchter falsch. Sobald dieser erste Fehler passiert, ist die ganze Rechnung danach falsch – wie ein Dominoeffekt.

🔍 Wo liegen die Probleme? (Die Fehleranalyse)

Die Forscher haben genau hingeschaut, wo die KIs hängen bleiben:

  1. Sprachverständnis: Manche KIs verstehen komplexe arabische Familienbezeichnungen nicht. Statt „vier Enkelinnen" zu verstehen, denken sie, es wären zwei verschiedene Gruppen von Leuten.
  2. Die „Blockierungs"-Regel: Das ist die schwierigste Regel. Wenn ein direkter Erbe (wie ein Sohn) da ist, werden entfernte Verwandte (wie Onkel) oft „blockiert" und bekommen nichts. Die KIs vergessen das oft und geben trotzdem etwas ab.
  3. Die Mathematik: Selbst wenn die KIs die richtigen Leute finden, scheitern sie manchmal an der Bruchrechnung, wenn der Kuchen zu groß oder zu klein ist.

💡 Was bedeutet das für die Zukunft?

Diese Studie zeigt uns etwas Wichtiges: KI ist gut darin, Texte zu schreiben, aber noch nicht gut darin, komplexe, logische Regeln strikt einzuhalten.

Das MAWARITH-Set ist jetzt wie ein Lehrbuch für KI, das ihr beibringt, wie man juristisch und mathematisch korrekt denkt. Die Hoffnung ist, dass zukünftige KIs nicht nur „schöne Antworten" generieren, sondern wirklich verlässliche Berater sein können, die keine Fehler bei Erbschaften machen.

Kurz gesagt: Die Forscher haben der KI einen riesigen Haufen Erbschafts-Rätsel gegeben, um zu sehen, ob sie den Kuchen gerecht aufteilen kann. Eine KI hat es fast perfekt gemacht, die anderen haben sich noch viel zu oft vertan. Jetzt wissen wir genau, wo wir sie noch mehr trainieren müssen! 🍰⚖️🤖