MAWARITH: A Dataset and Benchmark for Legal Inheritance Reasoning with LLMs

イスラム法における複雑な相続計算を評価するための大規模なデータセット「MAWARITH」と多段階評価指標「MIR-E」を提案し、既存のモデルが推論の全段階で課題を抱えていることを示した研究です。

Abdessalam Bouchekif, Shahd Gaben, Samer Rashwani, Somaya Eltanbouly, Mutaz Al-Khatib, Heba Sbahi, Mohammed Ghaly, Emad Mohamed

公開日 2026-03-10
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

「マワリト(MAWARITH)」:AI にイスラムの遺産相続を教えるための新しい教科書

この論文は、**「AI(人工知能)が、イスラム法の複雑な遺産相続ルールを正しく計算できるか?」**という問いに答えるために作られた、画期的な研究です。

まるで、AI に「相続という名のパズル」を解かせるための、世界最大の練習問題集と採点システムを作ったようなものです。

以下に、専門用語を避け、身近な例えを使って解説します。


1. なぜこれが難しいのか?(AI の「頭脳」の限界)

AI は普段、文章をまとめたり、質問に答えたりするのが得意です。しかし、イスラムの遺産相続は**「積み木」**のようなものです。

  • ルールが厳格: 「お父さんがいれば、おじさんは相続権がない」「子供が 2 人いれば、母親の取り分は 1/6 になる」など、ルールが厳密に決まっています。
  • 連鎖反応: 最初の積み木(誰が相続人か?)を間違えると、その上の積み木(誰がどれだけもらうか?)も全部崩れてしまいます。
  • 調整が必要: 分配した合計が「1 円(全財産)」を超えてしまったり、足りなかったりする場合、特別な計算(調整)が必要です。

これまでの AI は、この「積み木」の最初の段でつまずくと、最終的な答えが間違っていても「正解」として処理されてしまうことがありました。

2. 新製品「マワリト(MAWARITH)」とは?

研究者たちは、12,500 問もの遺産相続の問題集(データセット)を作りました。

  • ただの答え合わせじゃない: 従来のテストは「正解の選択肢 A, B, C, D のどれか」を選ぶだけでしたが、これは**「思考の過程(ステップバイステップ)」**をすべて見せることを求めます。
    • ステップ 1: 誰が相続人か?(おじさんは除外されるべきか?)
    • ステップ 2: 誰をブロック(排除)するか?
    • ステップ 3: 各人の取り分を計算する。
    • ステップ 4: 合計が 1 にならない場合の調整(増減)をする。
  • 専門家による解説: 各問題には、イスラム法の専門家(ウラマー)が書いたような、詳細な解説と根拠が添付されています。

3. 採点システム「MIR-E」:過程を評価する

これまでのテストは「最終的な金額が合っていれば OK」でしたが、この研究では**「MIR-E(ミル・イー)」**という新しい採点システムを使います。

これは、**「料理のレシピ」**に例えると分かりやすいです。

  • 従来のテスト: 「出来上がったケーキが美味しければ OK」。
  • MIR-E: 「卵を割ったか?(ステップ 1)、砂糖を混ぜたか?(ステップ 2)、オーブンに入れたか?(ステップ 3)」を一つ一つチェックします。

もし「卵を割る」段階で間違えていたら、その後の工程が完璧でも、全体の点数は下がります。これにより、AI が**「どこで間違えたのか」**を詳しく分析できます。

4. 実験結果:AI はどうだった?

5 つの有名な AI モデル(Gemini, LLaMA, Qwen など)にテストを受けさせました。

  • 勝者:Gemini-2.5-flash
    • 約**90%**の正解率を達成しました。まるで、相続の専門家として活躍できるレベルです。
  • 他のモデル(LLaMA, Qwen など)
    • 正解率は50% 未満でした。
    • 主な失敗パターン:
      1. 関係性の読み間違い: 「孫の娘 4 人」を「孫の娘」と「娘」に分けて数えてしまうなど、言葉の解釈でミス。
      2. ルール適用ミス: 「お父さんがいるのに、おじさんにも相続権がある」と誤解して、余計な人をリストに追加してしまう(これを「偽の合格」と呼びます)。
      3. 計算の連鎖崩壊: 最初の人が間違えると、その後の計算も全部狂ってしまう。

5. この研究の意義

この研究は、AI が単に「知識を暗記する」だけでなく、**「論理的に考え、ルールに従って行動する」**能力をどう測るかを示しました。

  • 宗教・法律分野への貢献: 相続は家族の平和に関わる重要な問題です。AI がここで失敗すると、実際の家族間にトラブルが起きる可能性があります。
  • 未来への道筋: この「マワリト」データセットを使って、AI に「正しく考える癖」を付けさせることで、将来はより信頼できる法律支援 AI や、複雑な判断を必要とする AI を作れるようになります。

まとめ

この論文は、**「AI に『相続計算』という難しいパズルを解かせて、その思考過程を徹底的にチェックした」**という研究です。

結果として、一部の AI は非常に優秀であることが分かりましたが、多くの AI は「最初のルール理解」でつまずいていることが明らかになりました。これは、AI が人間のように「文脈やルールを深く理解する」ためには、まだ多くの訓練と工夫が必要だということを教えてくれています。