MAWARITH: A Dataset and Benchmark for Legal Inheritance Reasoning with LLMs

Ce papier présente MAWARITH, un vaste ensemble de données annoté de 12 500 cas de droit successoral islamique en arabe conçu pour entraîner et évaluer les modèles de langage sur l'ensemble de la chaîne de raisonnement juridique, accompagnée d'une nouvelle métrique d'évaluation (MIR-E) qui révèle les limites actuelles des LLMs dans l'application précise des règles complexes d'héritage.

Abdessalam Bouchekif, Shahd Gaben, Samer Rashwani, Somaya Eltanbouly, Mutaz Al-Khatib, Heba Sbahi, Mohammed Ghaly, Emad Mohamed

Publié 2026-03-10
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée de l'article de recherche sur MAWARITH, destinée à un public général.

Imaginez que l'application des lois de l'héritage islamique (le Mawarith) est comme un jeu d'échecs très complexe où chaque pièce a une valeur précise, mais où les règles de déplacement changent selon qui est présent sur l'échiquier. Si vous bougez une pièce au mauvais endroit, tout le reste du jeu devient invalide.

Voici ce que les chercheurs ont fait, expliqué simplement :

1. Le Problème : Les IA sont de bonnes conteuses, mais de mauvais comptables

Les grands modèles d'intelligence artificielle (comme ceux qui écrivent des poèmes ou répondent à des questions générales) sont excellents pour parler. Mais quand il s'agit de raisonner étape par étape selon des règles strictes, ils ont tendance à faire des erreurs.

Dans le domaine de l'héritage islamique, une erreur au début (par exemple, oublier un cousin ou inclure quelqu'un qui n'a pas le droit d'hériter) rend tout le calcul final faux. C'est comme si un architecte dessinait une maison avec une fondation de travers : même si les murs sont beaux, la maison s'effondre.

2. La Solution : Le "Manuel de Cuisine" MAWARITH

Pour tester et entraîner ces IA, les chercheurs ont créé MAWARITH.

  • C'est quoi ? Une immense bibliothèque de 12 500 cas d'héritage (des histoires de familles, de décès et de partages) rédigés en arabe.
  • La différence clé : Avant, on demandait aux IA de choisir la bonne réponse parmi plusieurs options (comme un QCM). Ici, on leur demande de cuisiner le plat entier. Elles doivent :
    1. Identifier qui a le droit de manger (les héritiers).
    2. Expliquer pourquoi certains ne peuvent pas manger (les règles d'exclusion).
    3. Calculer exactement combien de parts de gâteau chacun reçoit.
    4. Justifier chaque étape avec des règles juridiques précises.

C'est comme donner à un élève non seulement la réponse finale, mais aussi son cahier de brouillon où il doit montrer tous ses calculs.

3. Le Juge : Le Score "MIR-E"

Comment savoir si l'IA a bien travaillé ? Les chercheurs ont inventé un nouveau système de notation appelé MIR-E.

  • Au lieu de dire simplement "C'est juste" ou "C'est faux", ce système note chaque étape séparément.
  • L'analogie : Imaginez un examen de conduite.
    • Si vous ratez le démarrage (identifier les héritiers), vous ne passez pas, même si vous conduisez bien ensuite.
    • Si vous démarrez bien mais faites une erreur de calcul à la fin, vous perdez des points, mais on sait exactement où vous avez échoué.
    • Cela permet de voir si l'IA a compris la logique ou si elle a juste deviné la réponse finale.

4. Les Résultats : Le Gagnant et les Perdants

Les chercheurs ont testé plusieurs IA (comme Gemini, LLaMA, Qwen, etc.) sans leur donner de cours préalables (en "zero-shot").

  • Le Champion : Gemini-2.5-flash a brillé, obtenant un score d'environ 90%. Il a réussi à suivre la logique complexe, à ne pas oublier les règles et à faire les bons calculs.
  • Les autres : Les autres modèles (souvent des versions open-source) ont obtenu moins de 50%.
  • Pourquoi ? La plupart des erreurs venaient du début : ils identifiaient mal la famille (oublier un oncle, ajouter un cousin qui ne devrait pas être là). Une fois cette erreur faite, tout le calcul suivant devenait inutile, comme un arbre qui pousse sur des racines pourries.

5. Les Pièges Linguistiques

Une découverte intéressante : même avec des règles claires, les IA se perdent parfois dans la langue arabe.

  • L'analogie : C'est comme si on leur disait "Il y a 5 fils de mon fils". Certaines IA pensaient qu'il y avait deux groupes de personnes différents au lieu d'un seul groupe de 5 personnes. Elles "découpaient" la famille en morceaux imaginaires.
  • Cela montre que pour ces tâches juridiques, comprendre la langue aussi bien que la logique est crucial.

En Résumé

Ce papier nous dit que pour que l'IA soit utile dans des domaines sérieux comme le droit ou la religion, elle ne doit pas juste "deviner" la réponse. Elle doit penser comme un juge, étape par étape, en respectant scrupuleusement les règles.

Le dataset MAWARITH est maintenant disponible pour aider les chercheurs à entraîner de futures IA capables de résoudre ces énigmes juridiques complexes avec précision, un peu comme un apprenti juriste qui apprendrait à maîtriser le code de l'héritage grâce à des milliers d'exercices corrigés.