MAWARITH: A Dataset and Benchmark for Legal Inheritance Reasoning with LLMs

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée de l'article de recherche sur MAWARITH, destinée à un public général.

Imaginez que l'application des lois de l'héritage islamique (le Mawarith) est comme un jeu d'échecs très complexe où chaque pièce a une valeur précise, mais où les règles de déplacement changent selon qui est présent sur l'échiquier. Si vous bougez une pièce au mauvais endroit, tout le reste du jeu devient invalide.

Voici ce que les chercheurs ont fait, expliqué simplement :

1. Le Problème : Les IA sont de bonnes conteuses, mais de mauvais comptables

Les grands modèles d'intelligence artificielle (comme ceux qui écrivent des poèmes ou répondent à des questions générales) sont excellents pour parler. Mais quand il s'agit de raisonner étape par étape selon des règles strictes, ils ont tendance à faire des erreurs.

Dans le domaine de l'héritage islamique, une erreur au début (par exemple, oublier un cousin ou inclure quelqu'un qui n'a pas le droit d'hériter) rend tout le calcul final faux. C'est comme si un architecte dessinait une maison avec une fondation de travers : même si les murs sont beaux, la maison s'effondre.

2. La Solution : Le "Manuel de Cuisine" MAWARITH

Pour tester et entraîner ces IA, les chercheurs ont créé MAWARITH.

C'est quoi ? Une immense bibliothèque de 12 500 cas d'héritage (des histoires de familles, de décès et de partages) rédigés en arabe.
La différence clé : Avant, on demandait aux IA de choisir la bonne réponse parmi plusieurs options (comme un QCM). Ici, on leur demande de cuisiner le plat entier. Elles doivent :
1. Identifier qui a le droit de manger (les héritiers).
2. Expliquer pourquoi certains ne peuvent pas manger (les règles d'exclusion).
3. Calculer exactement combien de parts de gâteau chacun reçoit.
4. Justifier chaque étape avec des règles juridiques précises.

C'est comme donner à un élève non seulement la réponse finale, mais aussi son cahier de brouillon où il doit montrer tous ses calculs.

3. Le Juge : Le Score "MIR-E"

Comment savoir si l'IA a bien travaillé ? Les chercheurs ont inventé un nouveau système de notation appelé MIR-E.

Au lieu de dire simplement "C'est juste" ou "C'est faux", ce système note chaque étape séparément.
L'analogie : Imaginez un examen de conduite.
- Si vous ratez le démarrage (identifier les héritiers), vous ne passez pas, même si vous conduisez bien ensuite.
- Si vous démarrez bien mais faites une erreur de calcul à la fin, vous perdez des points, mais on sait exactement où vous avez échoué.
- Cela permet de voir si l'IA a compris la logique ou si elle a juste deviné la réponse finale.

4. Les Résultats : Le Gagnant et les Perdants

Les chercheurs ont testé plusieurs IA (comme Gemini, LLaMA, Qwen, etc.) sans leur donner de cours préalables (en "zero-shot").

Le Champion : Gemini-2.5-flash a brillé, obtenant un score d'environ 90%. Il a réussi à suivre la logique complexe, à ne pas oublier les règles et à faire les bons calculs.
Les autres : Les autres modèles (souvent des versions open-source) ont obtenu moins de 50%.
Pourquoi ? La plupart des erreurs venaient du début : ils identifiaient mal la famille (oublier un oncle, ajouter un cousin qui ne devrait pas être là). Une fois cette erreur faite, tout le calcul suivant devenait inutile, comme un arbre qui pousse sur des racines pourries.

5. Les Pièges Linguistiques

Une découverte intéressante : même avec des règles claires, les IA se perdent parfois dans la langue arabe.

L'analogie : C'est comme si on leur disait "Il y a 5 fils de mon fils". Certaines IA pensaient qu'il y avait deux groupes de personnes différents au lieu d'un seul groupe de 5 personnes. Elles "découpaient" la famille en morceaux imaginaires.
Cela montre que pour ces tâches juridiques, comprendre la langue aussi bien que la logique est crucial.

En Résumé

Ce papier nous dit que pour que l'IA soit utile dans des domaines sérieux comme le droit ou la religion, elle ne doit pas juste "deviner" la réponse. Elle doit penser comme un juge, étape par étape, en respectant scrupuleusement les règles.

Le dataset MAWARITH est maintenant disponible pour aider les chercheurs à entraîner de futures IA capables de résoudre ces énigmes juridiques complexes avec précision, un peu comme un apprenti juriste qui apprendrait à maîtriser le code de l'héritage grâce à des milliers d'exercices corrigés.

Each language version is independently generated for its own context, not a direct translation.

`) et une réponse finale structurée. Le raisonnement couvre l'extraction des héritiers, l'analyse du blocage, le calcul des parts, et les ajustements (ʿawl/radd).

Répartition : 12 000 cas pour l'entraînement et 500 pour le test, couvrant des scénarios de complexité variable (de 1 à 12 catégories d'héritiers distinctes).

B. Métrique d'Évaluation : MIR-E

Pour dépasser la simple vérification de la réponse finale, les auteurs proposent MIR-E (Mawarith Inheritance Reasoning Evaluation), une métrique pondérée multi-étapes qui évalue la chaîne de raisonnement complète :

Identification des héritiers et du blocage ( $S_h$ ) : Évalue la précision de la liste des héritiers éligibles, des héritiers bloqués et de leurs comptes (F1-score et précision des multiplicités).
Attribution des parts ( $S_s$ ) : Vérifie la justesse des fractions numériques attribuées aux héritiers éligibles.
Ajustement ( $S_a$ ) : Évalue la capacité à détecter correctement la nécessité d'une normalisation (ʿawl ou radd). Cette étape est évaluée conditionnellement : elle ne compte que si les étapes précédentes sont correctes.
Allocation finale ( $S_f$ ) : Vérifie la distribution finale normalisée.

Le score final est une somme pondérée : $MIR\text{-}E = 0.30 S_h + 0.30 S_s + 0.10 S_a + 0.30 S_f$ .

C. Configuration Expérimentale

Six modèles LLM ont été évalués en zero-shot (sans fine-tuning spécifique) sur des prompts en arabe :

Modèles commerciaux : Gemini-2.5-flash.
Modèles open-source multilingues : LLaMA 3.3 (70B), GPT-OSS (120B), Qwen3 (32B).
Modèles spécialisés arabes/islamiques : Fanar-C (27B) et Fanar-Sadiq (spécialisé islamique).

3. Résultats Clés

Performance Globale

Gemini-2.5-flash surpasse nettement tous les autres modèles, atteignant un score MIR-E d'environ 90 % (91,8 % sur la validation, 90,1 % sur le test).
Les modèles open-source (Qwen3, LLaMA, Fanar, GPT-OSS) obtiennent tous des scores inférieurs à 50 %, avec Qwen3-32B se classant deuxième (environ 44 %).

Analyse des Erreurs par Étape

L'analyse fine révèle des patterns d'échec critiques :

Identification des héritiers (Étape 1) : C'est le goulot d'étranglement principal. Gemini réussit à identifier correctement les héritiers dans 78,2 % des cas, tandis que les autres modèles tombent en dessous de 25 %.
- Types d'erreurs : "Faux blocage" (exclure un héritier éligible) et "Fausse éligibilité" (inclure un héritier bloqué). Les modèles ont tendance à ajouter des héritiers lointains (oncles, cousins) même lorsque des héritiers proches (enfants) sont présents, violant les règles de blocage.
Propagation des erreurs : Une erreur à l'étape 1 rend les étapes suivantes (calcul des parts, ajustement) inutiles ou incorrectes. La plupart des modèles open-source subissent une chute drastique de performance entre l'identification des héritiers et l'attribution des parts.
Calcul des parts et Ajustement : Une fois les héritiers correctement identifiés, Gemini maintient une précision très élevée (97,7 % pour l'attribution des parts). Les autres modèles montrent des lacunes dans l'application des règles conditionnelles du Coran (ex: réduction de la part de la mère en présence de frères/sœurs).
Compréhension linguistique : Des erreurs surviennent lors de l'extraction des noms de parenté complexes en arabe (ex: confusion entre "quatre filles de fils" et "quatre filles" + "un fils").

4. Contributions Principales

Dataset MAWARITH : Le premier jeu de données à grande échelle (12,5k cas) offrant des solutions étape par étape avec justifications juridiques, permettant l'entraînement et l'évaluation du raisonnement complet plutôt que du simple résultat final.
Métrique MIR-E : Une nouvelle métrique d'évaluation qui décompose la performance en sous-scores intermédiaires, permettant d'identifier précisément où le raisonnement échoue (identification vs calcul vs ajustement).
Analyse des capacités de raisonnement : L'étude démontre que même les modèles les plus avancés peinent à appliquer des règles juridiques strictes et séquentielles sans entraînement spécifique, et que la qualité du raisonnement dépend fortement de la précision de l'étape initiale d'identification.

5. Signification et Perspectives

Ce travail met en lumière les limites actuelles des LLM dans les domaines juridiques nécessitant un raisonnement structuré et une application rigoureuse de règles normatives. Il montre que la simple génération de texte fluide ou la connaissance générale ne suffisent pas pour des tâches comme le droit successoral islamique.

Impact : MAWARITH sert de benchmark standard pour évaluer et améliorer les modèles de raisonnement juridique.
Futur : Les auteurs prévoient d'explorer des approches d'apprentissage par renforcement (Process Reward Models) pour guider les modèles vers des trajectoires de raisonnement valides et réduire la propagation d'erreurs. Ils envisagent également d'étendre le corpus à des cas plus complexes (grossesse, disparition, intersexualité).

En conclusion, MAWARITH établit un nouveau standard pour l'évaluation du raisonnement juridique en arabe, soulignant le fossé entre les modèles commerciaux de pointe et les modèles open-source, tout en fournissant les outils nécessaires pour combler ce fossé.