MAWARITH: A Dataset and Benchmark for Legal Inheritance Reasoning with LLMs

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que el Derecho de Herencias Islámico (conocido como Mawarith) es como un juego de ajedrez muy complicado, pero en lugar de mover piezas, tienes que repartir un pastel gigante entre familiares, siguiendo reglas matemáticas y legales muy estrictas.

Aquí te explico de qué trata este paper, MAWARITH, usando analogías sencillas:

1. El Problema: Los "Robots" se pierden en el laberinto

Los modelos de Inteligencia Artificial (como los que hablan contigo ahora mismo) son muy buenos escribiendo poemas o resumiendo noticias. Pero cuando les pides que resuelvan un caso de herencia, se vuelven locos.

¿Por qué? Porque resolver una herencia no es solo "adivinar" la respuesta. Es como construir una casa:

Primero tienes que saber quiénes son los inquilinos (los herederos).
Luego tienes que saber quiénes no pueden entrar porque hay alguien más importante (las reglas de "bloqueo").
Después, tienes que cortar el pastel en trozos exactos (fracciones matemáticas).
Finalmente, si sobra o falta pastel, tienes que ajustar los trozos (reglas de Radd o Awl).

Si la IA se equivoca en el paso 1 (dice que un primo puede heredar cuando no puede), todo lo que sigue (los cálculos matemáticos) será basura, aunque la matemática en sí sea correcta. Es como intentar calcular la velocidad de un coche que no tiene ruedas.

2. La Solución: MAWARITH (El "Entrenador" de IA)

Los autores crearon MAWARITH, que es como un gimnasio gigante de entrenamiento para estas IAs.

El Dataset: Es un libro de ejercicios con 12,500 casos de herencias en árabe. No son preguntas de opción múltiple (tipo "A, B o C"), sino que la IA tiene que escribir todo el proceso de pensamiento, paso a paso, como si fuera un juez experto.
La Meta: Enseñar a la IA a pensar como un jurista humano: primero identificar, luego bloquear, luego calcular y finalmente ajustar.

3. El Nuevo Medidor: MIR-E (El "Semáforo" de Errores)

Antes, si la IA acertaba la respuesta final, se le daba un "10", aunque hubiera cometido 10 errores en el camino. Eso no sirve para saber si realmente "entiende".

Los autores crearon MIR-E, que es como un semáforo de evaluación:

No solo miran si el pastel final está bien repartido.
Miran si la IA supo quién entra al salón (identificación de herederos).
Miran si supo quién se queda fuera (bloqueo).
Miran si supo hacer las matemáticas correctas.
Si la IA falla en el primer paso, el semáforo se pone rojo inmediatamente, aunque la suma final sea correcta. Esto ayuda a ver dónde falla exactamente.

4. Los Resultados: ¿Quién ganó la carrera?

Pusieron a prueba a 6 "cerebros" de IA (algunos gratuitos y otros de empresas grandes) en este gimnasio:

El Ganador: Gemini-2.5-flash (el modelo comercial de Google) fue el único que realmente entendió el juego. Logró un 90% de éxito. Pensó como un experto, identificó a los herederos correctos y calculó los trozos de pastel perfectos.
Los Perdedores: Los otros modelos (como LLaMA, Qwen o Fanar) tuvieron un rendimiento muy bajo (menos del 50%).
- Su error principal: A menudo inventaban herederos que no existían o bloqueaban a los que sí debían heredar.
- El efecto dominó: Como fallaron al principio, sus cálculos matemáticos posteriores, aunque fueran precisos, no servían de nada porque estaban repartiendo el pastel a personas que no tenían derecho a él.

5. El Hallazgo Curioso: El problema del "Idioma"

Los investigadores descubrieron algo interesante: a veces la IA no falla en las matemáticas ni en la ley, sino en leer el árabe.

Si el texto dice "4 hijas del hijo", algunas IAs leen "4 hijas" y "1 hijo" por separado, creando herederos falsos.
Es como si alguien leyera "cuatro gatos negros" y pensara que hay "cuatro gatos" y "un negro" (una persona) en la habitación.

En Resumen

Este paper nos dice que, aunque la Inteligencia Artificial es muy inteligente, todavía le cuesta mucho seguir reglas complejas y encadenadas como las de las herencias islámicas.

MAWARITH es la herramienta que nos permite ver exactamente dónde fallan (si es en leer, en la ley o en las matemáticas) y nos da un camino claro para entrenar a las IAs para que, en el futuro, puedan actuar como verdaderos jueces de herencias, evitando errores que podrían dejar a familias sin su parte justa del pastel.

Es un paso gigante para que la tecnología respete y entienda las leyes religiosas y culturales con la precisión que merecen.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: MAWARITH

1. El Problema

El derecho islámico de herencias (ʿilm al-mawārīth) representa un desafío significativo para los Modelos de Lenguaje Grande (LLM). Resolver casos de herencia no es una tarea de recuperación de información simple; requiere un razonamiento estructurado, multi-paso y basado en reglas estrictas. El proceso implica:

Identificar a los herederos elegibles basándose en relaciones de parentesco.
Aplicar reglas de bloqueo (ḥajb) que excluyen a ciertos herederos si existen otros con prioridad.
Calcular fracciones exactas asignadas por ley.
Manejar casos de ajuste complejo como ʿawl (reducción proporcional cuando la suma de partes excede el 100% de la herencia) y radd (redistribución del excedente cuando la suma es menor al 100% y no hay herederos residuales).

Los modelos actuales suelen fallar porque los errores en etapas tempranas (como identificar mal a un heredero) se propagan determinísticamente, invalidando todo el cálculo final. Además, las evaluaciones anteriores se limitaban a preguntas de opción múltiple (MCQ), lo que no permitía evaluar la validez de la cadena de razonamiento intermedia ni la justificación legal.

2. Metodología

A. El Dataset MAWARITH

Escala y Composición: Se construyó un corpus de 12,500 casos de herencia en árabe, siguiendo la opinión mayoritaria (al-jumhūr) de la jurisprudencia islámica.
Generación de Datos: El proceso fue un pipeline de múltiples etapas:
1. Generación de casos estructurados usando una calculadora de herencias (Almawarith).
2. Conversión a lenguaje natural árabe.
3. Enriquecimiento por expertos en estudios islámicos para añadir justificaciones legales detalladas y cálculos paso a paso.
4. Estandarización y validación por expertos.
Estructura de la Anotación: Cada instancia incluye:
- answer: Un razonamiento detallado en formato de cadena de pensamiento (<thought>) que sigue el proceso de un jurista (identificación, bloqueo, asignación, ajuste) y una respuesta final (<answer>).
- answer_structured: Una salida JSON que expone las etapas clave (lista de herederos, bloqueados, fracciones iniciales, tipo de ajuste, distribución final).
Diversidad: Cubre desde casos simples (1 categoría de heredero) hasta escenarios complejos con hasta 12 categorías, abarcando 36 tipos de parentesco distintos.

B. Métrica de Evaluación: MIR-E
Para superar las limitaciones de la precisión de la respuesta final, los autores proponen MIR-E (Mawarith Inheritance Reasoning Evaluation), una métrica ponderada de múltiples etapas que evalúa la propagación de errores:

Identificación de Herederos y Bloqueo ( $S_h$ ): Evalúa la precisión en la selección de herederos elegibles y la exclusión correcta de los bloqueados (usando F1-score y precisión de conteo).
Asignación de Cuotas ( $S_s$ ): Evalúa la corrección de las fracciones numéricas asignadas a los herederos elegibles.
Ajuste ( $S_a$ ): Evalúa si el modelo detecta correctamente la necesidad de aplicar ʿawl o radd. Esta etapa se evalúa condicionalmente: solo se puntúa si los pasos anteriores fueron correctos.
Distribución Final ( $S_f$ ): Precisión de la asignación final normalizada.

Puntuación Global: $MIR\text{-}E = 0.30 S_h + 0.30 S_s + 0.10 S_a + 0.30 S_f$ .

C. Configuración Experimental

Se evaluaron 6 LLMs en configuración zero-shot (sin ajuste fino específico) usando prompts en árabe.
Modelos probados: Gemini-2.5-flash (comercial), Qwen3-32B, LLaMA 3.3-70B, GPT-OSS-120B, Fanar-Sadiq (especializado en Islam) y Fanar-C-2-27B (general).
Se utilizó un conjunto de prueba de 500 casos y validación de 200.

3. Resultados Clave

Rendimiento General:
- Gemini-2.5-flash superó ampliamente a todos los demás modelos, alcanzando una puntuación MIR-E de aproximadamente 90% en validación y prueba.
- Los modelos de código abierto (Open-Weight) obtuvieron puntuaciones inferiores al 50% (Qwen3-32B fue el mejor de este grupo con ~44%, seguido por Fanar-Sadiq).
Análisis de Propagación de Errores:
- La Figura 2 del artículo muestra que, excepto Gemini, los modelos tienen dificultades críticas en la etapa 1 (Identificación de herederos). Mientras Gemini logra un 78.2% de éxito en la cadena completa, otros modelos caen drásticamente (ej. Qwen3 cae del 24.4% en identificación al 11.8% en asignación de cuotas).
- Los errores tempranos (identificar mal a un heredero o aplicar mal el bloqueo) invalidan automáticamente los cálculos posteriores.
Tipos de Errores:
- Falsas Elegibilidades (FE): El error más común en modelos de código abierto; incluyen herederos que no tienen derecho (ej. incluir hermanos cuando hay hijos).
- Bloqueos Falsos (FB): Excluyen incorrectamente a herederos elegibles.
- Errores Lingüísticos: Dificultad para interpretar expresiones compuestas de parentesco en árabe (ej. "cuatro hijas del hijo de un hijo"), a veces dividiendo un solo tipo de heredero en múltiples entidades erróneas.
- Errores de Ajuste: Confusión entre cuándo aplicar radd (redistribución) y cuándo el excedente debe ser absorbido por un heredero residual (ʿaṣabah).

4. Contribuciones Principales

Dataset MAWARITH: El primer dataset a gran escala (12.5k casos) de herencias islámicas con razonamiento paso a paso y justificaciones legales, diseñado específicamente para entrenar y evaluar la capacidad de razonamiento estructurado, no solo la respuesta final.
Métrica MIR-E: Un marco de evaluación granular que descompone el éxito del modelo en etapas lógicas, permitiendo identificar dónde falla el modelo (identificación vs. cálculo vs. ajuste) y cuantificar la propagación de errores.
Benchmark de Razonamiento Legal: Demuestra que el derecho islámico de herencias es un "banco de pruebas" superior para evaluar la capacidad de razonamiento multi-paso de los LLMs, superando a benchmarks matemáticos sintéticos en complejidad de reglas y dependencia contextual.

5. Significado y Conclusiones

Brecha Comercial vs. Open-Source: Existe una brecha significativa en la capacidad de razonamiento legal estructurado. Los modelos comerciales (Gemini) muestran una comprensión mucho más robusta de las reglas complejas y la consistencia en la cadena de razonamiento, mientras que los modelos abiertos, incluso aquellos especializados en el dominio islámico (Fanar), luchan con la aplicación consistente de las reglas de bloqueo y exclusión.
Limitaciones Actuales: Los modelos actuales tienden a "alucinar" relaciones de parentesco o aplicar reglas de forma aislada sin garantizar la consistencia global del caso. La falta de exposición a datos de razonamiento legal estricto durante el entrenamiento es una causa principal.
Futuro: El trabajo sugiere que el uso de Modelos de Recompensa de Proceso (Process Reward Models) y aprendizaje por refuerzo podría ser clave para guiar a los modelos hacia trayectorias de razonamiento válidas y reducir la propagación de errores. Además, se planea expandir el corpus para incluir casos aún más complejos (embarazo, personas desaparecidas, etc.).

En resumen, MAWARITH establece un nuevo estándar para evaluar la inteligencia artificial en dominios legales de alta complejidad, demostrando que la fluidez lingüística no es suficiente para el razonamiento jurídico preciso y que se necesitan arquitecturas y datos específicos para manejar la lógica deductiva estricta requerida por la ley islámica.

MAWARITH: A Dataset and Benchmark for Legal Inheritance Reasoning with LLMs

1. El Problema: Los "Robots" se pierden en el laberinto

2. La Solución: MAWARITH (El "Entrenador" de IA)

3. El Nuevo Medidor: MIR-E (El "Semáforo" de Errores)

4. Los Resultados: ¿Quién ganó la carrera?

5. El Hallazgo Curioso: El problema del "Idioma"

En Resumen

Resumen Técnico: MAWARITH

1. El Problema

2. Metodología

3. Resultados Clave

4. Contribuciones Principales

5. Significado y Conclusiones

Más como este

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models