MAWARITH: A Dataset and Benchmark for Legal Inheritance Reasoning with LLMs

El artículo presenta MAWARITH, un conjunto de datos y marco de evaluación en árabe diseñado para entrenar y medir la capacidad de razonamiento legal de los modelos de lenguaje en la compleja ley de herencia islámica, destacando que, aunque Gemini-2.5-flash alcanza un rendimiento superior, la mayoría de los modelos actuales aún cometen errores significativos en la identificación de herederos y el cálculo de cuotas.

Abdessalam Bouchekif, Shahd Gaben, Samer Rashwani, Somaya Eltanbouly, Mutaz Al-Khatib, Heba Sbahi, Mohammed Ghaly, Emad Mohamed

Publicado 2026-03-10
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que el Derecho de Herencias Islámico (conocido como Mawarith) es como un juego de ajedrez muy complicado, pero en lugar de mover piezas, tienes que repartir un pastel gigante entre familiares, siguiendo reglas matemáticas y legales muy estrictas.

Aquí te explico de qué trata este paper, MAWARITH, usando analogías sencillas:

1. El Problema: Los "Robots" se pierden en el laberinto

Los modelos de Inteligencia Artificial (como los que hablan contigo ahora mismo) son muy buenos escribiendo poemas o resumiendo noticias. Pero cuando les pides que resuelvan un caso de herencia, se vuelven locos.

¿Por qué? Porque resolver una herencia no es solo "adivinar" la respuesta. Es como construir una casa:

  1. Primero tienes que saber quiénes son los inquilinos (los herederos).
  2. Luego tienes que saber quiénes no pueden entrar porque hay alguien más importante (las reglas de "bloqueo").
  3. Después, tienes que cortar el pastel en trozos exactos (fracciones matemáticas).
  4. Finalmente, si sobra o falta pastel, tienes que ajustar los trozos (reglas de Radd o Awl).

Si la IA se equivoca en el paso 1 (dice que un primo puede heredar cuando no puede), todo lo que sigue (los cálculos matemáticos) será basura, aunque la matemática en sí sea correcta. Es como intentar calcular la velocidad de un coche que no tiene ruedas.

2. La Solución: MAWARITH (El "Entrenador" de IA)

Los autores crearon MAWARITH, que es como un gimnasio gigante de entrenamiento para estas IAs.

  • El Dataset: Es un libro de ejercicios con 12,500 casos de herencias en árabe. No son preguntas de opción múltiple (tipo "A, B o C"), sino que la IA tiene que escribir todo el proceso de pensamiento, paso a paso, como si fuera un juez experto.
  • La Meta: Enseñar a la IA a pensar como un jurista humano: primero identificar, luego bloquear, luego calcular y finalmente ajustar.

3. El Nuevo Medidor: MIR-E (El "Semáforo" de Errores)

Antes, si la IA acertaba la respuesta final, se le daba un "10", aunque hubiera cometido 10 errores en el camino. Eso no sirve para saber si realmente "entiende".

Los autores crearon MIR-E, que es como un semáforo de evaluación:

  • No solo miran si el pastel final está bien repartido.
  • Miran si la IA supo quién entra al salón (identificación de herederos).
  • Miran si supo quién se queda fuera (bloqueo).
  • Miran si supo hacer las matemáticas correctas.
  • Si la IA falla en el primer paso, el semáforo se pone rojo inmediatamente, aunque la suma final sea correcta. Esto ayuda a ver dónde falla exactamente.

4. Los Resultados: ¿Quién ganó la carrera?

Pusieron a prueba a 6 "cerebros" de IA (algunos gratuitos y otros de empresas grandes) en este gimnasio:

  • El Ganador: Gemini-2.5-flash (el modelo comercial de Google) fue el único que realmente entendió el juego. Logró un 90% de éxito. Pensó como un experto, identificó a los herederos correctos y calculó los trozos de pastel perfectos.
  • Los Perdedores: Los otros modelos (como LLaMA, Qwen o Fanar) tuvieron un rendimiento muy bajo (menos del 50%).
    • Su error principal: A menudo inventaban herederos que no existían o bloqueaban a los que sí debían heredar.
    • El efecto dominó: Como fallaron al principio, sus cálculos matemáticos posteriores, aunque fueran precisos, no servían de nada porque estaban repartiendo el pastel a personas que no tenían derecho a él.

5. El Hallazgo Curioso: El problema del "Idioma"

Los investigadores descubrieron algo interesante: a veces la IA no falla en las matemáticas ni en la ley, sino en leer el árabe.

  • Si el texto dice "4 hijas del hijo", algunas IAs leen "4 hijas" y "1 hijo" por separado, creando herederos falsos.
  • Es como si alguien leyera "cuatro gatos negros" y pensara que hay "cuatro gatos" y "un negro" (una persona) en la habitación.

En Resumen

Este paper nos dice que, aunque la Inteligencia Artificial es muy inteligente, todavía le cuesta mucho seguir reglas complejas y encadenadas como las de las herencias islámicas.

MAWARITH es la herramienta que nos permite ver exactamente dónde fallan (si es en leer, en la ley o en las matemáticas) y nos da un camino claro para entrenar a las IAs para que, en el futuro, puedan actuar como verdaderos jueces de herencias, evitando errores que podrían dejar a familias sin su parte justa del pastel.

Es un paso gigante para que la tecnología respete y entienda las leyes religiosas y culturales con la precisión que merecen.