MAWARITH: A Dataset and Benchmark for Legal Inheritance Reasoning with LLMs

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um juiz encarregado de dividir a herança de uma pessoa que acabou de falecer. Não é apenas uma questão de "quem recebe o quê"; é como resolver um quebra-cabeça matemático e legal extremamente complexo, onde cada peça depende da outra. Se você errar a primeira peça, todo o resto do quebra-cabeça fica errado.

Este é o desafio que o artigo "MAWARITH" apresenta. Vamos descomplicar tudo isso usando analogias do dia a dia.

1. O Problema: O "Quebra-Cabeça" da Herança Islâmica

A lei de herança islâmica (ʿilm al-mawārīth) é como uma receita de bolo muito rigorosa. Você não pode apenas misturar os ingredientes; precisa seguir passos exatos:

Quem está na festa? (Identificar os herdeiros).
Quem fica de fora? (Aplicar regras de "bloqueio" ou exclusão).
Quanto cada um ganha? (Calcular frações exatas).
Ajuste final: Às vezes, a soma das partes é maior que o bolo todo (precisa cortar um pedaço de todos) ou menor (precisa distribuir o que sobrou).

O problema é que os Modelos de Linguagem (IA) atuais, como o ChatGPT ou o Gemini, são ótimos em escrever textos bonitos, mas péssimos em seguir essa "receita" passo a passo. Eles tendem a alucinar (inventar herdeiros que não existem) ou errar a matemática no final.

2. A Solução: O "MAWARITH" (O Novo Treinamento)

Os autores criaram um novo banco de dados gigante chamado MAWARITH.

O que é: Um livro de exercícios com 12.500 casos de herança, todos escritos em árabe.
A Mágica: Diferente de testes antigos que só perguntavam "Qual é a resposta certa? (A, B, C ou D)", o MAWARITH exige que a IA mostre todo o raciocínio. É como se o aluno tivesse que mostrar a conta no caderno, não apenas o resultado final.
O Objetivo: Ensinar a IA a pensar como um especialista jurídico, passo a passo, citando as regras corretas e fazendo os cálculos exatos.

3. O "MIR-E": O Professor que Corrige o Caderno

Como saber se a IA realmente aprendeu ou só chutou a resposta? Os autores criaram uma nova régua de medição chamada MIR-E.

A Analogia: Imagine um professor corrigindo uma prova de matemática.
- Se o aluno erra a primeira linha (identificou o herdeiro errado), o professor não olha só o resultado final; ele dá zero porque a lógica inteira está quebrada.
- O MIR-E pontua cada etapa: "Você achou os herdeiros corretos?", "Você aplicou a regra de bloqueio certo?", "A matemática bateu?".
- Isso permite ver onde a IA está falhando, não apenas se ela falhou.

4. O Grande Teste: Quem é o "Campeão"?

Os autores colocaram 5 IAs famosas para resolver esses 12.500 problemas. O resultado foi um choque:

O Vencedor: O Gemini-2.5-flash (uma IA comercial da Google) foi o único que realmente entendeu a lógica. Ele acertou cerca de 90% do processo completo. Foi como se ele tivesse lido todos os livros de direito antes da prova.
Os Perdedores: Modelos de código aberto (como LLaMA, Qwen e Fanar) ficaram muito abaixo, com notas entre 30% e 45%.
- O Motivo: Eles costumavam errar logo no início. Por exemplo, achavam que um primo distante tinha direito à herança mesmo quando existia um filho vivo (o que a lei proíbe). Como erraram o primeiro passo, todo o cálculo final ficou errado.

5. Onde eles erram? (A Análise dos Erros)

O estudo descobriu padrões engraçados e preocupantes:

Confusão de Parentesco: A IA às vezes lê "quatro filhas de um filho" e acha que são dois grupos diferentes de herdeiros, criando pessoas que não existem.
Bloqueio Errado: A lei diz que se há um filho, ele "bloqueia" certos parentes. As IAs frequentemente ignoram isso e dão herança para quem não deveria receber.
Falta de "Sentido Comum" Jurídico: Mesmo quando a IA sabe a regra, ela não consegue aplicá-la em conjunto com as outras. É como saber que "água ferve a 100°C" e "gelo derrete a 0°C", mas não saber o que acontece se você misturar os dois.

Conclusão: Por que isso importa?

Este trabalho é como construir uma ponte entre a inteligência artificial e o direito complexo.

Hoje, as IAs são ótimas em conversar, mas ruins em seguir regras rígidas de herança.
O MAWARITH é o primeiro passo para criar IAs que podem realmente ajudar juízes, advogados e famílias a resolverem disputas de herança com precisão, sem inventar leis ou errar cálculos.

Em resumo: A IA ainda precisa ir muito mais à escola de direito antes de poder ser um juiz confiável, mas agora temos um "livro de exercícios" perfeito para ajudá-la a estudar.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: MAWARITH

1. O Problema

A lei de herança islâmica (ʿilm al-mawārīth) representa um desafio significativo para os Grandes Modelos de Linguagem (LLMs). Diferente de tarefas de recuperação de conhecimento ou geração de texto fluente, resolver casos de herança exige:

Raciocínio estruturado e multi-etapa: O processo envolve identificar herdeiros elegíveis, aplicar regras de exclusão (ḥajb), calcular frações prescritas e, finalmente, ajustar as cotas totais.
Dependência sequencial: Erros em etapas iniciais (como identificar erroneamente um herdeiro) propagam-se deterministicamente, invalidando todo o cálculo subsequente.
Limitações das Avaliações Atuais: Benchmarks anteriores focavam em perguntas de múltipla escolha (MCQs), o que não avalia a validade do raciocínio intermediário ou a aplicação correta das justificativas jurídicas. Modelos podem acertar a resposta final por "chute" ou alucinação, mesmo com o raciocínio incorreto.

2. Metodologia

A. O Dataset MAWARITH
Os autores criaram um corpus anotado em larga escala contendo 12.500 casos de herança islâmica em árabe, seguindo a opinião majoritária (al-jumhūr).

Estrutura dos Dados: Cada caso inclui uma descrição natural do cenário familiar e uma solução detalhada passo a passo (chain-of-thought), contendo:
1. Identificação e extração de herdeiros potenciais.
2. Análise de bloqueio (ḥajb) e elegibilidade.
3. Atribuição de cotas prescritas (baseadas no Alcorão e Hadith).
4. Aplicação de mecanismos de ajuste: ʿAwl (redução proporcional quando a soma das cotas > 1) e Radd (redistribuição do excedente quando a soma < 1 e não há herdeiro residual).
5. Cálculo final das frações normalizadas.
Formato: Os dados são estruturados com tags <thought> para o raciocínio detalhado e <answer> para a resposta final, além de um objeto JSON estruturado para avaliação automatizada.

B. Métrica de Avaliação: MIR-E
Para superar as limitações da precisão da resposta final, foi proposta a métrica MIR-E (Mawarith Inheritance Reasoning Evaluation). É uma métrica ponderada multi-estágio que avalia:

Identificação de Herdeiros e Bloqueio ( $S_h$ ): Precisão na lista de herdeiros elegíveis vs. bloqueados (F1-score) e contagem correta.
Atribuição de Cotas ( $S_s$ ): Precisão das frações numéricas atribuídas aos herdeiros elegíveis.
Ajuste ( $S_a$ ): Identificação correta da necessidade e do tipo de ajuste (ʿAwl, Radd ou nenhum).
Alocação Final ( $S_f$ ): Precisão da distribuição final normalizada.

Cálculo: A pontuação final é uma soma ponderada ($0.30 \times S_h + 0.30 \times S_s + 0.10 \times S_a + 0.30 \times S_f$), penalizando erros iniciais que afetam etapas posteriores.

C. Configuração Experimental

Modelos Avaliados: 5 LLMs em configuração zero-shot (sem ajuste fino específico para a tarefa):
- Comercial: Gemini-2.5-flash.
- Open-weight Multilíngue: Qwen3-32B, LLaMA 3.3-70B, GPT-OSS-120B.
- Especializados em Árabe/Islâmico: Fanar-C-2-27B (geral) e Fanar-Sadiq (especializado em Islã).
Prompting: Instruções rigorosas para seguir as regras jurídicas e gerar saídas estruturadas.

3. Resultados Principais

Desempenho Geral:
- Gemini-2.5-flash superou todos os outros modelos, alcançando uma pontuação MIR-E de aproximadamente 90% (0.901 no conjunto de teste).
- Os modelos open-weight (Qwen, LLaMA, Fanar, GPT-OSS) ficaram abaixo de 50% (variando entre 0.328 e 0.437).
Análise de Propagação de Erros (Figura 2):
- O Gemini manteve uma taxa de sucesso cumulativa alta em todas as etapas.
- Os outros modelos sofreram quedas drásticas logo na Etapa 1 (Identificação de Herdeiros). Enquanto o Gemini acertou 78.2% dos casos nesta etapa, os outros modelos ficaram abaixo de 25%.
- Erros iniciais (como incluir herdeiros bloqueados ou excluir elegíveis) tornaram impossível a correção nas etapas de cálculo de cotas e ajuste.
Tipos de Erros Identificados:
- Falsos Elegíveis (FE): A maioria dos modelos tende a adicionar herdeiros que não têm direito à herança (ex: incluir irmãos quando há filhos).
- Falsos Bloqueios (FB): Excluir erroneamente herdeiros que deveriam receber.
- Erros de Parsing Linguístico: Dificuldade em interpretar expressões compostas de parentesco em árabe (ex: "filhos de filhos") e números escritos por extenso.
- Erros de Ajuste: Confusão entre Radd (redistribuição de sobra) e a absorção por herdeiros residuais (ʿaṣabah).

4. Contribuições Chave

MAWARITH Dataset: O primeiro dataset de grande escala (12.500 casos) focado no raciocínio jurídico-numérico completo da herança islâmica, com soluções passo a passo e justificativas baseadas em fontes clássicas.
MIR-E Metric: Uma nova métrica de avaliação que não se limita à resposta final, permitindo diagnosticar em qual etapa do pipeline de raciocínio o modelo falhou (identificação, cálculo ou ajuste).
Benchmark de Raciocínio Jurídico: Demonstra que, embora modelos comerciais de ponta (como o Gemini) tenham desempenho robusto, os modelos open-source e especializados em árabe ainda têm lacunas significativas em raciocínio estruturado complexo e aplicação estrita de regras jurídicas.

5. Significado e Impacto

Validação de Raciocínio: O trabalho prova que a fluência linguística não é suficiente para tarefas jurídicas complexas; a precisão do raciocínio lógico e a consistência das regras são críticas.
Aplicações Práticas: O dataset e a métrica são recursos essenciais para treinar e avaliar LLMs destinados a assistentes jurídicos em países de maioria muçulmana, onde a precisão na distribuição de heranças é vital para a justiça social e familiar.
Direções Futuras: Os autores sugerem o uso de Process Reward Models (PRMs) e aprendizado por reforço para alinhar o raciocínio do modelo com as restrições legais, além de expandir o corpus para casos mais complexos (gravidez, pessoas desaparecidas, herdeiros intersexuais).

Em resumo, o MAWARITH estabelece um novo padrão para a avaliação de capacidades de raciocínio lógico-jurídico em LLMs, destacando a necessidade de modelos que não apenas "adivinhem" a resposta, mas que sigam rigorosamente cadeias de inferência complexas e baseadas em regras.

MAWARITH: A Dataset and Benchmark for Legal Inheritance Reasoning with LLMs

1. O Problema: O "Quebra-Cabeça" da Herança Islâmica

2. A Solução: O "MAWARITH" (O Novo Treinamento)

3. O "MIR-E": O Professor que Corrige o Caderno

4. O Grande Teste: Quem é o "Campeão"?

5. Onde eles erram? (A Análise dos Erros)

Conclusão: Por que isso importa?

Resumo Técnico: MAWARITH

1. O Problema

2. Metodologia

3. Resultados Principais

4. Contribuições Chave

5. Significado e Impacto

Mais como este

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models