SinhaLegal: A Benchmark Corpus for Information Extraction and Analysis in Sinhala Legislative Texts

O artigo apresenta o SinhaLegal, um corpus de benchmark composto por cerca de 2 milhões de palavras extraídas de leis e projetos de lei em cingalês, que serve como recurso fundamental para tarefas de Processamento de Linguagem Natural, como extração de informações e análise no domínio jurídico.

Minduli Lasandi, Nevidu Jayatilleke

Publicado 2026-03-06
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que o sistema legal de um país é como uma biblioteca gigante e antiga, cheia de livros escritos em uma língua muito específica e cheia de regras complexas. No caso do Sri Lanka, essa biblioteca contém as leis (chamadas "Atos") e os projetos de lei (chamados "Projetos") escritos em Sinhala, a língua falada pela maioria da população local.

O problema é que, por muito tempo, essa biblioteca estava trancada. Os livros estavam em papel, alguns estavam velhos, outros em caixas de arquivos, e ninguém conseguia "ler" esses documentos de forma rápida e automática por computadores. Era como tentar encontrar uma agulha num palheiro, mas o palheiro era feito de papel e a agulha estava escrita em um código que as máquinas não entendiam.

É aqui que entra o SINHALEGAL, o projeto apresentado neste artigo. Vamos explicar como eles fizeram isso usando algumas analogias simples:

1. A Missão: Digitalizar a "Caverna das Leis"

Os autores (estudantes e pesquisadores do Sri Lanka) decidiram que precisavam transformar essa biblioteca física em uma biblioteca digital inteligente. Eles queriam criar um "corpus" (que é apenas um nome chique para um grande conjunto de textos organizados) que pudesse ser usado por computadores para aprender sobre leis em Sinhala.

  • O que eles pegaram: Eles coletaram cerca de 1.206 documentos oficiais.
    • 1.065 "Atos": São as leis que já foram aprovadas e estão em vigor (como a Constituição ou leis de trânsito), publicadas entre 1981 e 2014.
    • 141 "Projetos": São os rascunhos das leis antes de serem aprovadas (2010-2014).

2. O Processo: Da "Fotocópia" ao "Livro de Ouro"

Como os documentos originais eram apenas imagens de PDF (como se fossem fotos de páginas de papel), eles precisaram de um processo de três etapas para torná-los legíveis por máquinas:

  • Etapa 1: O Olho de Águia (OCR): Eles usaram uma tecnologia chamada "Reconhecimento Óptico de Caracteres" (OCR), alimentada por uma IA do Google. Imagine um robô muito rápido que olha para a foto da página e tenta adivinhar qual é cada letra.

    • O desafio: Alguns documentos tinham tabelas, colunas duplas ou estavam muito manchados, o que confundia o robô. Eles tiveram que filtrar os documentos ruins e focar nos que eram mais claros.
  • Etapa 2: A Limpeza Manual (O "Faxina"): Mesmo com o robô, o texto saía cheio de erros. Havia números de página no meio das frases, carimbos borrados, títulos repetidos em cada página e espaços estranhos.

    • A solução: Os autores, que são falantes nativos de Sinhala, fizeram uma limpeza manual. Foi como um editor de texto muito cuidadoso que apagou o que não era importante (como o número da página no rodapé) e corrigiu palavras que o robô leu errado. Eles garantiram que o texto fluísse perfeitamente.
  • Etapa 3: A Organização (A "Etiquetagem"): Depois de limpos, eles organizaram tudo em pastas digitais, criando "etiquetas" (metadados) para cada documento. Agora, o computador sabe exatamente qual é o ano, o tipo de lei e o conteúdo de cada arquivo.

3. O Resultado: Um "Treinador" para Inteligência Artificial

Com esse novo conjunto de dados (o SINHALEGAL), os pesquisadores testaram como as Inteligências Artificiais (IAs) se saem com esse tipo de texto.

  • A Descoberta Surpreendente: Eles descobriram que as IAs aprendem mais fácil com as leis do que com textos gerais do dia a dia.
    • Por que? Imagine que você está aprendendo a falar. Se você ler um romance, as palavras mudam muito. Mas se você ler um manual de instruções ou uma lei, a estrutura é muito repetitiva e previsível (ex: "é proibido...", "deve ser feito...").
    • As IAs se sentem "em casa" com essa repetição. O texto legal é como uma música com um refrão que se repete muito; a IA consegue prever a próxima nota (palavra) com muita facilidade. Isso é chamado de "baixa perplexidade" (um termo técnico que significa "o quanto o computador fica confuso").

4. Por que isso é importante?

Antes desse projeto, não existia um "manual de instruções" digital para ensinar computadores a entender leis em Sinhala.

  • O Vazio: Era como tentar ensinar um aluno a dirigir sem nunca ter tido um carro ou uma estrada.
  • O Futuro: Agora, com o SINHALEGAL, os pesquisadores podem criar ferramentas para:
    • Resumir leis longas em poucas linhas.
    • Encontrar informações específicas rapidamente (ex: "Quais leis falam sobre impostos?").
    • Analisar como as leis mudaram ao longo dos anos.

Resumo em uma frase

O SINHALEGAL é como transformar uma pilha de documentos legais antigos e bagunçados do Sri Lanka em uma biblioteca digital organizada e brilhante, permitindo que computadores "leiam" e "entendam" as leis em Sinhala pela primeira vez, abrindo portas para uma justiça mais acessível e tecnológica.