SinhaLegal: A Benchmark Corpus for Information Extraction and Analysis in Sinhala Legislative Texts

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que el sistema legal de un país es como una biblioteca gigante y antigua. En esta biblioteca, hay millones de libros (las leyes) escritos en un idioma muy específico y con una letra que a veces es difícil de leer.

Los autores de este artículo, Minduli y Nevidu, decidieron que era hora de ordenar, limpiar y digitalizar esa biblioteca para que las computadoras pudieran entenderla. Presentan un proyecto llamado SINHALEGAL.

Aquí te explico cómo lo hicieron, usando analogías sencillas:

1. El Problema: La Biblioteca del Caos

Imagina que tienes una pila de documentos legales en Sri Lanka escritos en sínala (el idioma local). Están en PDFs escaneados, como si fueran fotos de papel.

El desafío: Las computadoras no pueden "leer" fotos. Necesitan texto. Además, estos documentos tienen formatos raros, tablas, sellos oficiales y números de página que confunden a los robots.
La falta: Antes de este proyecto, no existía un "cajón de herramientas" digital con leyes en sínala para que los investigadores las estudiaran. Era como intentar cocinar sin tener los ingredientes en la despensa.

2. La Solución: SINHALEGAL (La Cocina Digital)

Los autores crearon un gigantesco libro de recetas digitales con 1,206 documentos legales (1,065 leyes aprobadas y 141 proyectos de ley) que van desde 1981 hasta 2014.

¿Cómo lo hicieron? (El proceso de cocina):

Paso 1: El Escáner Mágico (OCR):
Usaron una tecnología llamada "Google Document AI" (piensa en ella como un robot lector de ojos muy rápidos) para convertir esas fotos de papel en texto digital.
- Analogía: Es como si tuvieras un robot que toma una foto de un menú escrito a mano y te escribe el texto en tu computadora.
Paso 2: La Limpieza a Fondo (Post-procesamiento):
El robot no es perfecto. A veces lee una mancha como una letra, o deja el número de página en medio de una frase. Aquí es donde los autores (que son nativos en sínala) entraron a trabajar manualmente.
- Lo que quitaron: Eliminaron los sellos de "confidencial", los números de página, los títulos repetidos en cada hoja y las palabras que el robot inventó por error.
- Analogía: Imagina que el robot te trajo una sopa, pero le echó un poco de arena y hojas secas. Los autores se sentaron a colar la sopa, quitar la arena y dejar solo el caldo rico y limpio.
Paso 3: El Archivo Organizado:
Ahora tienen un archivo digital donde cada ley está guardada en su propia carpeta, con una etiqueta (metadatos) que dice: "¿De qué año es?", "¿Cuántas páginas tenía?", "¿Qué tan seguro está el robot de que leyó bien?".

3. ¿Qué descubrieron? (El Análisis de la Sopa)

Una vez que tuvieron el texto limpio, lo analizaron para ver qué "sabía" el lenguaje legal en sínala:

Palabras Repetitivas: Descubrieron que las leyes usan mucho las mismas palabras de conexión (como "y", "o", "para"). Es como si una receta siempre dijera "agrega sal, mezcla, agrega sal, mezcla". Esto hace que el texto sea predecible para las computadoras.
Entidades Especiales: Usaron reglas para encontrar automáticamente cosas importantes: Fechas (cuándo se hizo la ley), Títulos (Presidente, Ministro), Lugares (Parlamento) y Dinero.
Temas: Usando inteligencia artificial, descubrieron que las leyes hablan mucho sobre: elecciones, pensiones, comisiones y, por supuesto, sobre las propias leyes.

4. La Prueba de Fuego (Las Computadoras)

Para ver si este nuevo "libro de recetas" era bueno, lo probaron contra varias Inteligencias Artificiales modernas (como Llama, Mistral, Falcon).

El resultado: ¡Funcionó muy bien! Las computadoras entendieron las leyes en sínala mejor que el texto general del idioma.
¿Por qué? Porque las leyes son muy repetitivas y estructuradas. Es más fácil para una IA adivinar la siguiente palabra en una ley ("...y se pagará una multa de...") que en una conversación casual entre amigos.

En Resumen

SINHALEGAL es como haber tomado una montaña de papeles legales antiguos, sucios y difíciles de leer, y haberlos transformado en una base de datos digital, limpia y organizada.

¿Por qué importa?
Antes, investigar leyes en sínala era como buscar una aguja en un pajar. Ahora, con este proyecto, los investigadores y las computadoras pueden encontrar esa aguja en segundos. Esto abre la puerta a que las computadoras ayuden a los abogados, resuman leyes complejas y hagan que la justicia sea más accesible para todos los hablantes de sínala.

¡Es un gran paso para que la tecnología entienda y respete la cultura legal de Sri Lanka!

SinhaLegal: A Benchmark Corpus for Information Extraction and Analysis in Sinhala Legislative Texts

1. El Problema: La Biblioteca del Caos

2. La Solución: SINHALEGAL (La Cocina Digital)

3. ¿Qué descubrieron? (El Análisis de la Sopa)

4. La Prueba de Fuego (Las Computadoras)

En Resumen

Resumen Técnico: SINHALEGAL

1. Planteamiento del Problema

2. Metodología

2.1 Adquisición y Organización de Datos

2.2 Extracción de Texto (OCR)

2.3 Post-procesamiento Manual

2.4 Estructura del Dataset

3. Contribuciones Clave

4. Resultados y Evaluación

4.1 Estadísticas del Corpus

4.2 Reconocimiento de Entidades Nombradas (NER)

4.3 Modelado de Temas (Topic Modelling)

4.4 Evaluación de Modelos de Lenguaje (Perplexidad)

4.5 Precisión del OCR

5. Significado y Conclusión

SinhaLegal: A Benchmark Corpus for Information Extraction and Analysis in Sinhala Legislative Texts

1. El Problema: La Biblioteca del Caos

2. La Solución: SINHALEGAL (La Cocina Digital)

3. ¿Qué descubrieron? (El Análisis de la Sopa)

4. La Prueba de Fuego (Las Computadoras)

En Resumen

Resumen Técnico: SINHALEGAL

1. Planteamiento del Problema

2. Metodología

2.1 Adquisición y Organización de Datos

2.2 Extracción de Texto (OCR)

2.3 Post-procesamiento Manual

2.4 Estructura del Dataset

3. Contribuciones Clave

4. Resultados y Evaluación

4.1 Estadísticas del Corpus

4.2 Reconocimiento de Entidades Nombradas (NER)

4.3 Modelado de Temas (Topic Modelling)

4.4 Evaluación de Modelos de Lenguaje (Perplexidad)

4.5 Precisión del OCR

5. Significado y Conclusión

Más como este

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models