SinhaLegal: A Benchmark Corpus for Information Extraction and Analysis in Sinhala Legislative Texts

Each language version is independently generated for its own context, not a direct translation.

SINHALEGAL: Een digitale bibliotheek voor de Sri Lankaanse wetten

Stel je voor dat je een enorme, oude bibliotheek binnenstapt. Deze bibliotheek bevat alle wetten en wetsvoorstellen van Sri Lanka, maar ze zijn niet netjes op de planken geplaatst. Ze liggen in stapels, sommige zijn beschadigd, andere zijn in een taal die niemand meer begrijpt, en veel zijn zelfs in een taal geschreven die alleen op papier staat, niet op een computer.

De auteurs van dit paper, Minduli en Nevidu, hebben een project gestart om deze chaos op te lossen. Ze hebben SINHALEGAL gecreëerd: een super-georganiseerde, digitale verzameling van Sri Lankaanse wetten in de Sinhala-taal. Hier is hoe ze dat hebben gedaan, vertaald in alledaagse taal:

1. Het Verzamelen: De Digitale Schatgraven

Stel je voor dat je een schatgraver bent. De "schat" waren de officiële documenten van de Sri Lankaanse overheid, verspreid over decennia (van 1981 tot 2014).

Het probleem: De meeste documenten waren gescande PDF-bestanden. Het waren eigenlijk foto's van papier, geen echte tekst. Een computer kon daar niets mee doen; het zag eruit als een muur van onleesbare pixels.
De oplossing: Ze gebruikten een slimme "digitale scanner" genaamd Google Document AI. Dit is alsof je een robot hebt die met zijn ogen door de documenten kijkt en de letters op het papier omzet in tekst die een computer kan lezen.

2. De Schoonmaakbeurt: Van Rommel naar Opgeruimd

Na het scannen was het resultaat niet perfect. Het was alsof je een kamer hebt schoongemaakt, maar er nog steeds stof, oude krantenknipsels en losse sokken rond liggen.

De rommel: De robot las soms verkeerde letters, hield pagina-nummers en stempels mee, en zette zinnen op de verkeerde plek.
De poetsbeurt: De auteurs (die zelf Sinhala spreken) zijn handmatig gaan werken. Ze hebben:
- De paginanummers en stempels verwijderd (alsof je de randjes van een foto wegsnijdt).
- Verkeerde letters gecorrigeerd.
- Dubbele titels verwijderd (want elke pagina had de titel erop staan, wat verwarrend was).
- De tekst opgeschoond zodat hij vloeiend leest.

3. De Selectie: Alleen de Beste Koffiebonen

Niet alle documenten waren even goed. Sommige waren te lang, hadden te veel tabellen (wat voor de scanner een nachtmerrie is) of waren slecht gescand.

Ze hebben een filter gebruikt: "Alles wat te rommelig is, gaat de prullenbak in."
Het resultaat? Een verzameling van 1.206 hoogwaardige documenten (wetten en wetsvoorstellen) die perfect zijn om mee te werken.

4. Wat Kun Je Hiermee? (De Analyse)

Nu ze de "schone" bibliotheek hebben, hebben ze gekeken wat erin zit, alsof ze een bioloog is die een nieuw ecosysteem bestudeert:

Woordenschat: Ze zagen dat wettelijke taal heel specifiek is. Het is als een dialect van juristen. Er zijn veel woorden die maar één keer voorkomen (zoals unieke namen van projecten), maar ook heel veel woorden die steeds terugkomen (zoals "en", "voor", "moet").
Onderwerpen: Met een slimme computeranalyse (Topic Modelling) ontdekten ze dat de documenten draaien om thema's zoals "rechten", "parlement", "geld", "pensioenen" en "verkiezingen".
Entiteiten: Ze hebben een systeem gebouwd dat automatisch belangrijke namen herkent: wie is de minister? Welke wet is het? Hoeveel geld is er? Wanneer is het?

5. De Test: Hoe Slim is de Computer?

Tot slot hebben ze getest hoe goed moderne AI-modellen (zoals de slimme chatbots van vandaag) deze wettelijke taal begrijpen.

Ze hebben gekeken of de AI de tekst "voorspelt" (als je een zin begint, kan de AI het einde raden?).
De verrassing: De AI deed het beter op deze wettelijke teksten dan op gewone Sinhala-teksten (zoals nieuws of verhalen).
Waarom? Omdat wetten heel gestructureerd en repetitief zijn. Het is als een liedje met een vast refrein; het is makkelijker voor een computer om het refrein te raden dan een vrij droomverhaal. Dit betekent dat AI wettelijke teksten misschien makkelijker kan samenvatten of analyseren dan alledaagse taal.

Waarom is dit belangrijk?

Voorheen was het bijna onmogelijk om Sri Lankaanse wetten automatisch te analyseren. Er was geen "leesbaar" bestand.
Met SINHALEGAL hebben de auteurs een brug gebouwd. Ze hebben een brug van papier naar digitale intelligentie. Nu kunnen onderzoekers en ontwikkelaars:

Samenvattingen maken van lange wetten.
Zoeken naar specifieke regels in seconden.
AI-systemen bouwen die helpen bij juridische beslissingen.

Kortom: Ze hebben een rommelige, oude kelder omgebouwd tot een stralende, digitale bibliotheek waar iedereen (en elke computer) de wetten van Sri Lanka eindelijk goed kan begrijpen.

SinhaLegal: A Benchmark Corpus for Information Extraction and Analysis in Sinhala Legislative Texts

1. Het Verzamelen: De Digitale Schatgraven

2. De Schoonmaakbeurt: Van Rommel naar Opgeruimd

3. De Selectie: Alleen de Beste Koffiebonen

4. Wat Kun Je Hiermee? (De Analyse)

5. De Test: Hoe Slim is de Computer?

Waarom is dit belangrijk?

Titel: SINHALEGAL: Een Benchmark Corpus voor Informatie-extractie en Analyse in Sinhala Wetgevingsteksten

1. Het Probleem

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Toekomstperspectief

SinhaLegal: A Benchmark Corpus for Information Extraction and Analysis in Sinhala Legislative Texts

1. Het Verzamelen: De Digitale Schatgraven

2. De Schoonmaakbeurt: Van Rommel naar Opgeruimd

3. De Selectie: Alleen de Beste Koffiebonen

4. Wat Kun Je Hiermee? (De Analyse)

5. De Test: Hoe Slim is de Computer?

Waarom is dit belangrijk?

Titel: SINHALEGAL: Een Benchmark Corpus voor Informatie-extractie en Analyse in Sinhala Wetgevingsteksten

1. Het Probleem

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Toekomstperspectief

Meer zoals dit

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models