SinhaLegal: A Benchmark Corpus for Information Extraction and Analysis in Sinhala Legislative Texts

Die Studie stellt SinhaLegal vor, ein umfassendes Korpus aus etwa 2 Millionen Wörtern in 1.206 singhalesischen Gesetzestexten, das durch OCR und manuelle Aufbereitung erstellt wurde und als wichtige Ressource für NLP-Aufgaben wie Informationsextraktion und Analyse im singhalesischen Rechtsbereich dient.

Minduli Lasandi, Nevidu Jayatilleke

Veröffentlicht 2026-03-06
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, das Gesetzgebungs-System Sri Lankas ist eine riesige, alte Bibliothek. In dieser Bibliothek liegen Millionen von Seiten voller Gesetze, Verordnungen und Entwürfe – alles auf Singhalesisch geschrieben. Das Problem? Diese Bücher sind nicht einfach nur Bücher; sie sind oft verstaubt, die Tinte ist manchmal unscharf, und viele Seiten sind in einem Format, das für Computer schwer zu lesen ist (wie gescannte Bilder).

Die Forscher Minduli Lasandia und Nevidu Jayatilleke haben sich nun eine sehr wichtige Aufgabe gestellt: Sie wollten diese Bibliothek so aufbereiten, dass moderne Computer-KI sie endlich verstehen und nutzen kann. Ihr Ergebnis nennen sie SINHALEGAL.

Hier ist eine einfache Erklärung, was sie getan haben und warum das so wichtig ist, mit ein paar bildhaften Vergleichen:

1. Das Sammeln: Der große Rausch

Stellen Sie sich vor, Sie sammeln alte Zeitungen aus den letzten 40 Jahren. Die Forscher haben über 1.200 dieser "Gesetzes-Bücher" (sogenannte Acts und Bills) aus den Jahren 1981 bis 2014 gesammelt.

  • Das Problem: Viele dieser Dokumente waren nur als Bilder (PDFs) vorhanden. Ein Computer kann ein Bild nicht lesen, er sieht nur Pixel.
  • Die Lösung: Sie haben einen sehr starken "digitalen Scanner" (Google Document AI) eingesetzt. Man kann sich das vorstellen wie einen super-schnellen Roboter, der über die Seiten fährt und versucht, jeden Buchstaben zu erkennen.

2. Die Reinigung: Der große Hausputz

Nachdem der Roboter die Texte eingelesen hatte, war das Ergebnis noch nicht perfekt. Es war wie ein Haus, das gerade renoviert wurde, aber voller Bauschutt lag.

  • Der Bauschutt: Der Scanner hatte manchmal Fehler gemacht (z. B. "a" statt "ä" gelesen), Seitenzahlen mitten in Sätzen eingefügt oder Wasserzeichen (Stempel) mit eingelesen.
  • Der Putz: Da die Forscher Muttersprachler sind, haben sie den Text manuell "geputzt". Sie haben die Seitenzahlen entfernt, die Sätze wieder in den richtigen Fluss gebracht und die Stempel weggeklickt.
  • Das Filtern: Nicht jedes Dokument war gut genug. Manche waren so unübersichtlich (mit vielen Tabellen und Spalten), dass der Scanner sie nicht lesen konnte. Diese wurden aussortiert, damit nur die "sauberen" und gut lesbaren Dokumente übrig blieben.

3. Das Ergebnis: Ein neuer Schatz

Am Ende haben sie einen riesigen Datenschatz namens SINHALEGAL geschaffen.

  • Was ist drin? Etwa 2 Millionen Wörter aus 1.206 Gesetzen.
  • Warum ist das toll? Bisher gab es für die singhalesische Sprache kaum spezielle Daten für Computer, die Gesetze verstehen sollen. Es war wie ein leeres Regal in einer Bibliothek. Jetzt ist dieses Regal vollgepackt mit hochwertigen, sauberen Daten.

4. Der Test: Wie gut versteht die KI das?

Die Forscher haben verschiedene KI-Modelle (die "Gehirne" der Computer) getestet, um zu sehen, wie gut sie diese Gesetze verstehen.

  • Der Vergleich: Sie haben die KI mit allgemeinen singhalesischen Texten (wie Nachrichten oder Geschichten) verglichen und dann mit den Gesetzen.
  • Die Überraschung: Die KI hatte es mit den Gesetzen sogar leichter! Warum? Weil Gesetze sehr formelhaft sind. Sie wiederholen sich oft (z. B. "dieses Gesetz gilt für..."). Das ist wie ein Lied mit einem sehr einfachen, sich wiederholenden Refrain – es ist für die KI einfacher zu erraten, was als Nächstes kommt, als bei einem komplexen, freien Gedicht.

Warum ist das wichtig?

Stellen Sie sich vor, Sie wollen wissen, was in einem bestimmten Gesetz steht, aber Sie können Singhalesisch nicht perfekt lesen oder haben keine Zeit, 100 Seiten zu durchsuchen.
Mit SINHALEGAL können zukünftige Computerprogramme:

  • Gesetze automatisch zusammenfassen (wie ein sehr schneller Anwalt).
  • Wichtige Informationen herausfischen (z. B. "Welche Strafen gibt es für X?").
  • Analysieren, wie sich Gesetze über die Jahre verändert haben.

Zusammenfassend: Die Autoren haben aus einem Haufen unordentlicher, schwer lesbarer Papierdokumente eine saubere, digitale Bibliothek gebaut. Sie haben den "Bauschutt" entfernt und das Material so aufbereitet, dass die Computer-KI endlich lernen kann, die Gesetze Sri Lankas zu verstehen. Das schließt eine riesige Lücke, denn bisher war die singhalesische Rechtssprache für KI fast ein "geheimes Geheimsprache", die niemand entschlüsseln konnte.