SiDiaC-v.2.0: Sinhala Diachronic Corpus Version 2.0

SiDiaC-v.2.0 ist das bisher umfassendste diachrone Korpus für die singhalesische Sprache, das 244.000 Wörter aus 185 literarischen Werken von 1800 bis 1955 enthält und durch sorgfältige Vorverarbeitung sowie Genre-Kategorisierung eine wertvolle Ressource für die singhalesische NLP-Forschung darstellt.

Nevidu Jayatilleke, Nisansa de Silva, Uthpala Nimanthi, Gagani Kulathilaka, Azra Safrullah, Johan Sofalas

Veröffentlicht 2026-03-12
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie möchten die Geschichte einer Sprache verstehen, so wie ein Archäologe die Schichten einer alten Stadt untersucht. Sie wollen wissen, wie sich Wörter, Bedeutungen und Geschichten über Jahrhunderte hinweg verändert haben. Genau das ist das Ziel des SiDiaC-v.2.0, eines riesigen digitalen Schatzes für die singhalesische Sprache (die Hauptsprache in Sri Lanka).

Hier ist eine einfache Erklärung dieses wissenschaftlichen Projekts, verpackt in Bilder und Vergleiche:

1. Was ist SiDiaC-v.2.0? (Der riesige Bibliotheksschatz)

Stellen Sie sich eine Bibliothek vor, die nicht nur Bücher enthält, sondern die Lebensgeschichte der singhalesischen Sprache von der Antike bis zur Moderne.

  • Das alte Projekt (v.1.0): Es gab bereits eine erste Version dieser Bibliothek. Aber sie war wie ein kleiner, unordentlicher Schuppen. Sie enthielt nur 46 Bücher, hatte viele Fehler durch das Einscannen (wie verpixelte Fotos) und vermischte verschiedene Sprachen durcheinander.
  • Das neue Projekt (v.2.0): Das ist jetzt eine riesige, saubere und gut organisierte moderne Bibliothek. Sie enthält 185 Werke mit über 240.000 Wörtern. Der Zeitraum reicht von der 5. Jahrhundert n. Chr. bis ins 20. Jahrhundert. Es ist der größte Schatz seiner Art für diese Sprache.

2. Das Problem: Der "schmutzige" Scan (Warum eine Reinigung nötig war)

Die Forscher holten alte Bücher aus der Nationalbibliothek Sri Lankas und scannten sie mit einer KI (einem sehr cleveren Scanner). Aber das war wie das Reinigen eines alten, staubigen Gemäldes:

  • Der Scanner war verwirrt: Alte Drucke haben Flecken, Risse oder zwei Spalten Text nebeneinander. Der Scanner las manchmal die linke Spalte, dann die rechte, und das ergab Unsinn.
  • Sprach-Mix: Viele alte Bücher waren wie ein Cocktail aus Singhalesisch, Pali (der Sprache der buddhistischen Heiligen Schriften) und Sanskrit. Für eine reine Sprachstudie wollten die Forscher aber nur das "reine" Singhalesisch.
  • Die Lösung: Die Forscher haben wie digitale Restauratoren gearbeitet. Sie haben den Text manuell durchgesehen, Fehler korrigiert, die Spalten wieder in die richtige Reihenfolge gebracht und alle nicht-singhalesischen Teile entfernt. Sie haben sogar spezielle Markierungen eingefügt, um zu zeigen, wo ein Satz endet oder wo ein Reim in einem Gedicht unterbrochen wurde, damit Computer das später verstehen können.

3. Die Herausforderung: Das Datum der Geschichte (Wann wurde es wirklich geschrieben?)

Ein großes Rätsel bei alten Büchern ist: Wann wurde es geschrieben?

  • Ein Buch könnte 1900 gedruckt worden sein, aber die Geschichte darin stammt aus dem 13. Jahrhundert.
  • In der ersten Version (v.1.0) haben die Forscher sich oft nur auf das Druckdatum verlassen. Das war wie bei einem Film, bei dem man nur das Veröffentlichungsjahr kennt, aber nicht, wann die Handlung spielt.
  • Die neue Methode: In v.2.0 haben die Forscher wie Detektive gearbeitet. Sie haben die Lebensdaten der Autoren geprüft und historische Wörterbücher konsultiert, um das wahre Schreibdatum zu finden. So können sie die Sprache wirklich chronologisch ordnen.

4. Was haben sie damit gemacht? (Die Zeitreise)

Mit dieser sauberen Bibliothek konnten die Forscher eine Zeitreise unternehmen. Sie haben sich angesehen, wie sich die Bedeutung bestimmter Wörter über die Jahrhunderte verändert hat.

Beispiel 1: Das Wort "Vier" (සතර / sathara)

  • Heute bedeutet es einfach die Zahl 4.
  • Aber in alten Texten tauchte es oft in Verbindung mit "Wissen" oder "Hölle" auf. Warum? Weil im Buddhismus die "Vier Edlen Wahrheiten" oder die "Vier Höllen" wichtig sind. Die Forscher konnten sehen, wie sich der Kontext von religiöser Bedeutung zu mathematischer Bedeutung verschob.

Beispiel 2: Das Wort "Groß" (මහ / maha)

  • Früher (13. Jahrhundert) wurde es oft für "heilig" oder "geehrt" verwendet (z. B. für Mönche).
  • Später (20. Jahrhundert) verschob sich die Bedeutung hin zu "stark" oder "mächtig" (z. B. für Könige oder politische Figuren).
  • Das ist wie ein Sprach-Verlaufskurve: Man sieht, wie sich die kulturellen Werte der Gesellschaft in den Wörtern widerspiegeln.

5. Warum ist das wichtig? (Der Baustein für die Zukunft)

Singhalesisch gilt als eine "Sprache mit wenigen Ressourcen" (Low-Resource Language). Das bedeutet, es gibt nicht so viele digitale Daten wie für Englisch oder Chinesisch.

  • SiDiaC-v.2.0 ist wie ein Fundament: Ohne diese saubere, große Datenbank könnten Computer (KIs) die Geschichte der Sprache nicht lernen.
  • Es hilft dabei, KI-Modelle zu trainieren, die nicht nur heute singhalesisch sprechen, sondern auch verstehen, wie die Sprache vor 500 Jahren klang und welche Gefühle sie ausdrückte.

Zusammenfassung in einem Satz

Die Forscher haben einen riesigen, schmutzigen Haufen alter Bücher gesäubert, sortiert und mit einem genauen Zeitstempel versehen, um eine digitale Zeitmaschine zu bauen, die uns zeigt, wie sich die singhalesische Sprache und Kultur über 1500 Jahre hinweg gewandelt haben.