The Patrologia Graeca Corpus: OCR, Annotation, and Open Release of Noisy Nineteenth-Century Polytonic Greek Editions

Die Studie stellt das Patrologia Graeca Corpus vor, eine groß angelegte, offene Ressource mit OCR- und linguistischen Annotationen für die verbleibenden und nicht digitalisierten Bände der Patrologia Graeca, die durch eine spezialisierte Pipeline mit einem außergewöhnlich niedrigen Fehlerwert von 1,05 % für polytonisches Griechisch erschlossen wurde.

Chahan Vidal-Gorène (CJM, LIPN), Bastien Kindt

Veröffentlicht Wed, 11 Ma
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie betreten eine riesige, staubige Bibliothek aus dem 19. Jahrhundert. Diese Bibliothek ist voller Bücher, die das gesamte Wissen der antiken griechischen Welt enthalten – von Philosophen über Theologen bis hin zu Dichtern. Das Problem: Diese Bücher sind in einer sehr speziellen, alten Schriftart gedruckt, die mit vielen kleinen Strichen, Punkten und Akzenten über den Buchstaben (die sogenannten polytonischen Zeichen) übersät ist. Zudem sind die Seiten oft fleckig, die Tinte verblasst und die Buchstaben sind teilweise so klein, dass man sie kaum noch erkennen kann.

Bisher war es für Computer fast unmöglich, diese Seiten zu lesen. Sie waren wie ein verschlossenes Schloss für moderne KI-Modelle.

Was haben die Forscher gemacht?

Chahan Vidal-Gorène und Bastien Kindt haben sich wie ein Team aus hochmodernen Restauratoren und Übersetzern verhalten. Sie haben eine neue „Maschine" gebaut, um diese alten Bücher zu entschlüsseln. Hier ist, wie sie es getan haben, erklärt mit einfachen Bildern:

1. Das Auge der Maschine (Layout-Erkennung)

Stellen Sie sich vor, ein Buch hat auf jeder Seite zwei Spalten: links griechisch, rechts lateinisch. Dazwischen und drumherum gibt es noch Randnotizen und Überschriften. Ein normaler Computer sieht das oft als ein einziges Chaos aus Buchstaben.

Die Forscher haben ihrer KI ein „scharfes Auge" (eine Technologie namens YOLO) gegeben. Das ist wie ein Detektiv, der sofort erkennt: „Aha! Das hier ist die griechische Spalte, das hier ist die lateinische, und das hier ist nur eine Fußnote." Der Detektiv trennt also die verschiedenen Bereiche sauber voneinander, bevor er überhaupt zu lesen beginnt.

2. Der Lese-Meister (Texterkennung / OCR)

Sobald die KI weiß, wo der griechische Text ist, kommt der eigentliche Lese-Meister zum Einsatz (ein CRNN-Modell).

  • Das Problem: Die alten Drucke sind „verrauscht". Ein Buchstabe „Alpha" könnte durch einen Tintenklecks wie ein „Beta" aussehen, oder ein kleines Häkchen (ein Akzent) fehlt.
  • Die Lösung: Die Forscher haben ihre KI nicht einfach nur mit sauberen Texten trainiert. Sie haben ihr absichtlich „schmutzige" Bilder gezeigt – mit Rauschen, unscharfen Stellen und verzerrten Buchstaben. Das ist wie ein Sportler, der im Regen und Schlamm trainiert, damit er im Wettkampf bei jedem Wetter läuft.
  • Das Ergebnis: Die Maschine liest nun mit einer Genauigkeit von über 99%. Das ist ein riesiger Sprung im Vergleich zu früheren Versuchen, bei denen die Maschinen oft nur 90% richtig lagen.

3. Der Lexikon-Experte (Sprachanalyse)

Nur die Buchstaben zu erkennen, reicht nicht. In der antiken griechischen Sprache ändert sich ein Wort je nach Satzstellung (es wird gebeugt). Das Wort „Hund" kann „Hund", „Hundes", „Hundem" oder „Hunde" heißen.
Die Forscher haben eine zweite KI hinzugefügt, die wie ein riesiges, intelligentes Wörterbuch funktioniert. Sie nimmt das erkannte Wort, schaut in ihr Lexikon und sagt: „Ah, dieses Wort hier ist eigentlich die Grundform 'Hund' und hat die Bedeutung 'Substantiv'."
Dadurch entsteht aus dem rohen Text eine strukturierte Datenbank mit etwa 6 Millionen Wörtern, die alle verstanden und kategorisiert sind.

Warum ist das wichtig?

Bisher waren diese Bücher wie ein versiegelter Briefkasten. Jetzt ist er geöffnet.

  • Für Forscher: Sie können nun nach bestimmten Wörtern in allen diesen Büchern suchen, statt mühsam Seite für Seite zu blättern.
  • Für die KI: Diese neuen Daten sind wie ein frisches, nahrhaftes Essen für künstliche Intelligenzen. Bisher hatten KI-Modelle für Altgriechisch oft nur wenig zu essen (wenige Daten). Jetzt bekommen sie ein riesiges Buffet aus verschiedenen Epochen und Stilen. Das hilft den KI-Modellen, die Sprache viel besser zu verstehen und vielleicht sogar selbst Texte zu schreiben oder zu übersetzen.

Zusammenfassung

Die Forscher haben eine alte, staubige Bibliothek (die Patrologia Graeca) mit Hilfe von modernster KI-Technologie „aufgeweckt". Sie haben der Maschine beigebracht, trotz schmutziger Seiten und verworrener Schrift den griechischen Text zu lesen, zu verstehen und in eine digitale, durchsuchbare Form zu verwandeln.

Sie haben nicht nur die Bücher digitalisiert, sondern ihnen auch eine „Sprachbrille" aufgesetzt, damit Computer die Bedeutung der Wörter verstehen können. Dieses neue, kostenlose Werkzeug steht nun allen zur Verfügung, die sich für die alte griechische Welt interessieren.