The Patrologia Graeca Corpus: OCR, Annotation, and Open Release of Noisy Nineteenth-Century Polytonic Greek Editions

Dit artikel introduceert het Patrologia Graeca Corpus, een groot openbaar bron met geoptimaliseerde OCR- en taalkundige annotaties voor de overige ongedigitaliseerde negentiende-eeuwse edities van het Patrologia Graeca, waarbij een nieuwe pipeline met YOLO en CRNN een recordlaag foutpercentage voor polytonisch Grieks bereikt.

Chahan Vidal-Gorène (CJM, LIPN), Bastien Kindt

Gepubliceerd Wed, 11 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

De Patrologia Graeca: Een digitale schatgraven-expeditie in het Oude Grieks

Stel je voor dat je een enorme bibliotheek hebt met 161 oude boeken, geschreven in het Oude Grieks en Latijn, die zijn samengesteld in de 19e eeuw. Dit is de Patrologia Graeca. Het is een waardevolle schat voor historici, maar er zit een groot probleem: deze boeken bestaan alleen als saaie, onleesbare PDF-scans. Je kunt ze niet doorzoeken, niet kopiëren en computers kunnen er niets van begrijpen. Het is alsof je een gouden berg hebt, maar de goudklompen zitten vastgebeten in een muur van beton.

Chahan Vidal-Gorène en Bastien Kindt hebben een team samengesteld om die muur af te breken. Ze hebben een nieuw, slim computerprogramma gebouwd dat deze oude, rommelige boeken kan "lezen" en omzetten in een digitale, zoekbare tekst.

Hier is hoe ze dat deden, vertaald in alledaagse taal:

1. Het Probleem: Een rommelige oude krant

Deze oude boeken zijn niet netjes opgemaakt zoals moderne kranten.

  • Twee talen door elkaar: De tekst staat vaak in twee kolommen: links Grieks, rechts Latijn. Soms lopen de regels door elkaar heen, alsof twee mensen tegelijkertijd in hetzelfde boek schrijven.
  • Slecht printwerk: De letters zijn oud, soms vervaagd, en de accenten (die kleine streepjes en kromme lijntjes boven de letters) zijn vaak onduidelijk. Voor een computer is dit net als proberen een handgeschreven brief te lezen terwijl er regen op staat en de inkt is uitgelopen.
  • Geen handleiding: Er was geen "antwoordboekje" (geen grondwaarheid) om te controleren of de computer het goed deed.

2. De Oplossing: Een slimme robot met twee hersenen

De onderzoekers hebben een speciale "robot" gebouwd die in twee stappen werkt, net als een detective die eerst de scène bekijkt en dan de tekst leest.

  • Stap 1: De Architect (YOLO)
    Eerst kijkt de robot naar de pagina en zegt: "Oké, hier is de Griekse tekst, hier is de Latijnse tekst, en hier zijn de randnotities." Het is alsof je met een groene stift de belangrijke tekst in een rommelig document omcirkelt en de rest negeert. Dit zorgt ervoor dat de computer niet probeert de Latijnse tekst te vertalen als Grieks.
  • Stap 2: De Verteller (CRNN)
    Vervolgens neemt een tweede robot de omcirkelde tekst en probeert de letters te herkennen. Omdat de oude boeken zo lastig zijn, hebben de onderzoekers deze robot eerst getraind met duizenden "valse" oude boeken. Ze hebben digitale vlekken, ruis en vage letters toegevoegd aan normale teksten, zodat de robot leerde om ook slechte scans te lezen. Het is alsof je een kind leert fietsen door het eerst te laten oefenen op een helling met een stevige wind, zodat het op een rustige dag geen moeite heeft.

3. Het Resultaat: Een gouden mijn van woorden

Het resultaat is verbazingwekkend goed.

  • Foutmarge: De computer maakt maar 1 op de 100 letters fout. Vroeger maakten andere systemen 1 op de 10 fouten. Dat is een enorme verbetering.
  • De Schat: Ze hebben ongeveer 6 miljoen woorden digitaal gemaakt. Maar ze zijn niet alleen gaan kopiëren; ze hebben elk woord ook "gelezen" en begrepen. Ze hebben voor elk woord de basisvorm (lemma) en de betekenis toegevoegd.
    • Vergelijking: Stel je voor dat je een woordenboek hebt waar niet alleen de woorden staan, maar waar je ook direct kunt zien hoe je ze vervoegt en wat ze betekenen, zelfs als ze 1000 jaar oud zijn.

4. Waarom is dit belangrijk?

Voorheen konden computers en kunstmatige intelligentie (zoals AI) alleen goed Oud-Grieks lezen van schone, moderne teksten. Dit project geeft hen nu toegang tot de "ruwe", echte taal van de Byzantijnse tijd.

  • Het is alsof je een spreektaal-leerder eerst alleen met formele kranten laat oefenen, en nu ineens ook de dagboeken, brieven en grappen van gewone mensen uit die tijd krijgt.
  • Dit helpt toekomstige AI-modellen om de taal beter te begrijpen, van de oudheid tot de middeleeuwen.

5. De Deelbaarheid: Iedereen mag meedoen

Het mooiste deel is dat ze alles gratis beschikbaar hebben gesteld.

  • De "ruwe" scans, de getrainde robots en de 6 miljoen woorden zijn allemaal online te vinden.
  • Onderzoekers, studenten en zelfs hobbyisten kunnen nu in deze enorme database zoeken, net zoals je op Google zoekt, maar dan voor teksten uit de 1e tot de 15e eeuw.

Kortom:
De onderzoekers hebben een digitale sleutel gemaakt voor een oude, stoffige kast vol met Griekse teksten. Ze hebben de rommel opgeruimd, de tekst leesbaar gemaakt en de schat opengezet voor iedereen. Hierdoor kunnen we nu eindelijk de wijsheid van de oude wereld beter begrijpen en gebruiken voor de technologie van morgen.