From OCR to Analysis: Tracking Correction Provenance in Digital Humanities Pipelines

Dit artikel introduceert een provenance-bewust framework voor OCR-correctie in digitale humaniora dat de herkomst van tekstuele wijzigingen traceert om de reproduceerbaarheid te waarborgen en de impact van correcties op downstream-analyses en interpretaties inzichtelijk te maken.

Haoze Guo, Ziqi Wei

Gepubliceerd Mon, 09 Ma
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een oude, vergeelde krant uit 1900 vindt. De tekst is vaag, de letters zijn soms beschadigd en de inkt is vervaagd. Je wilt deze krant scannen en in je computer zetten zodat je er later in kunt zoeken.

Hier komt OCR (Optical Character Recognition) om de hoek kijken. Dit is een slimme scanner die probeert de beelden van de krant om te zetten in tekst die een computer begrijpt. Maar omdat de krant oud en beschadigd is, maakt de scanner veel fouten. Hij leest bijvoorbeeld "Madifon" terwijl er eigenlijk "Madison" staat, of hij mist een puntje.

In de wereld van de Digital Humanities (waar historici en onderzoekers met oude teksten werken) is dit een groot probleem. Als je die fouten niet corrigeert, kun je geen goede analyses doen. Dus, onderzoekers gaan aan de slag om de tekst te verbeteren. Ze laten computers de fouten opzoeken, of ze doen het zelf handmatig.

Het probleem:
Tot nu toe gebeurde dit vaak als een "geheime magie". Je had de ruwe, foutieve tekst, en daarna had je de "perfecte" tekst. Maar wat er precies tussen die twee lagen, was verdwenen. Als een computer later een naam vindt in de tekst, weet niemand of die naam daar stond omdat de scanner het goed zag, omdat een slim algoritme het raden deed, of omdat een mens het handmatig heeft ingetikt. De geschiedenis van de tekstverandering is gewist.

De oplossing van dit onderzoek:
De auteurs van dit paper, Haoze Guo en Ziqi Wei, zeggen: "Wacht even! We moeten die geschiedenis niet wissen, maar bewaren."

Ze hebben een nieuw systeem bedacht dat ze een "provenance-aware framework" noemen. Laten we dat vergelijken met een kookboek met een gedetailleerd logboek.

De Analogie: Het Kookboek met Logboek

Stel je voor dat je een recept maakt, maar je hebt geen standaardrecept, maar een logboek van elke stap:

  1. De Ruwe Ingrediënten (Raw OCR): Je hebt de originele, beschadigde krant.
  2. De Chef-koks (De Correcties):
    • Soms is het een robot-kok die zegt: "Ik denk dat dit 'Madifon' is, maar ik heb 74% zekerheid dat het 'Madison' moet zijn."
    • Soms is het een menselijke kok die zegt: "Ik heb dit zelf gecontroleerd en ik ben 100% zeker."
    • Soms is het een regels-kok die zegt: "Elke keer als er 'th' staat, vervang ik dat door 'th' omdat dat de regel is."

In het oude systeem werd de ruwe tekst gewoon overschreven door de nieuwe tekst. Je wist niet wie de kok was of hoe zeker hij was.

In het nieuwe systeem van Guo en Wei, wordt elke wijziging vastgelegd als een stap in het logboek:

  • Wat werd er veranderd? (Van 'Madifon' naar 'Madison')
  • Wie deed het? (Robot, Mens, of Regel)
  • Hoe zeker was de kok? (74% zekerheid, of 100% door mens)
  • Waar zat het? (In de kop, in de tekst, of in een nootje onderaan de pagina?)

Waarom is dit zo handig?

Stel je voor dat je later een analyse doet: "Hoe vaak komt de naam 'Madison' voor in deze krant?"

  • Zonder logboek: Je ziet alleen het getal. Je weet niet of die naam daar staat omdat hij er echt was, of omdat de robot het maar raadt.
  • Met het logboek: Je kunt zeggen: "Oké, we zien 'Madison' 50 keer. Maar wacht, 10 keer was het een robot die maar 50% zeker was. Laten we die 10 keer even apart bekijken, want misschien is het een fout."

De auteurs tonen aan dat als je alle correcties toepast (de "volledig gecorrigeerde" versie), je veel meer namen vindt, maar ook veel meer onzekerheid creëert. De computer "verzint" soms namen die er niet waren, alleen maar om de tekst mooier te maken.

Met hun nieuwe systeem kunnen onderzoekers een filter instellen. Ze kunnen zeggen: "Ik wil alleen namen gebruiken die door een mens zijn gecontroleerd, of waar de robot 90% zeker van is." Hierdoor krijgen ze een tekst die iets minder uitgebreid is, maar veel betrouwbaarder.

De Kernboodschap in Eenvoudige Woorden

  1. Geen "Black Box" meer: In plaats van dat computers tekst "magisch" verbeteren en de originele fouten verbergen, houden ze elke stap bij.
  2. Vertrouwen is belangrijk: Niet elke computer-correctie is even goed. Soms is een menselijke correctie beter, soms is een computer sneller. Dit systeem laat je kiezen welke "koks" je vertrouwt.
  3. Historische betekenis: Soms is een "fout" in de oude tekst eigenlijk een historische schrijfwijze die belangrijk is. Als een computer dat "corrigeert" naar modern Nederlands, is die historische waarde weg. Met dit systeem kun je zien: "Ah, de computer heeft dit veranderd, maar ik wil de originele schrijfwijze behouden."

Conclusie:
Dit onderzoek zegt eigenlijk: "In de digitale wereld van oude teksten, moet je niet alleen kijken naar het eindresultaat, maar ook naar hoe je daar gekomen bent." Het maakt het proces transparant, zodat onderzoekers kunnen vertrouwen op hun resultaten en weten waar eventuele fouten vandaan komen. Het is alsof je van een gesloten keuken naar een glazen keuken gaat, waar je elke stap van het koken kunt zien en controleren.