From OCR to Analysis: Tracking Correction Provenance in Digital Humanities Pipelines

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen alten, vergilbten Brief aus dem 19. Jahrhundert gefunden. Der Tinte ist verblasst, das Papier ist fleckig, und die Schrift ist schwer zu lesen. Sie wollen diesen Brief für die Forschung nutzen, aber ein Computer kann die Buchstaben nicht direkt verstehen.

Hier kommt die OCR-Technologie (Optical Character Recognition) ins Spiel. Sie ist wie ein sehr schneller, aber etwas müder Übersetzer, der versucht, das alte Bild in lesbaren Text umzuwandeln. Das Problem: Dieser Übersetzer macht Fehler. Aus einem alten „s" wird vielleicht ein „f", aus „M" wird „rn", und ganze Wörter werden durcheinandergewürfelt.

Normalerweise nehmen Forscher diese fehlerhaften Texte und „reparieren" sie. Sie nutzen Software oder Menschen, um die Fehler zu korrigieren. Aber hier liegt das große Problem, das diese Forscher (Haoze Guo und Ziqi Wei) aufzeigen: Wenn man den Text einfach nur korrigiert und den Originaltext überschreibt, ist die Geschichte des Fehlers verloren.

Es ist, als würde man einen alten, zerkratzten Film restaurieren, alle Kratzer wegretuschieren und dann behaupten: „Das war immer schon so sauber." Niemand weiß mehr, wo der Kratzer war, wer ihn entfernt hat oder ob die Reparatur vielleicht sogar etwas Wichtiges verändert hat.

Die Lösung: Ein „Kochbuch" für Textkorrekturen

Die Autoren schlagen vor, dass wir nicht nur das fertige Gericht (den korrigierten Text) servieren, sondern auch das Kochbuch (die Provenienz) mitliefern.

Stellen Sie sich den Text wie ein Gericht vor:

Der rohe OCR-Text ist der rohe, ungewaschene Fisch.
Die Korrektur ist das Schneiden, Würzen und Braten.
Die Provenienz ist eine detaillierte Liste, die sagt:
- Welches Stück Fisch wurde geschnitten? (Span-Level)
- Wer hat es geschnitten? (Ein Computer-Algorithmus oder ein Mensch?)
- Wie sicher war der Koch? (Hat er zu 90 % geglaubt, dass es ein Fisch ist, oder nur zu 50 %?)
- Warum wurde es geändert? (War es ein offensichtlicher Fehler oder eine stilistische Entscheidung?)

Was haben die Forscher gemacht?

Sie haben einen kleinen Testlauf (eine „Pilotstudie") mit historischen Texten gemacht. Sie haben drei Versionen erstellt:

Die rohe Version: Der Computer hat den Text so gelesen, wie er war (mit allen Fehlern).
Die „Alles-ist-perfekt"-Version: Alle gefundenen Fehler wurden automatisch korrigiert.
Die „Vorsichtige"-Version: Nur die Korrekturen wurden übernommen, bei denen der Computer oder der Mensch sehr sicher war (basierend auf den Daten aus dem „Kochbuch").

Dann haben sie einen Computer-Algorithmus (einen „Entitäten-Extraktor") eingesetzt, der versucht, Namen von Personen, Orten und Daten aus diesen Texten zu finden.

Die überraschenden Ergebnisse

Das Ergebnis war aufschlussreich:

Die „Alles-ist-perfekt"-Version fand zwar mehr Namen, aber sie war auch sehr instabil. Der Computer fand plötzlich ganz andere Namen oder veränderte die Bedeutung von Sätzen, weil eine kleine, unsichere Korrektur im Hintergrund passiert war.
Die „Vorsichtige"-Version fand fast genauso viele Namen, war aber viel stabiler. Da sie nur die Korrekturen nutzte, bei denen man sich sicher war, waren die Ergebnisse verlässlicher.

Die wichtigste Erkenntnis: Wenn man nicht weiß, wie ein Text korrigiert wurde, kann man nicht wissen, ob die gefundenen Namen wirklich im Original standen oder nur vom Computer „erfunden" wurden, weil er einen Fehler repariert hat.

Warum ist das wichtig für die Geschichte?

In den Geisteswissenschaften (Digital Humanities) geht es oft um Interpretation. Wenn ein Historiker sagt: „In diesem Jahr gab es viele Treffen in Paris", muss er sicher sein, dass das Wort „Paris" wirklich dort stand und nicht aus einem Fehler wie „Pari" korrigiert wurde.

Mit dem neuen Ansatz können Forscher sagen:

„Wir haben diesen Namen gefunden, aber er beruht auf einer unsicheren Korrektur. Wir sollten das in unserer Studie erwähnen."
„Dieser Name wurde von einem Menschen geprüft, also können wir uns darauf verlassen."

Zusammenfassung in einer Metapher

Stellen Sie sich vor, Sie lesen eine Nachricht von einem Freund, die durch einen verrückten Bot verzerrt wurde.

Der alte Weg: Jemand korrigiert die Nachricht, löscht die Verzerrung und sagt: „Hier ist die Nachricht." Sie wissen nicht, ob der Bot das Wort „Liebe" in „Liebe" geändert hat oder ob es „Liebe" war.
Der neue Weg (Provenienz): Jemand gibt Ihnen die korrigierte Nachricht und ein kleines Zettelchen dazu: „Das Wort 'Liebe' wurde vom Bot mit 70 % Sicherheit geändert. Das Wort 'Freund' wurde von einem Menschen bestätigt."

Dadurch können Sie entscheiden, wie sehr Sie der Nachricht trauen. Sie behalten die Kontrolle über die Unsicherheit, anstatt sie zu ignorieren.

Fazit: Die Forscher wollen, dass wir in der digitalen Forschung nicht nur das Endergebnis sehen, sondern auch die „Fingerabdrücke" der Entscheidungen, die dorthin geführt haben. So wird die Wissenschaft transparenter, nachvollziehbarer und ehrlicher.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „From OCR to Analysis: Tracking Correction Provenance in Digital Humanities Pipelines" auf Deutsch:

1. Problemstellung

Optical Character Recognition (OCR) ist ein kritischer, aber fehleranfälliger Schritt in Text-Pipelines der Digital Humanities (DH), insbesondere bei historischen Quellen, die oft durch Degradierung, nicht-standardisierte Schriftarten und ungewöhnliche Layouts gekennzeichnet sind. Um die Lesbarkeit und die Leistung nachgelagerter NLP-Aufgaben (z. B. Named Entity Recognition, NER) zu verbessern, werden OCR-Ausgaben häufig korrigiert (durch Regeln, neuronale Netze oder manuelle Bearbeitung).

Das zentrale Problem besteht jedoch darin, dass herkömmliche Workflows diese Korrekturschritte oft überschreiben. Die ursprünglichen OCR-Fehler, die Art der Änderung, die Quelle der Korrektur (Maschine vs. Mensch) und das Konfidenzniveau gehen dabei verloren. Dies führt zu folgenden methodischen Herausforderungen:

Verlust der Analytischen Historie: Es ist nicht mehr nachvollziehbar, wie sich der Text vom gescannten Original zum analysierten Text entwickelt hat.
Intransparenz der Unsicherheit: Unsichere Korrekturen werden als Fakten behandelt, was die Zuverlässigkeit von Ergebnissen (z. B. bei der Entitätsextraktion) beeinträchtigt.
Reproduzierbarkeitsmangel: Da die Transformationsschritte nicht dokumentiert sind, können Interpretationen nicht vollständig auditiert oder repliziert werden.

2. Methodik und Ansatz

Die Autoren schlagen einen provenance-bewussten Rahmen (Provenance-Aware Framework) vor, der Korrekturentscheidungen nicht als einmalige Aktion, sondern als nachvollziehbare Sequenz von editorischen Entscheidungen modelliert.

A. Das Provenance-Schema (Span-Level)

Statt nur Token oder ganze Dokumente zu betrachten, wird die Korrekturebene auf Span-Ebene (Textsegmente) definiert. Das Schema erfasst für jede Korrektur folgende Metadaten:

Edit Lineage: Verknüpfung mit dem Dokument/Seiten-Identifikator und den Offset-Werten (Start/Ende) im Basistext (meist roher OCR).
Edit Type: Art der Änderung (Substitution, Split, Merge).
Correction Source: Ursprung der Korrektur (regelbasiert, modellgestützt, menschlich).
Confidence: Ein Konfidenzwert (optional), der von der Korrekturquelle stammt.
Revision Status: Genehmigungsstatus (z. B. „approved" durch einen menschlichen Prüfer).
Layout-Zone: Kontextinformationen (z. B. Fließtext, Kopfzeile, Fußnote).

Die Daten werden als stand-off Annotationen (z. B. JSONL, CSV) gespeichert, die den Originaltext nicht überschreiben, sondern Referenzen darauf halten. Dies ermöglicht die deterministische Rekonstruktion verschiedener Textvarianten basierend auf Vertrauensrichtlinien (Trust Policies).

B. Pilot-Studie-Design

Die Autoren führen eine empirische Pilotstudie mit einem kleinen Korpus historischer Texte durch.

Text-Varianten: Für jedes Dokument werden drei Varianten erstellt:
1. Raw OCR: Unkorrigierter Text.
2. Fully Corrected: Alle verfügbaren Korrekturen angewendet.
3. Provenance-Filtered: Nur Korrekturen, die bestimmte Kriterien erfüllen (z. B. Konfidenz $\ge$ 0,70 oder menschliche Genehmigung).
Downstream-Aufgabe: Named Entity Recognition (NER) wird auf allen Varianten mit einem festen Transformer-Modell (auf CoNLL-2003 feinabgestimmt) durchgeführt.
Metriken: Vergleich der extrahierten Entitäten hinsichtlich Menge, Einzigartigkeit, Jaccard-Ähnlichkeit und Volatilität (Entitäten, die erscheinen/verschwinden oder ihre Form ändern).
Attribution: Ein Heuristik-Ansatz (Überlappung + lokaler Suchfenster) verknüpft volatile Entitäten mit den spezifischen Korrekturereignissen, die sie verursacht haben.

3. Hauptbeiträge

Span-Level Provenance-Schema: Einführung eines Formats, das Edit-Herkunft, Quelle, Konfidenz und Status auf Textsegment-Ebene erfasst.
Empirischer Vergleich: Demonstration, wie sich NER-Ergebnisse zwischen rohem OCR, vollständig korrigiertem Text und provenance-gefiltertem Text unterscheiden.
Analytische Fehleranalyse: Nachweis, dass Provenance-Signale genutzt werden können, um instabile Ausgaben zu identifizieren und menschliche Überprüfungen zu priorisieren.

4. Ergebnisse

Die Studie zeigt signifikante Unterschiede in den NLP-Ergebnissen je nach Korrekturpfad:

Einfluss auf Entitäten: Die „Fully Corrected"-Variante erhöht die Anzahl der extrahierten Entitäten (von 1184 auf 1342 Mentions), führt aber auch zu einer hohen Volatilität (176 volatile Entitäten).
Effekt des Filterns: Die „Provenance-Filtered"-Variante behält den Großteil des Gewinns bei (1287 Mentions), reduziert jedoch die Volatilität erheblich (auf 121 Entitäten). Dies zeigt, dass Filterung nicht einfach eine Rückkehr zum Rohzustand ist, sondern die Auswahl eines Pfades mit einem anderen Risiko-Profil.
Korrelation mit Unsicherheit: Ein großer Teil der instabilen Entitäten ist mit niedriger Konfidenz oder nicht geprüften Korrekturen verknüpft.
Signal-Nutzen: Bestimmte Provenance-Signale sind starke Prädiktoren für Instabilität:
- Split/Merge-Operationen: Obwohl selten, verursachen sie die höchste Volatilität (da sie Token-Grenzen verschieben).
- Layout-Zonen: Korrekturen in Kopfzeilen und Fußnoten führen häufiger zu Fehlern als im Fließtext.
Entity Linking: Auch die Verknüpfung von Entitäten mit Wissensdatenbanken (z. B. Wikipedia) ist empfindlich gegenüber kleinen Änderungen in der Oberflächenform, die durch Korrekturen entstehen. Provenance-Filterung stabilisiert diese Ergebnisse.

5. Bedeutung und Fazit

Das Paper argumentiert, dass Provenanz in NLP-Pipelines für die Digital Humanities als analytische Primärschicht (First-Class Analytical Layer) behandelt werden muss, nicht nur als Implementierungs-Metadaten.

Transparenz und Kritik: Durch die Offenlegung der Korrekturherkunft können Forscher zwischen „Reparaturen" (Wiederherstellung der Quelltreue) und „Normalisierungen" (Änderung historisch bedeutsamer Variation) unterscheiden.
Steuerung von Unsicherheit: Provenance-Daten ermöglichen es Forschern, einen bewussten Kompromiss zwischen Abdeckung (Recall) und Stabilität (Precision) zu wählen, indem sie Vertrauensrichtlinien (z. B. Konfidenz-Schwellenwerte) explizit anwenden und dokumentieren.
Audit-Fähigkeit: Instabile Ergebnisse können direkt auf die spezifischen editorischen Entscheidungen zurückgeführt werden, was eine gezielte Überprüfung und eine verbesserte wissenschaftliche Nachvollziehbarkeit ermöglicht.

Zusammenfassend bietet der vorgestellte Ansatz einen Weg, um die „Black Box" der OCR-Nachbearbeitung zu öffnen und sicherzustellen, dass computergestützte Interpretationen historischer Texte auf nachvollziehbaren und überprüfbaren Transformationen basieren.

From OCR to Analysis: Tracking Correction Provenance in Digital Humanities Pipelines

Die Lösung: Ein „Kochbuch" für Textkorrekturen

Was haben die Forscher gemacht?

Die überraschenden Ergebnisse

Warum ist das wichtig für die Geschichte?

Zusammenfassung in einer Metapher

1. Problemstellung

2. Methodik und Ansatz

A. Das Provenance-Schema (Span-Level)

B. Pilot-Studie-Design

3. Hauptbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities