A Survey of OCR Evaluation Methods and Metrics and the Invisibility of Historical Documents

Each language version is independently generated for its own context, not a direct translation.

Der unsichtbare Riss in der Geschichte: Warum Computer Zeitungen nicht richtig lesen können

Stell dir vor, du hast einen riesigen, super-smarten Roboter, der alles lesen kann. Er ist der beste Leser der Welt. Er kann moderne E-Mails, wissenschaftliche Artikel und aktuelle Zeitungen blitzschnell und perfekt in Text umwandeln.

Aber dann legst du ihm eine alte, vergilbte Zeitung aus dem Jahr 1837 vor – eine, die von Schwarzen Amerikanern geschrieben wurde, um ihre Geschichten zu erzählen. Plötzlich wird der Roboter dumm. Er liest die Wörter zwar fast richtig, aber er versteht die Geschichte nicht. Er wirft die Spalten durcheinander, erfindet Sätze, die nie da waren, und ignoriert das, was die Zeitung eigentlich aussagen wollte.

Genau darum geht es in diesem Papier von Fitsum Sileshi Beyene und Christopher L. Dancy.

1. Das Problem: Der Roboter wurde nur mit „normalem" Essen gefüttert

Stell dir vor, du trainierst einen Koch, indem du ihm nur Pizza und Burger zeigst. Wenn du ihm dann einen traditionellen, komplexen japanischen Teezeremonie-Teller vorlegst, wird er wahrscheinlich versuchen, die Teeblätter in eine Pizza zu verwandeln, weil er nicht weiß, wie man sie richtig behandelt.

Das ist genau das Problem bei den heutigen KI-Systemen für das Lesen von Dokumenten (OCR):

Die Trainingsdaten: Die KI wurde fast ausschließlich mit modernen, westlichen Dokumenten trainiert (wie Firmenformulare, wissenschaftliche PDFs oder aktuelle Zeitungen).
Die fehlende Vielfalt: Historische Zeitungen, besonders die der Schwarzen Presse (wie The North Star oder Freedom's Journal), wurden fast nie in den Trainingsdaten berücksichtigt.
Das Ergebnis: Die KI kennt die „Regeln" moderner Zeitungen, aber nicht die Regeln alter, komplexer Layouts, die oft viele Spalten, seltsame Schriftarten und beschädigtes Papier hatten.

2. Der falsche Maßstab: Wenn die Note stimmt, aber die Arbeit falsch ist

In der Schule gibt es oft eine Note für die Rechtschreibung und eine für den Inhalt. Die heutigen KI-Tests messen nur die Rechtschreibung.

Der Trick: Ein KI-System kann 99 % der Buchstaben richtig erkennen. Das klingt toll!
Der Fehler: Aber wenn die KI die Spalten einer alten Zeitung durcheinanderwirbelt (z. B. liest sie erst die linke Spalte, dann die rechte, statt von oben nach unten), ist der Text zwar buchstabiert, aber völlig unlesbar und sinnlos.
Die Metapher: Stell dir vor, jemand schneidet ein Puzzle in tausend Teile, sortiert sie nach Farbe und klebt sie dann in der falschen Reihenfolge zusammen. Das Bild ist „vollständig" (alle Teile sind da), aber es zeigt kein erkennbares Bild mehr. Die KI-Tests sagen aber: „Super! Alle Teile sind da!" und ignorieren, dass das Bild kaputt ist.

3. Warum das wichtig ist: Unsichtbarkeit und Erfindung

Wenn diese Fehler nicht erkannt werden, passiert etwas Gefährliches:

Unsichtbarkeit: Die Geschichten der Schwarzen Gemeinschaften werden für Computer unsichtbar. Sie sind da, aber die KI kann sie nicht „sehen" oder verstehen.
Halluzinationen: Da die KI nicht weiß, wie alte Zeitungen aussehen, fängt sie an, Dinge zu erfinden. Sie setzt Wörter ein, die gut klingen, aber historisch falsch sind. Das nennt man „Over-historicization". Es ist, als würde ein Geschichtenerzähler die Geschichte so anpassen, dass sie sich „alt" anhört, aber dabei die Fakten verfälscht.

4. Die Lösung: Neue Regeln für den Test

Die Autoren schlagen vor, dass wir die Art und Weise, wie wir diese KI-Systeme testen, komplett ändern müssen:

Neue Prüfungsfragen: Wir dürfen nicht nur fragen: „Wie viele Buchstaben waren richtig?" Wir müssen fragen: „Hat die KI die Struktur verstanden? Hat sie die Spalten richtig gelesen? Hat sie den historischen Kontext bewahrt?"
Vielfalt im Test: Wir müssen historische Zeitungen (besonders aus marginalisierten Communities) als Hauptteil der Tests verwenden, nicht als Randnotiz.
Kulturelles Verständnis: Es reicht nicht, nur Technik zu optimieren. Wir müssen anerkennen, dass das Layout einer alten Zeitung oft eine politische Botschaft trägt. Wenn die KI das Layout zerstört, zerstört sie auch die Botschaft.

Fazit in einem Satz

Dieses Papier warnt davor, dass wir unsere KI-Systeme nur an modernen, „sauberen" Dokumenten testen. Wenn wir das nicht ändern, werden wir die reichen, komplexen Geschichten unserer Geschichte (besonders die der Schwarzen Gemeinschaft) technisch zwar „lesen", aber inhaltlich völlig falsch verstehen oder sogar löschen. Wir brauchen neue Messlatten, die nicht nur die Buchstaben zählen, sondern die Bedeutung bewahren.

A Survey of OCR Evaluation Methods and Metrics and the Invisibility of Historical Documents

Der unsichtbare Riss in der Geschichte: Warum Computer Zeitungen nicht richtig lesen können

1. Das Problem: Der Roboter wurde nur mit „normalem" Essen gefüttert

2. Der falsche Maßstab: Wenn die Note stimmt, aber die Arbeit falsch ist

3. Warum das wichtig ist: Unsichtbarkeit und Erfindung

4. Die Lösung: Neue Regeln für den Test

Fazit in einem Satz

Problemstellung

Methodik

Wichtige Beiträge

Ergebnisse

Bedeutung und Implikationen

A Survey of OCR Evaluation Methods and Metrics and the Invisibility of Historical Documents

Der unsichtbare Riss in der Geschichte: Warum Computer Zeitungen nicht richtig lesen können

1. Das Problem: Der Roboter wurde nur mit „normalem" Essen gefüttert

2. Der falsche Maßstab: Wenn die Note stimmt, aber die Arbeit falsch ist

3. Warum das wichtig ist: Unsichtbarkeit und Erfindung

4. Die Lösung: Neue Regeln für den Test

Fazit in einem Satz

Problemstellung

Methodik

Wichtige Beiträge

Ergebnisse

Bedeutung und Implikationen

Mehr davon

CRAFT: Cost-aware Expert Replica Allocation with Fine-Grained Layerwise Estimations

Spark-LLM-Eval: A Distributed Framework for Statistically Rigorous Large Language Model Evaluation

ZEUS: An Efficient GPU Optimization Method Integrating PSO, BFGS, and Automatic Differentiation

Ray Tracing Cores for General-Purpose Computing: A Literature Review

Federated Inference for Heterogeneous LLM Communication and Collaboration