A Survey of OCR Evaluation Methods and Metrics and the Invisibility of Historical Documents

Each language version is independently generated for its own context, not a direct translation.

Samenvatting: Waarom de "digitale bril" van computers historische kranten niet goed kan lezen

Stel je voor dat je een heleboel oude, vergeelde kranten uit de 19e eeuw hebt. Deze kranten zijn geschreven door en voor de Afro-Amerikaanse gemeenschap, zoals The North Star of Freedom's Journal. Ze zijn belangrijk, maar ze zijn ook beschadigd door de tijd: de inkt is vervaagd, de pagina's zijn scheef gescand en ze staan vol met complexe opmaak, zoals veel kolommen naast elkaar en oude lettertypes.

Nu willen we computers (OCR-systemen) leren om deze kranten te lezen en te digitaliseren. Maar volgens dit onderzoek is er een groot probleem: de computers zijn getraind om moderne, nette documenten te lezen, en ze falen volledig bij deze historische schatten.

Hier is de uitleg, vertaald naar alledaags taalgebruik:

1. De "Rijbewijstest" is verkeerd

Stel je voor dat je een auto wilt leren rijden. Je geeft de student een rijbewijstest, maar de test bestaat alleen uit het rijden op een lege, moderne snelweg met perfecte wegwijzers.

Het probleem: De studenten (de AI-computers) halen die test met vlag en wimpel. Ze zeggen: "Ik kan perfect rijden!"
De realiteit: Als je diezelfde student nu op een oud, kasseienweggetje in een historische stad zet, met smalle steegjes en onduidelijke borden, valt de auto uit elkaar.
In de paper: De "tests" (benchmarks) die AI-systemen gebruiken, bestaan uit moderne zakelijke documenten en wetenschappelijke artikelen. Ze meten alleen of de letters correct zijn overgeschreven (zoals het tellen van fouten in een zin). Ze kijken niet of de computer begrijpt hoe de tekst is opgebouwd.

2. Het "Kolom-chaos"

Historische kranten, vooral die van de Black Press, hadden vaak 5 of 6 kolommen naast elkaar. De tekst sprong van de ene kolom naar de andere op een manier die logisch was voor de lezer van toen, maar raar voor een computer.

De analogie: Het is alsof je een boek leest waarbij je niet van links naar rechts hoeft te gaan, maar eerst de bovenste regel van kolom 1, dan de bovenste regel van kolom 2, enzovoort.
Wat de computer doet: De computer denkt: "Oh, ik lees gewoon van links naar rechts, van boven naar beneden." Hierdoor leest hij de tekst door elkaar. Hij leest een gedicht dat in kolom 1 staat, en plakt daar direct de nieuwsbericht uit kolom 2 aan vast.
Het gevolg: De computer zegt: "Ik heb 95% van de letters correct overgeschreven!" Maar de betekenis is volledig verloren gegaan. Het is alsof je een recept voor een taart hebt, maar de instructies staan door elkaar met een recept voor soep. De letters zijn er, maar het gerecht is on eetbaar.

3. De "Geest van de machine" (Hallucinaties)

Soms zijn de oude kranten zo beschadigd dat de letters moeilijk te lezen zijn. Moderne AI-systemen zijn zo slim dat ze proberen de gaten in te vullen met wat ze denken dat er moet staan.

De analogie: Stel je voor dat je een oud, onleesbaar briefje probeert te ontcijferen. Je ziet een vlek die lijkt op de letter 'A', maar je weet het niet zeker. Een slimme, maar arrogant persoon zou zeggen: "Dat is zeker een 'A', want in deze context hoort een A te staan."
Het gevaar: De computer "hallucineert" woorden die er nooit hebben gestaan. Hij maakt een verhaal dat logisch klinkt, maar historisch onwaar is. Dit is gevaarlijk voor de geschiedenis, omdat we straks denken dat de computer de waarheid heeft gevonden, terwijl hij eigenlijk een verhaal heeft verzonnen.

4. Waarom gebeurt dit? (De "Onzichtbaarheid")

De schrijvers van dit onderzoek zeggen dat dit niet per se een technisch probleem is, maar een sociaal en organisatorisch probleem.

De oorzaak: De mensen die de datasets (de "leermateriaal") voor de computers verzamelen, kiezen vaak voor wat makkelijk en groot is (zoals miljoenen moderne PDF's). Ze vergeten de kleine, historische kranten van minderheidsgroepen.
Het resultaat: Omdat deze kranten niet in de "leermateriaal" zitten, en omdat de "tests" niet vragen of de computer deze kranten kan lezen, worden ze genegeerd. Het is alsof je een school bouwt waar alleen kinderen met bruine ogen leren lezen, en je vergeten bent dat er ook kinderen met blauwe ogen zijn. De school werkt perfect voor de bruine ogen, maar faalt voor de rest.

De conclusie in één zin

We bouwen steeds slimmere computers die tekst kunnen lezen, maar we testen ze alleen op de "standaard" wereld. Hierdoor worden de verhalen van historische gemeenschappen (zoals de Afro-Amerikaanse pers) onzichtbaar gemaakt of vervormd, omdat de computers niet zijn getraind om de unieke, complexe en beschadigde vorm van die verhalen te begrijpen.

Wat moet er gebeuren?
We moeten de "rijbewijstest" voor computers veranderen. We moeten ze laten testen op die oude, beschadigde kranten. Als ze die niet kunnen lezen, moeten we zeggen: "Je bent nog niet klaar," in plaats van: "Je bent een genie." Alleen dan kunnen we de echte geschiedenis bewaren, in plaats van een computer-versie die er mooi uitziet, maar de ziel mist.

A Survey of OCR Evaluation Methods and Metrics and the Invisibility of Historical Documents

1. De "Rijbewijstest" is verkeerd

2. Het "Kolom-chaos"

3. De "Geest van de machine" (Hallucinaties)

4. Waarom gebeurt dit? (De "Onzichtbaarheid")

De conclusie in één zin

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

A Survey of OCR Evaluation Methods and Metrics and the Invisibility of Historical Documents

1. De "Rijbewijstest" is verkeerd

2. Het "Kolom-chaos"

3. De "Geest van de machine" (Hallucinaties)

4. Waarom gebeurt dit? (De "Onzichtbaarheid")

De conclusie in één zin

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

CRAFT: Cost-aware Expert Replica Allocation with Fine-Grained Layerwise Estimations

Spark-LLM-Eval: A Distributed Framework for Statistically Rigorous Large Language Model Evaluation

ZEUS: An Efficient GPU Optimization Method Integrating PSO, BFGS, and Automatic Differentiation

Ray Tracing Cores for General-Purpose Computing: A Literature Review

Federated Inference for Heterogeneous LLM Communication and Collaboration