OCRGenBench: A Comprehensive Benchmark for Evaluating OCR Generative Capabilities

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kunstenaar bent die niet alleen prachtige landschappen kan schilderen, maar ook perfect kan schrijven. Je kunt een schilderij maken van een bos, maar als je vraagt om er een bordje "Welkom" in te plakken, schrijft de kunstenaar misschien "Welkoom" of plaatst het bordje scheef. Of als je vraagt om een oude, krakende brief te repareren, maakt hij er misschien een compleet nieuwe brief van in plaats van de oude tekst te herstellen.

Dit is precies het probleem waar de onderzoekers van dit paper tegenaan lopen. Vroeger konden computers alleen maar "natuurlijke" dingen tekenen (zoals bomen, mensen, wolken). Maar nu willen ze ook tekst kunnen genereren en bewerken. Het probleem is: we hadden geen goede manier om te testen hoe goed ze hierin waren.

Hier is wat ze hebben gedaan, vertaald in een simpel verhaal:

1. Het Probleem: De "Blinde Vlek"

Tot nu toe waren de tests voor deze kunstenaars (AI-modellen) te makkelijk en te beperkt. Het was alsof je een chef-kok testte door alleen te vragen om een salade te maken, en daarna zei je: "Gefeliciteerd, je bent een topkok!" terwijl je vergeten bent om te testen of hij ook een taart kan bakken of een vis kan grillen.

De bestaande tests keken alleen naar simpele teksten op posters of straatnaamborden. Ze negeerden moeilijke dingen zoals:

Oude, beschadigde documenten.
Handgeschreven brieven.
Dichte pagina's vol tekst (zoals een krant).
Tekst die je moet wissen of veranderen zonder de rest van de foto aan te raken.

2. De Oplossing: OCRGenBench (De "Ultieme Keuring")

De onderzoekers hebben een nieuwe, super-uitgebreide test ontwikkeld, genaamd OCRGenBench. Je kunt dit zien als een olympiade voor AI-kunstenaars, maar dan specifiek voor tekst.

In plaats van één simpele opdracht, geven ze de AI 33 verschillende soorten taken:

Tekst maken: "Teken een poster met de tekst 'Zomerfeest' in een vrolijke stijl."
Tekst bewerken: "Verander het woord 'Slaap' in 'Wakker' op deze foto van een slaapkamer, maar laat de rest van de kamer precies hetzelfde."
Tekst repareren: "Dit document is gekreukt en heeft schaduwen; maak het weer plat en leesbaar."
Tekst wissen: "Maak de handgeschreven notities op dit bord weg, maar laat het bord zelf intact."

Ze hebben 1.060 moeilijke voorbeelden verzameld, inclusief tekst in het Nederlands (Nederlands is hier vertaald, maar de test is in het Engels en Chinees), met hele lange zinnen, rare vormen en oude handschriften.

3. De Score: De "OCRGenScore"

Hoe meet je of een kunstenaar goed is? Je kunt niet alleen kijken of de tekst leesbaar is. Je moet ook kijken of het er mooi uitziet en of de AI precies deed wat je vroeg.

Ze hebben een nieuwe meetlat bedacht: OCRGenScore.

De tekst: Is het correct gespeld? (Geen "Wlekoom" maar "Welkom").
De stijl: Ziet het eruit als een echte foto of een tekening?
De gehoorzaamheid: Heeft de AI precies gedaan wat je vroeg, of heeft hij iets anders toegevoegd?

Deze score wordt omgezet in één cijfer van 0 tot 100.

4. Wat bleek eruit? (De Verdict)

Ze hebben 19 van de slimste AI-modellen ter wereld (zowel die van grote bedrijven als open-source) op deze test gezet. Het nieuws is... gemengd, maar eerlijk gezegd wel teleurstellend.

De resultaten: De meeste AI-modellen scoorden onder de 60. Dat betekent dat ze nog niet klaar zijn voor de echte wereld. Ze maken veel fouten.
De winnaars: Slechts twee modellen deden het goed (boven de 70): Nano Banana Pro en Flux.2-dev. Zelfs zij maken nog fouten.
De valkuilen:
- Verkeerde plek: De AI weet vaak niet waar ze tekst moeten zetten. Ze schrijven "Welkom" ergens in de lucht in plaats van op het bordje.
- Onbedoelde veranderingen: Als je vraagt om één woord te veranderen, verandert de AI soms ook de achtergrond of verwijdert andere tekst.
- Kleine letters: Als de tekst heel klein is (zoals op een medicijnverpakking), wordt het onleesbaar of garbled.
- Taalproblemen: De modellen zijn veel beter in het Engels dan in het Chinees (en waarschijnlijk ook in het Nederlands, hoewel dat niet specifiek in de test zat, is de trend duidelijk).

5. Waarom is dit belangrijk?

Stel je voor dat je een robot wilt die oude familiefoto's met tekst erop kan restaureren, of een assistent die automatisch formulieren kan invullen en aanpassen. Als die robot de tekst niet goed kan lezen of schrijven, is hij nutteloos.

Deze paper zegt: "Stop met doen alsof het goed gaat. We hebben een betere manier nodig om te testen, en we moeten nog veel harder werken voordat AI echt betrouwbaar tekst kan genereren en bewerken."

Het is alsof we net hebben ontdekt dat onze "slimme" auto's perfect kunnen rijden op een lege parkeerplaats, maar nog niet weten hoe ze moeten parkeren in een drukke stad. OCRGenBench is de kaart van die drukke stad, zodat we de auto's eindelijk kunnen testen op de echte uitdagingen.

OCRGenBench: A Comprehensive Benchmark for Evaluating OCR Generative Capabilities

1. Het Probleem: De "Blinde Vlek"

2. De Oplossing: OCRGenBench (De "Ultieme Keuring")

3. De Score: De "OCRGenScore"

4. Wat bleek eruit? (De Verdict)

5. Waarom is dit belangrijk?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Toekomstperspectief

OCRGenBench: A Comprehensive Benchmark for Evaluating OCR Generative Capabilities

1. Het Probleem: De "Blinde Vlek"

2. De Oplossing: OCRGenBench (De "Ultieme Keuring")

3. De Score: De "OCRGenScore"

4. Wat bleek eruit? (De Verdict)

5. Waarom is dit belangrijk?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Toekomstperspectief

Meer zoals dit