CER-HV: A Human-in-the-Loop Framework for Cleaning Datasets Applied to Arabic-Script HTR

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme bibliotheek hebt met oude, handgeschreven brieven in het Arabisch, Perzisch, Pashto en andere talen die met het Arabische alfabet worden geschreven. Je wilt een slimme computer (een robot) leren om deze brieven te lezen en om te zetten in digitaal tekst. Dit heet Handgeschreven Tekstherkenning (HTR).

Het probleem is dat deze robot vaak fouten maakt. De onderzoekers van dit paper zeggen: "Wacht even, misschien is de robot niet het probleem. Misschien is het de bibliotheek zelf!"

Hier is een uitleg van hun onderzoek, vertaald naar alledaags taalgebruik:

1. Het Probleem: Een Vuile Bibliotheek

Stel je voor dat je een kind wilt leren lezen. Je geeft het een boek, maar in dat boek staan veel fouten:

Soms staat er "appel" geschreven, maar de foto toont een "peer" (een transcriptiefout).
Soms is de foto van de tekst scheef gedraaid, zodat het kind het niet kan lezen (oriëntatiefout).
Soms is er een postzegel of een handtekening op de foto, en denkt het kind dat dat ook tekst is (niet-tekst inhoud).
Soms staat er een zin in het Engels op een pagina die Perzisch zou moeten zijn (script mismatch).

Als je een kind (of een AI) laat leren met zo'n vuil boek, gaat het die fouten ook leren. De onderzoekers ontdekten dat veel bestaande datasets (de "boeken" voor de computer) vol zaten met dit soort verborgen fouten.

2. De Oplossing: De "CER-HV" Methode

De onderzoekers bedachten een slimme manier om deze vuile boeken schoon te maken. Ze noemen hun methode CER-HV. Laten we het vergelijken met een kwaliteitscontroleur in een fabriek.

De methode heeft twee stappen:

Stap 1: De Slimme Robot (De Detector)
Eerst laten ze een slimme computer (een CRNN-model) de teksten lezen. Deze computer is heel goed, maar niet perfect.

Als de computer een tekst leest en de uitkomst is heel erg anders dan wat er in het boek staat, denkt de computer: "Huh? Dit klopt niet."
De computer geeft elke pagina een "strafpunt" (een score). Hoe slechter de overeenkomst, hoe hoger het strafpunt.
Dit is als een robot die zegt: "Deze pagina's lijken verdacht, ze hebben een hoge 'foutkans'."

Stap 2: De Menselijke Controleur (De Mens-in-de-Lus)
Nu komt het slimme deel. De computer is niet perfect; soms is een tekst gewoon heel moeilijk om te lezen (bijvoorbeeld door krabbelig handschrift), en niet per se fout.

De onderzoekers laten een mens alleen kijken naar de pagina's met de hoogste strafpunten.
De mens kijkt: "Is dit echt een fout in het boek? Of is het gewoon een moeilijk handschrift?"
Als het een fout is (bijvoorbeeld een scheef gedraaide foto), wordt de pagina gerepareerd of verwijderd.
Als het gewoon moeilijk handschrift is, blijft het staan, want de computer moet daar nog van leren.

3. Wat Vonden Ze?

Toen ze deze methode toepasten op verschillende datasets, ontdekten ze verrassende dingen:

Veel fouten: In sommige datasets zaten tot 90% van de "verdachte" pagina's echt fouten.
Soorten fouten: Ze vonden veel scheef gedraaide teksten, teksten die in het verkeerde alfabet stonden, en foto's waar alleen een stempel op stond.
Betere resultaten: Toen ze de datasets schoonmaakten en de computer opnieuw leerden, ging de computer veel beter lezen. De foutenmarge (CER) daalde met wel 1,8%. Dat klinkt klein, maar in de wereld van AI is dat als een sprinter die plotseling 10 meter sneller loopt.

4. De Belangrijkste Les

De onderzoekers zeggen eigenlijk: "Stop met het bouwen van steeds complexere robots, en begin met het schoonmaken van je bibliotheek."

Veel onderzoekers denken dat ze betere algoritmes nodig hebben om Arabisch handschrift te lezen. Maar dit paper laat zien dat als je eerst de "vuile data" opruimt, zelfs een simpele, goedkope robot (een CRNN) beter presteert dan de duurste, ingewikkeldste modellen.

Kortom:
Je kunt de beste auto ter wereld hebben, maar als je op een weg rijdt die vol gaten zit (slechte data), zul je toch crashen. De onderzoekers hebben een manier bedacht om die gaten te dichten, zodat de auto soepel kan rijden. En dat werkt voor Arabisch, Perzisch, Urdu en andere talen die met het Arabische schrift worden geschreven.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Handgeschreven tekstherkenning (HTR) voor talen met het Arabische schrift (zoals Arabisch, Perzisch, Urdu, Pashto en Ajami) blijft significant achter bij de prestaties voor Latijnse scripts, ondanks recente vooruitgang in modelarchitecturen. De auteurs stellen dat datakwaliteit een cruciale, maar vaak verwaarloosde beperkende factor is. Veel bestaande datasets bevatten onopgemerkte fouten in de labels (transcripties) en de inhoud van de afbeeldingen, zoals:

Transcriptiefouten: Onjuiste of onvolledige tekst.
Segmentatiefouten: Meerdere tekstregels in één afbeelding of afgekapte regels.
Oriëntatiefouten: Tekst die verkeerd is gedraaid.
Schriftmismatch: Inhoud in een ander schrift dan het doel (bijv. Latijnse tekens in een Arabisch dataset).
Irrelevante inhoud: Stempels, handtekeningen of niet-tekstuele elementen.

Deze fouten ontstaan vaak door semi-automatische datasetconstructie. Deep learning-modellen kunnen deze "ruis" memoriseren tijdens het trainen, wat de generalisatie en de betrouwbaarheid van benchmarks verstoort. Bestaande methoden voor het detecteren van labelruis (gebaseerd op trainingsverlies) werken minder goed voor HTR vanwege de complexiteit van de Connectionist Temporal Classification (CTC) loss, die rekening houdt met uitlijning (alignment) en niet direct de transcriptienauwkeurigheid weergeeft.

Methodologie: Het CER-HV Framework

De auteurs introduceren CER-HV (CER-based Ranking with Human Verification), een tweestapsframework om labelfouten te detecteren en te reinigen.

Fase 1: Automatische Detectie op basis van CER
- In plaats van het gebruik van trainingsverlies (zoals bij O2U-Net voor classificatie), gebruiken de auteurs de Character Error Rate (CER) als score.
- Een zorgvuldig geconfigureerd CRNN (Convolutional Recurrent Neural Network) wordt getraind op de dataset.
- Het model gebruikt early stopping om overfitting op ruis te voorkomen. Zodra het model convergeert, wordt voor elke steekproef de CER berekend tussen de voorspelling en het oorspronkelijke label.
- Steekproeven met een hoge CER worden gerangschikt als potentieel ruis. De keuze voor CER is cruciaal omdat het een direct interpreteerbare maatstaf is voor menselijke beoordelaars, in tegenstelling tot de abstracte CTC-loss.
Fase 2: Menselijke Verificatie (Human-in-the-Loop)
- Steekproeven met een CER boven een drempelwaarde ( $\tau = 0.25$ ) worden geselecteerd voor menselijke inspectie.
- Menselijke beoordelaars categoriseren deze steekproeven in:
  - Fouten (Transcriptie, Segmentatie, Oriëntatie, Schriftmismatch, Irrelevante inhoud).
  - "Geldig maar moeilijk" (Correct gelabeld, maar visueel uitdagend voor het model).
- Fouten worden gecorrigeerd of verwijderd; geldige maar moeilijke steekproeven blijven behouden.
- Het opgeschoonde dataset wordt gebruikt om het model opnieuw te trainen.

Belangrijkste Bijdragen

Systematische Analyse: De eerste systematische analyse van label- en inhoudsfouten in Arabische-script HTR-datasets, met een definitie van een praktische foutentaxonomie.
CER-HV Framework: Een nieuw framework dat leer-dynamiek-gebaseerde ruisdetectie aanpast voor CTC-gebaseerde sequentieherkenning, waarbij CER en early stopping worden gebruikt in plaats van verlies-ranking en cyclisch hertrainen.
Impact van Datakwaliteit: Kwantificering van hoe labelruis benchmarks vervormt. Het paper toont aan dat het schoonmaken van datasets de CER met 0,3% tot 1,8% kan verbeteren, afhankelijk van de ruisgraad.
Nieuwe Baselines: Het vaststellen van state-of-the-art (SOTA) resultaten voor meerdere datasets met een CRNN-architectuur zonder synthetische data of Transformer-attention:
- KHATT (Arabisch): 8,45% CER.
- PHTI (Pashto): 8,26% CER (verbetering van 20,7% naar 8,26%).
- Ajami: 10,66% CER (een aanzienlijke verbetering ten opzichte van eerdere resultaten van 64-84%).
- PHTD (Perzisch): Eerste benchmark van 11,3% CER.
Open Data: Publicatie van opgeschoonde evaluatie-splits en line-level benchmarks voor Perzisch (PHTD) en Ajami, inclusief alle code en menselijk geverifieerde annotaties.

Resultaten

Detectieprecisie: Het CER-gebaseerde systeem bereikte een hoge precisie bij het identificeren van echte fouten: tot 90% voor het Muharaf-dataset en 80-86% voor PHTI.
Prestatieverbetering:
- Voor schonere datasets (zoals KHATT en NUST-UHWR) was de verbetering door het schoonmaken van de evaluatieset klein (0,2-0,5%), maar het trainen op schone data had weinig extra effect omdat de ruisgraad laag was (<1%).
- Voor ruisrijke datasets (Muharaf en Ajami) was het effect groot. Het schoonmaken van zowel trainings- als evaluatiesets leidde tot een CER-reductie van 1,0% tot 1,8%.
- Specifiek voor Ajami was het trainen op schone data cruciaal, omdat dit dataset veel structurele fouten (segmentatie/oriëntatie) bevatte die het modelverloop direct beïnvloedden.
Modelprestaties: De gebruikte CRNN-architectuur (gebaseerd op "Best Practices" met diepere residulaag, batch-normalisatie en een auxiliary CTC-branch) presteerde beter dan of gelijk aan complexere Transformer-modellen op meerdere datasets, zonder gebruik van synthetische data.

Betekenis en Conclusie

Dit paper benadrukt dat de voortgang in HTR voor Arabische scripts niet alleen afhankelijk is van geavanceerdere modellen, maar vooral van betrouwbare data. De auteurs tonen aan dat veel van de moeilijkheid in Arabische HTR voortkomt uit inconsistente labels in plaats van de complexiteit van het schrift zelf.

Het CER-HV framework biedt een praktische, kosteneffectieve oplossing voor het valideren en schoonmaken van datasets, vooral omdat HTR-datasets vaak klein genoeg zijn (enkele duizenden regels) om menselijke verificatie van de "slechtste" steekproeven haalbaar te maken. Dit werk stelt een nieuwe standaard voor reproduceerbaarheid en eerlijke benchmarking in het veld en biedt een blauwdruk voor het aanpakken van datakwaliteit in andere tekstherkenningsdomeinen.

CER-HV: A Human-in-the-Loop Framework for Cleaning Datasets Applied to Arabic-Script HTR

1. Het Probleem: Een Vuile Bibliotheek

2. De Oplossing: De "CER-HV" Methode

3. Wat Vonden Ze?

4. De Belangrijkste Les

Probleemstelling

Methodologie: Het CER-HV Framework

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation