CER-HV: A Human-in-the-Loop Framework for Cleaning Datasets Applied to Arabic-Script HTR

Dit artikel introduceert CER-HV, een mens-in-de-lus framework dat labelfouten detecteert en corrigeert in datasets voor handgeschreven tekstherkenning van Arabisch-schrifttalen, waardoor de datakwaliteit en prestaties van bestaande modellen aanzienlijk worden verbeterd.

Sana Al-azzawi, Elisa Barney, Marcus Liwicki

Gepubliceerd 2026-02-25
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme bibliotheek hebt met oude, handgeschreven brieven in het Arabisch, Perzisch, Pashto en andere talen die met het Arabische alfabet worden geschreven. Je wilt een slimme computer (een robot) leren om deze brieven te lezen en om te zetten in digitaal tekst. Dit heet Handgeschreven Tekstherkenning (HTR).

Het probleem is dat deze robot vaak fouten maakt. De onderzoekers van dit paper zeggen: "Wacht even, misschien is de robot niet het probleem. Misschien is het de bibliotheek zelf!"

Hier is een uitleg van hun onderzoek, vertaald naar alledaags taalgebruik:

1. Het Probleem: Een Vuile Bibliotheek

Stel je voor dat je een kind wilt leren lezen. Je geeft het een boek, maar in dat boek staan veel fouten:

  • Soms staat er "appel" geschreven, maar de foto toont een "peer" (een transcriptiefout).
  • Soms is de foto van de tekst scheef gedraaid, zodat het kind het niet kan lezen (oriëntatiefout).
  • Soms is er een postzegel of een handtekening op de foto, en denkt het kind dat dat ook tekst is (niet-tekst inhoud).
  • Soms staat er een zin in het Engels op een pagina die Perzisch zou moeten zijn (script mismatch).

Als je een kind (of een AI) laat leren met zo'n vuil boek, gaat het die fouten ook leren. De onderzoekers ontdekten dat veel bestaande datasets (de "boeken" voor de computer) vol zaten met dit soort verborgen fouten.

2. De Oplossing: De "CER-HV" Methode

De onderzoekers bedachten een slimme manier om deze vuile boeken schoon te maken. Ze noemen hun methode CER-HV. Laten we het vergelijken met een kwaliteitscontroleur in een fabriek.

De methode heeft twee stappen:

Stap 1: De Slimme Robot (De Detector)
Eerst laten ze een slimme computer (een CRNN-model) de teksten lezen. Deze computer is heel goed, maar niet perfect.

  • Als de computer een tekst leest en de uitkomst is heel erg anders dan wat er in het boek staat, denkt de computer: "Huh? Dit klopt niet."
  • De computer geeft elke pagina een "strafpunt" (een score). Hoe slechter de overeenkomst, hoe hoger het strafpunt.
  • Dit is als een robot die zegt: "Deze pagina's lijken verdacht, ze hebben een hoge 'foutkans'."

Stap 2: De Menselijke Controleur (De Mens-in-de-Lus)
Nu komt het slimme deel. De computer is niet perfect; soms is een tekst gewoon heel moeilijk om te lezen (bijvoorbeeld door krabbelig handschrift), en niet per se fout.

  • De onderzoekers laten een mens alleen kijken naar de pagina's met de hoogste strafpunten.
  • De mens kijkt: "Is dit echt een fout in het boek? Of is het gewoon een moeilijk handschrift?"
  • Als het een fout is (bijvoorbeeld een scheef gedraaide foto), wordt de pagina gerepareerd of verwijderd.
  • Als het gewoon moeilijk handschrift is, blijft het staan, want de computer moet daar nog van leren.

3. Wat Vonden Ze?

Toen ze deze methode toepasten op verschillende datasets, ontdekten ze verrassende dingen:

  • Veel fouten: In sommige datasets zaten tot 90% van de "verdachte" pagina's echt fouten.
  • Soorten fouten: Ze vonden veel scheef gedraaide teksten, teksten die in het verkeerde alfabet stonden, en foto's waar alleen een stempel op stond.
  • Betere resultaten: Toen ze de datasets schoonmaakten en de computer opnieuw leerden, ging de computer veel beter lezen. De foutenmarge (CER) daalde met wel 1,8%. Dat klinkt klein, maar in de wereld van AI is dat als een sprinter die plotseling 10 meter sneller loopt.

4. De Belangrijkste Les

De onderzoekers zeggen eigenlijk: "Stop met het bouwen van steeds complexere robots, en begin met het schoonmaken van je bibliotheek."

Veel onderzoekers denken dat ze betere algoritmes nodig hebben om Arabisch handschrift te lezen. Maar dit paper laat zien dat als je eerst de "vuile data" opruimt, zelfs een simpele, goedkope robot (een CRNN) beter presteert dan de duurste, ingewikkeldste modellen.

Kortom:
Je kunt de beste auto ter wereld hebben, maar als je op een weg rijdt die vol gaten zit (slechte data), zul je toch crashen. De onderzoekers hebben een manier bedacht om die gaten te dichten, zodat de auto soepel kan rijden. En dat werkt voor Arabisch, Perzisch, Urdu en andere talen die met het Arabische schrift worden geschreven.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →