CER-HV: A Human-in-the-Loop Framework for Cleaning Datasets Applied to Arabic-Script HTR

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere una biblioteca antica piena di manoscritti scritti a mano in arabo, persiano, pashtu e altre lingue che usano l'alfabeto arabo. Il tuo obiettivo è insegnare a un computer a leggere queste pagine e trasformarle in testo digitale, così che tutti possano cercarle e studiarle. Questo compito si chiama Riconoscimento del Testo Scritto a Mano (HTR).

Il problema è che, mentre i computer sono diventati bravissimi a leggere l'inglese o l'italiano, faticano ancora molto con le lingue che usano l'alfabeto arabo. Perché? Spesso la colpa non è della "intelligenza" del computer, ma della qualità dei libri di testo che gli abbiamo dato per imparare.

Ecco come gli autori di questo studio hanno risolto il problema con il loro nuovo metodo, chiamato CER-HV.

1. Il Problema: La "Cattiva Istruzione"

Immagina di voler insegnare a un bambino a leggere. Se gli dai un libro dove alcune parole sono scritte male, dove le righe sono tagliate a metà, o dove c'è un timbro postale che copre una frase, il bambino imparerà cose sbagliate o rimarrà confuso.

Nell'informatica, questi errori si chiamano "rumore nei dati".
Molti dataset (i "libri di testo" digitali) usati per l'arabo contengono errori nascosti:

Errori di trascrizione: Il testo scritto a mano dice "casa", ma chi ha etichettato il file ha scritto "gatto".
Errori di taglio: L'immagine contiene due righe di testo mescolate insieme.
Orientamento: La riga è girata sottosopra o di lato.
Contenuto inutile: Ci sono timbri, firme o disegni che non sono testo.

Fino ad ora, i ricercatori hanno cercato di costruire computer sempre più "intelligenti" (modelli complessi) per leggere meglio, ignorando che il problema era il libro di testo sbagliato.

2. La Soluzione: Il Metodo "CER-HV" (Il Controllore Intelligente)

Gli autori hanno creato un sistema a due fasi per pulire questi libri di testo, chiamato CER-HV. È come avere un supervisore esperto che controlla i compiti di uno studente.

Fase 1: Il "Detective" Automatico (La CRNN)

Prima di far controllare tutto a un umano, usano un'intelligenza artificiale speciale (una rete neurale chiamata CRNN) che funziona come un detective.

Come funziona: Il detective legge una riga di testo e prova a indovinare cosa c'è scritto. Poi confronta la sua risposta con l'etichetta originale (quella scritta dal creatore del dataset).
Il trucco: Se il detective si sbaglia molto (calcola un alto "tasso di errore"), il sistema segna quel file come "sospetto".
La differenza: Invece di guardare solo quanto il computer è "confuso" (un concetto matematico difficile), guardano direttamente quanto il testo indovinato è diverso dal testo originale. È come dire: "Se la mia risposta è 'gatto' e la tua etichetta dice 'casa', c'è un problema".

Fase 2: L'Umano al Volante (Human-in-the-Loop)

Qui entra in gioco la parte umana. Il sistema automatico non è perfetto: a volte segna come "sospetti" anche testi difficili ma corretti (come una calligrafia molto complicata).

Quindi, il sistema prende solo i file più "sospetti" (quelli dove il detective ha fallito di più) e li mostra a un essere umano.
L'umano guarda l'immagine e dice: "Sì, qui c'è un errore, correggiamolo" oppure "No, questo è corretto, è solo difficile da leggere".
Questo mix di macchina veloce e occhio umano è la chiave: riduce il lavoro manuale ma garantisce che gli errori vengano davvero corretti.

3. I Risultati: Pulire la Casa Migliora la Festa

Dopo aver usato questo metodo su 6 diversi dataset (Arabo, Persiano, Pashtu, Urdu, ecc.), hanno scoperto cose sorprendenti:

C'era sporcizia ovunque: Anche nei dataset famosi c'erano errori che nessuno aveva notato prima. In alcuni casi, fino al 90% dei file "sospetti" erano davvero sbagliati!
Il computer diventa più intelligente: Una volta rimossi gli errori (pulito il dataset), il computer ha letto molto meglio.
- Analogia: È come se avessi un'auto da corsa (il modello) che correva su una strada piena di buche (i dati sporchi). Una volta asfaltata la strada (pulito il dataset), l'auto ha fatto tempi incredibili senza nemmeno bisogno di cambiare il motore.
Un modello semplice basta: Hanno dimostrato che non serve sempre il computer più potente e costoso del mondo. Un modello ben configurato, se addestrato su dati puliti, batte modelli molto più complessi.

In Sintesi

Questo studio ci insegna una lezione fondamentale: non serve costruire un'auto da Formula 1 se la strada è piena di sassi.

Prima di inventare algoritmi sempre più complessi per leggere la scrittura araba, dobbiamo assicurarci che i dati su cui li addestrano siano corretti. Il metodo CER-HV è come un team di pulizia che usa un robot per trovare lo sporco e un umano per decidere come rimuoverlo, rendendo i risultati finali molto più affidabili e precisi.

Grazie a questo lavoro, ora abbiamo dataset più puliti e un modo migliore per verificare la qualità di qualsiasi nuovo documento storico che vogliamo digitalizzare.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

Il riconoscimento del testo scritto a mano (HTR) per le lingue che utilizzano l'alfabeto arabo (inclusi arabo, persiano, urdu, pashto e ajami) rimane significativamente indietro rispetto alle controparti in alfabeto latino, nonostante i recenti progressi nelle architetture di modelli e nei benchmark.
Gli autori identificano la qualità dei dati come il fattore limitante principale. Molti dataset pubblicati contengono errori di etichettatura (label noise) non segnalati, derivanti dalla costruzione semi-automatizzata dei dataset. Questi errori includono:

Errori di trascrizione: Il testo a terra non corrisponde all'immagine.
Errori di segmentazione: Linee troncate o più linee di testo in un'unica immagine.
Errori di orientamento: Testo ruotato in modo errato.
Mancata corrispondenza dello script: Contenuto in un alfabeto diverso da quello target.
Contenuti non testuali: Timbri, firme o elementi grafici inclusi erroneamente.

Gli errori di etichettatura sono problematici perché le reti neurali profonde tendono a memorizzare i dati rumorosi durante l'addestramento, danneggiando la generalizzazione e distorcendo la selezione dei modelli e il benchmarking. Inoltre, le tecniche esistenti di rilevamento del rumore basate sulla perdita (loss) non sono efficaci nell'HTR basato su CTC (Connectionist Temporal Classification) a causa dell'incertezza nell'allineamento.

2. Metodologia: Il Framework CER-HV

Gli autori propongono CER-HV (CER-based Ranking with Human Verification), un framework a due stadi per rilevare e pulire gli errori di etichettatura.

Fase 1: Rilevamento Automatico del Rumore (Ranking basato su CER)

Invece di utilizzare la "loss" di addestramento (che nell'HTR CTC è influenzata dall'incertezza di allineamento e non riflette direttamente l'accuratezza della trascrizione), il framework utilizza il Character Error Rate (CER) come metrica di punteggio.

Modello Base: Viene utilizzato un modello CRNN (Convolutional Recurrent Neural Network) configurato secondo le "Best Practices" (con blocchi ResNet, pooling massimo per colonna e un ramo ausiliario CTC per migliorare la convergenza).
Strategia di Addestramento: Il modello viene addestrato con early stopping basato sul CER di validazione per evitare l'overfitting sui campioni rumorosi.
Punteggio: Una volta raggiunto l'epoch di convergenza ( $t_{conv}$ ), ogni campione del dataset viene valutato calcolando il CER tra la previsione del modello e l'etichetta originale. I campioni con un CER elevato sono considerati potenziali errori.
Soglia: Vengono selezionati i campioni con $CER > \tau$ (dove $\tau = 0.25$ ) per la verifica umana.

Fase 2: Verifica Umana (Human-in-the-Loop - HITL)

Poiché un alto CER può derivare anche da campioni correttamente etichettati ma visivamente difficili, i campioni sospetti vengono revisionati da esperti umani.

Gli esperti classificano i campioni in categorie specifiche (Errori di trascrizione, segmentazione, orientamento, mismatch di script, contenuti irrilevanti) o li confermano come "validi ma difficili".
I campioni errati vengono corretti o rimossi, mentre quelli difficili vengono mantenuti.
Il dataset pulito ( $D'$ ) viene utilizzato per ri-addestrare il modello.

3. Contributi Chiave

Prima analisi sistematica degli errori: Definizione di una tassonomia pratica degli errori (trascrizione, segmentazione, orientamento, script, contenuti non testuali) su cinque dataset in script arabo.
Framework CER-HV: Introduzione di un metodo generale per la validazione delle etichette nell'HTR a livello di riga, adattando il rilevamento del rumore basato sulla dinamica di apprendimento al contesto CTC tramite l'uso del CER e dell'early stopping.
Nuovi Baseline e Risultati SOTA: Stabilimento di un forte baseline CRNN che raggiunge risultati state-of-the-art su cinque dei sei dataset valutati, senza l'uso di dati sintetici o architetture Transformer complesse.
Dataset Puliti e Benchmark Aggiornati: Pubblicazione di split di valutazione puliti e nuovi benchmark per il testo manoscritto persiano (PHTD) e per l'ajami, con riduzioni significative del CER.
Rilascio Open Source: Codice, split puliti e annotazioni degli errori resi disponibili per la riproducibilità.

4. Risultati Sperimentali

Lo studio è stato condotto su sei dataset: KHATT (Arabo), Muharaf (Arabo storico), PHTI (Pashto), PHTD (Persiano), NUST-UHWR (Urdu) e Ajami (Hausa/Fulfulde).

Performance del Modello CRNN:
- KHATT: 8.45% CER (SOTA).
- Muharaf: 10.11% CER (miglioramento di 8 punti percentuali rispetto al baseline precedente).
- PHTI (Pashto): 8.26% CER (riduzione drastica dal 20.7% precedente).
- Ajami: 10.66% CER (vs 64-84% dei metodi precedenti).
- PHTD (Persiano): Nuovo baseline di 11.3% CER.
Precisione del Rilevamento del Rumore:
- Il rilevatore ha identificato errori con alta precisione: fino al 90% su Muharaf (test), 86% su PHTI e 68% su Ajami.
- I dataset più "sporchi" (Muharaf e Ajami) presentavano una percentuale significativa di errori (fino al 9-10% negli split di validazione/test).
Impatto della Pulizia dei Dati:
- La pulizia degli split di valutazione ha ridotto il CER di 0.3-0.6% sui dataset già puliti e di 1.0-1.8% sui dataset più rumorosi.
- La pulizia degli split di addestramento ha portato a miglioramenti aggiuntivi, specialmente su Ajami (dove il rumore strutturale era alto), confermando che il rumore di etichettatura distorce significativamente le valutazioni dei modelli.

5. Significato e Conclusioni

Il paper dimostra che la qualità dei dati è un fattore critico, spesso trascurato, nel progresso dell'HTR per le lingue in script arabo.

Implicazioni: Molte delle difficoltà riportate nella letteratura precedente potrebbero non derivare dalla complessità intrinseca dello script, ma da etichette inconsistenti.
Efficienza: Un modello CRNN ben configurato può competere o superare architetture più complesse (come i Transformer) se addestrato su dati di alta qualità e senza dati sintetici.
Metodologia: Il framework CER-HV offre un approccio pratico ed economico per validare dataset, sfruttando la capacità umana di verificare solo un sottoinsieme critico di campioni ad alto rischio.
Futuro: Il lavoro suggerisce che la pulizia dei dati e la correzione attiva (invece della semplice esclusione) sono direzioni fondamentali per il futuro della ricerca HTR, non solo per le lingue arabe ma per qualsiasi riconoscimento di testo con dati limitati.

In sintesi, gli autori sostengono che per colmare il divario di performance tra l'HTR in script latino e arabo, è necessario un approccio parallelo che unisca l'innovazione architetturale a una rigorosa assicurazione della qualità dei dati.