CER-HV: A Human-in-the-Loop Framework for Cleaning Datasets Applied to Arabic-Script HTR

Each language version is independently generated for its own context, not a direct translation.

Le Problème : Un Chef Cuisinier et des Recettes Fausses

Imaginez que vous essayez d'enseigner à un robot (un modèle d'intelligence artificielle) comment lire des manuscrits écrits à la main en arabe, en persan ou en ourdou. C'est comme si vous engagiez un chef cuisinier très talentueux (l'IA) pour apprendre à cuisiner des plats traditionnels.

Le problème, c'est que les recettes (les données d'entraînement) que vous lui donnez sont souvent remplies d'erreurs :

Parfois, la recette dit "ajoutez du sel" alors qu'il faut du sucre.
Parfois, la photo du plat montre un gâteau, mais la recette parle de soupe.
Parfois, la page est tournée à l'envers ou déchirée.

Jusqu'à présent, les chercheurs pensaient que le chef était mauvais ou que la cuisine arabe était trop compliquée. Ils ont passé des années à essayer de créer des chefs de plus en plus sophistiqués (des modèles d'IA plus complexes) pour compenser ces erreurs.

La découverte de ce papier : Ce n'est pas le chef qui est le problème, ce sont les recettes fausses.

La Solution : Le Système "CER-HV" (Le Dégustateur Humain)

Les auteurs ont créé un nouveau système appelé CER-HV. Voici comment ça marche, avec une analogie simple :

Le Test Rapide (Le Robot) :
D'abord, ils font lire toutes les recettes au chef. Le chef essaie de cuisiner et note ses erreurs. S'il se trompe beaucoup sur une recette spécifique (par exemple, il ne comprend pas du tout ce qu'on lui demande), cette recette est marquée comme "suspecte".
- L'astuce : Au lieu de regarder simplement si le chef est fatigué (ce qui est difficile à mesurer), ils regardent directement le résultat final : "Combien de lettres sont fausses ?" (C'est ce qu'on appelle le Taux d'Erreur de Caractère ou CER).
Le Dégustateur Humain (L'Humain dans la boucle) :
Le robot ne peut pas tout vérifier, il y a trop de recettes. Mais il peut dire : "Hé, ces 100 recettes-là sont très bizarres, je ne comprends rien !"
C'est là qu'intervient un humain. Il regarde seulement ces 100 recettes suspectes.
- Est-ce que la recette est vraiment fausse ? (Ex: "C'est écrit 'chocolat' mais l'image montre un livre"). -> On la jette ou on la corrige.
- Ou est-ce que la recette est juste très difficile ? (Ex: "L'écriture est illisible, même pour un humain"). -> On la garde, c'est un vrai défi.

Ce système permet de nettoyer la cuisine sans avoir à relire des milliers de pages à la main.

Les Résultats : Une Cuisine Plus Propre, Des Plats Meilleurs

En utilisant ce système, les chercheurs ont fait deux découvertes majeures :

Les données étaient sales : Ils ont trouvé des erreurs cachées dans presque tous les ensembles de données existants (des milliers de lignes de texte). Certaines contenaient des textes dans la mauvaise langue, d'autres étaient coupées en deux, ou avaient des tampons de police qui gênaient la lecture.
Le chef était plus doué qu'on ne le pensait :
- Avant, on croyait que pour lire l'arabe, il fallait des modèles d'IA ultra-complexes (comme des Transformers, des "super-chefs").
- En nettoyant simplement les recettes (les données), un chef "classique" mais bien formé (un CRNN) a réussi à battre les records du monde ! Il a obtenu des résultats incroyables, parfois meilleurs que les géants de l'IA, simplement parce qu'il avait reçu de bonnes recettes.

Pourquoi c'est important ?

C'est comme si on réalisait que pour gagner une course de Formule 1, on passait trop de temps à améliorer le moteur de la voiture, alors qu'en fait, la piste était pleine de nids-de-poule.

Pour les chercheurs : Il ne faut pas seulement inventer des modèles plus complexes. Il faut d'abord s'assurer que les données sont propres.
Pour le futur : Ce système (CER-HV) peut être utilisé pour n'importe quel type de texte manuscrit, pas seulement en arabe. C'est un outil pour nettoyer les bibliothèques numériques avant de les donner aux robots.

En résumé : Ce papier nous dit que la qualité des données est aussi importante, voire plus importante, que la complexité du modèle. En ajoutant un petit coup de main humain pour vérifier les cas difficiles, on obtient des résultats bien meilleurs, plus rapides et plus fiables.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La reconnaissance de texte manuscrit (HTR) pour les langues utilisant l'écriture arabe (arabe, persan, ourdou, pashto, ajami) accuse un retard significatif par rapport aux langues à écriture latine, malgré les avancées récentes en matière d'architectures de modèles (comme les Transformers).

Les auteurs identifient que la qualité des données est un facteur limitant majeur, souvent négligé au profit de l'ingénierie des modèles. Les problèmes spécifiques incluent :

Des erreurs de transcription (le texte annoté ne correspond pas à l'image).
Des erreurs de segmentation (lignes tronquées ou multiples lignes dans une seule image).
Des erreurs d'orientation (texte rotatif).
Des incohérences de script (texte en latin ou chiffres dans un jeu de données arabe).
Du contenu non textuel (timbres, signatures).

Ces erreurs, souvent introduites lors de la construction semi-automatisée des jeux de données, sont mémorisées par les réseaux de neurones profonds, ce qui nuit à la généralisation et fausse les benchmarks d'évaluation. De plus, les méthodes classiques de détection de bruit basées sur la perte (loss) sont peu fiables pour la HTR car la perte CTC (Connectionist Temporal Classification) est influencée par l'incertitude d'alignement et la longueur de la séquence, et non uniquement par la justesse de la transcription.

2. Méthodologie : Le Framework CER-HV

Les auteurs proposent CER-HV (CER-based Ranking with Human Verification), un cadre à deux étapes pour détecter et nettoyer les erreurs d'étiquetage.

A. Étape 1 : Détection automatique basée sur le CER

Au lieu d'utiliser la perte d'entraînement (loss) comme indicateur de bruit, le framework utilise le Taux d'Erreur de Caractère (CER).

Modèle de base : Un réseau CRNN (Convolutional Recurrent Neural Network) configuré selon les "Best Practices" (extracteur de caractéristiques CNN profond avec ResNet, couches BiLSTM, et décodage CTC).
Stratégie d'arrêt précoce (Early Stopping) : Le modèle est entraîné jusqu'à convergence sur un jeu de validation. Cela évite le surapprentissage (overfitting) sur les échantillons bruités, un problème fréquent dans les méthodes de détection de bruit par dynamique d'apprentissage.
Scoring : Une fois le modèle convergé, le CER est calculé pour chaque échantillon du jeu de données (comparaison entre la prédiction du modèle et l'étiquette fournie). Les échantillons avec un CER élevé sont classés comme suspects.

B. Étape 2 : Vérification Humaine (Human-in-the-Loop - HITL)

Un simple score élevé ne suffit pas, car certains échantillons correctement étiquetés mais visuellement difficiles peuvent aussi avoir un CER élevé.

Seuil de sélection : Les échantillons avec un CER supérieur à un seuil $\tau = 0,25$ sont sélectionnés pour examen humain.
Classification des erreurs : Des annotateurs humains vérifient ces échantillons et les classent dans des catégories : erreur de transcription, segmentation, orientation, mismatch de script, contenu non textuel, ou "valide mais difficile".
Nettoyage : Les échantillons identifiés comme erronés sont supprimés ou corrigés, tandis que les échantillons "valides mais difficiles" sont conservés pour éviter de biaiser le modèle.

3. Contributions Clés

Première analyse systématique des erreurs d'étiquetage et de contenu dans les jeux de données HTR à écriture arabe, définissant une taxonomie pratique des erreurs.
Introduction du framework CER-HV, une adaptation novatrice de la détection de bruit basée sur la dynamique d'apprentissage pour la reconnaissance de séquences (CTC), remplaçant la perte par le CER et utilisant l'arrêt précoce.
Établissement de nouvelles références (baselines) : Un modèle CRNN optimisé atteint des performances de pointe (State-of-the-Art) sur plusieurs jeux de données sans utiliser de données synthétiques ni d'architectures Transformer complexes.
Quantification de l'impact du bruit : Démonstration que le nettoyage des données améliore significativement les résultats d'évaluation, révélant que les benchmarks précédents étaient artificiellement dégradés par le bruit.
Ressources ouvertes : Publication de jeux de données nettoyés (notamment pour le persan PHTD et l'ajami) et des annotations d'erreurs pour favoriser la reproductibilité.

4. Résultats Expérimentaux

L'étude a été menée sur six jeux de données couvrant cinq langues : KHATT (Arabe), Muharaf (Arabe historique), PHTI (Pashto), PHTD (Persien), NUST-UHWR (Ourdou) et Ajami (Hausa/Fulfulde).

Performance du modèle CRNN (sans nettoyage) :
- KHATT : 8,45 % de CER (nouveau record).
- PHTI (Pashto) : 8,26 % de CER (amélioration massive par rapport à 20,7 %).
- Muharaf : 10,11 % de CER.
- Ajami : 10,66 % de CER (contre 64-84 % pour les modèles précédents).
- PHTD (Persien) : Établissement d'une nouvelle baseline à 11,3 % de CER.
Efficacité de la détection de bruit :
- La précision de la détection (proportion d'échantillons signalés qui sont réellement erronés) est très élevée : jusqu'à 90 % pour Muharaf et 80-86 % pour PHTI.
- Les erreurs les plus fréquentes varient selon le jeu de données (ex: erreurs de script et de segmentation pour Muharaf, erreurs de transcription et d'orientation pour PHTI).
Impact du nettoyage sur les performances :
- Le nettoyage des jeux de données d'évaluation réduit le CER de 0,3 à 0,6 % sur les jeux propres, et de 1 à 1,8 % sur les jeux plus bruyants (Muharaf, Ajami).
- Le réentraînement sur des données nettoyées apporte des gains supplémentaires, particulièrement pour Ajami où le bruit structurel (segmentation/orientation) perturbait l'apprentissage.

5. Signification et Conclusion

Ce travail démontre que la qualité des données est aussi critique que la complexité du modèle pour la HTR en écriture arabe.

Réduction de la complexité inutile : Un CRNN bien configuré peut surpasser des architectures Transformer complexes si les données sont propres, suggérant que les échecs précédents étaient dus au bruit des données plutôt qu'à l'incapacité des modèles.
Fiabilité des benchmarks : Le papier met en lumière la nécessité de valider rigoureusement les jeux de données avant publication. Les résultats rapportés dans la littérature peuvent être faussés par des erreurs d'étiquetage non détectées.
Généralité : Bien que focalisé sur l'écriture arabe, le framework CER-HV est applicable à d'autres tâches de reconnaissance de texte où les jeux de données sont de taille modérée (quelques milliers d'échantillons) et où l'annotation humaine est coûteuse.

En résumé, CER-HV offre une procédure pratique et efficace pour améliorer la fiabilité des benchmarks HTR, en combinant l'automatisation (via le score CER) et l'expertise humaine pour éliminer le bruit qui entrave les progrès de la recherche.

CER-HV: A Human-in-the-Loop Framework for Cleaning Datasets Applied to Arabic-Script HTR

Le Problème : Un Chef Cuisinier et des Recettes Fausses

La Solution : Le Système "CER-HV" (Le Dégustateur Humain)

Les Résultats : Une Cuisine Plus Propre, Des Plats Meilleurs

Pourquoi c'est important ?

1. Problématique

2. Méthodologie : Le Framework CER-HV

A. Étape 1 : Détection automatique basée sur le CER

B. Étape 2 : Vérification Humaine (Human-in-the-Loop - HITL)

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Conclusion

Articles similaires

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation