From OCR to Analysis: Tracking Correction Provenance in Digital Humanities Pipelines

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un historien qui veut étudier des milliers de vieux journaux ou de livres manuscrits. Le problème ? Ces documents sont abîmés, la police d'écriture est bizarre, et l'encre a parfois brouillé les mots. Pour les analyser, vous devez d'abord les transformer en texte numérique grâce à un robot appelé OCR (Reconnaissance Optique de Caractères).

Mais ce robot est un peu comme un traducteur fatigué : il fait des erreurs. Il peut lire "Madison" comme "Madifon" ou confondre un "l" avec un "i".

Le Problème : La "Magie Noire" de la Correction

Jusqu'à présent, quand les chercheurs corrigeaient ces erreurs, ils faisaient un peu comme un éditeur qui prend un stylo rouge, barre l'erreur et écrit la bonne réponse directement sur le papier. Le résultat final est propre, mais l'histoire de la correction a disparu.

Si vous lisez le texte corrigé, vous ne savez pas :

Est-ce que le robot a deviné ?
Est-ce qu'un humain a vérifié ?
Est-ce que cette correction est sûre à 100 % ou juste un "peut-être" ?

C'est dangereux pour l'histoire, car si le robot s'est trompé en changeant un nom de personne, toute votre analyse future sera faussée, sans que vous puissiez le savoir.

La Solution : Le "Journal de Bord" (Provenance)

Haoze Guo et Ziqi Wei proposent une nouvelle façon de travailler. Au lieu de simplement effacer l'erreur, ils ajoutent un journal de bord numérique (ce qu'ils appellent la provenance) à chaque mot corrigé.

Imaginez que chaque correction est une pièce d'un puzzle, mais avec une étiquette collée dessus qui dit :

Qui a fait la correction ? (Un algorithme, une règle automatique, ou un humain ?)
Quelle confiance avons-nous ? (Est-ce sûr à 90 % ou à 50 % ?)
Où cela s'est-il passé ? (Dans le titre du journal ou dans le corps du texte ?)

L'Expérience : Trois Versions du Même Texte

Pour tester leur idée, les auteurs ont pris un petit tas de vieux textes et ont créé trois versions différentes pour voir comment cela changeait les résultats d'une analyse automatique (la recherche de noms propres, comme les villes ou les personnes) :

La version "Brute" : Le texte tel quel, avec toutes les erreurs du robot.
La version "Tout Corrigé" : On a appliqué toutes les corrections possibles, même les plus douteuses. C'est comme si on avait tout lissé, mais on a perdu la trace de ce qui était incertain.
La version "Filtrée par la Confiance" : C'est la version magique. On ne garde que les corrections qui ont une étiquette de confiance élevée (par exemple, "sûr à 70 %") ou qui ont été validées par un humain. On ignore les corrections douteuses.

Les Résultats : Pourquoi c'est important ?

Leurs découvertes sont fascinantes et simples à comprendre :

Plus de corrections ne signifient pas toujours mieux : La version "Tout Corrigé" trouvait plus de noms, mais elle créait aussi beaucoup de "fantômes" (des noms inventés par erreur) et de confusion. C'était comme si le robot avait trop corrigé et créé de nouvelles erreurs.
Le filtre sauve la journée : La version "Filtrée" trouvait presque autant de bons noms que la version totale, mais avec beaucoup moins d'erreurs. Elle agissait comme un filtre à café : elle laissait passer le bon café (les corrections sûres) et retenait les grains (les corrections douteuses).
On peut savoir ce qui ne va pas : Grâce au journal de bord, les chercheurs pouvaient dire : "Ah, ce nom bizarre est apparu parce qu'un robot a corrigé un mot dans la marge du journal avec une faible confiance." Sans ce journal, ils auraient cru que c'était un fait historique réel.

L'Analogie Finale : La Cuisine

Pensez à un chef cuisinier (le chercheur) qui prépare un plat (l'analyse historique).

L'ancienne méthode : Le chef reçoit un plat déjà assaisonné par un assistant inconnu. Il goûte, trouve ça bon, mais s'il y a une erreur (trop de sel), il ne sait pas qui l'a mise et ne peut pas la retirer facilement.
La nouvelle méthode : Le chef reçoit le plat avec une liste d'ingrédients détaillée qui indique qui a ajouté chaque épice et avec quelle certitude. S'il y a un problème, il peut dire : "Attends, cette épice douteuse a été ajoutée par un robot incertain. Je vais la retirer ou la vérifier."

En Résumé

Ce papier nous dit que dans le monde de l'histoire numérique, la transparence est aussi importante que la correction elle-même. Il ne suffit pas d'avoir un texte propre ; il faut savoir comment il est devenu propre. En gardant une trace de chaque décision (la "provenance"), les chercheurs peuvent faire confiance à leurs résultats, comprendre leurs erreurs et éviter de raconter une histoire fausse basée sur une erreur de robot.

C'est une façon de dire : "Ne faites pas confiance aveuglément à la version finale. Regardez toujours les étiquettes sur les corrections."

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article « From OCR to Analysis: Tracking Correction Provenance in Digital Humanities Pipelines » en français.

1. Problématique

Dans les pipelines de traitement du texte pour les humanités numériques (DH), la reconnaissance optique de caractères (OCR) appliquée à des sources historiques est une étape critique mais source d'erreurs. Les documents anciens présentent souvent des dégradations, des polices non standard et des mises en page complexes, générant du bruit dans la sortie OCR.

Bien que les corrections (manuelles, par règles ou par réseaux de neurones) améliorent la lisibilité et les performances des tâches NLP en aval (comme la reconnaissance d'entités nommées ou NER), les flux de travail actuels ont tendance à écraser les décisions intermédiaires. Cela crée un « trou noir » méthodologique :

L'historique analytique du texte est effacé.
Il est impossible de savoir quelles transformations ont conduit à un résultat spécifique.
L'incertitude et la nature des changements (réparation d'erreur vs normalisation) sont invisibles pour l'analyste, compromettant la reproductibilité et la critique des sources.

2. Méthodologie

L'article propose une approche structurée pour rendre ces corrections traçables et analysables.

A. Schéma de Provenance Conscient (Provenance-Aware Schema)

Les auteurs introduisent un schéma de représentation de la correction au niveau des segments de texte (spans) plutôt que des simples tokens. Chaque enregistrement de correction contient :

Identifiants : ID du document/page et offsets (début/fin) ancrés sur le texte OCR brut.
Données textuelles : Texte original et texte corrigé.
Métadonnées de correction :
- Type d'édition : Substitution, division (split), fusion (merge).
- Source de correction : Basée sur des règles, assistée par modèle, ou humaine.
- Confiance : Score de confiance (optionnel).
- Statut de révision : Approuvé ou non par un humain.
- Zone de mise en page : Corps du texte, en-tête, note de bas de page, etc.

Ce schéma est conçu pour être agnostique vis-à-vis des outils et sérialisable (JSONL, CSV, annotations stand-off), permettant de reconstruire différentes variantes de texte sans écraser les états intermédiaires.

B. Étude Pilote et Configuration

Une étude pilote a été menée sur un corpus de textes historiques numérisés.

Variantes de texte : Trois versions ont été générées à partir de la même source OCR :
1. OCR Brut : Aucune correction.
2. Corrigé Intégralement : Toutes les corrections disponibles appliquées.
3. Filtrée par Provenance : Seules les corrections répondant à une « politique de confiance » (ex: confiance $\ge$ 0.70 ou approuvées par un humain) sont appliquées.
Tâche aval : Reconnaissance d'Entités Nommées (NER) utilisant un modèle Transformer (fine-tuné sur CoNLL-2003) appliqué de manière identique sur les trois variantes.
Métriques : Comparaison du nombre d'entités, de la similarité Jaccard, et calcul de la volatilité (entités qui apparaissent, disparaissent ou changent de forme/bornes entre les variantes).
Attribution : Une heuristique associe les entités volatiles aux événements de correction proches (recouvrement de spans ou fenêtre de ±50 caractères) pour identifier les causes des changements.

3. Contributions Clés

Schéma de provenance au niveau des segments : Une structure de données légère qui enregistre la lignée des corrections (type, source, confiance, statut) et permet de retracer l'origine de chaque entité extraite.
Comparaison empirique pilote : Une analyse démontrant que les chemins de correction (brut vs corrigé vs filtré) altèrent substantiellement les ensembles d'entités extraites et les interprétations au niveau du document.
Lentille d'analyse des erreurs orientée DH : Démonstration que les signaux de provenance (confiance, type d'édition, zone de mise en page) permettent d'identifier les sorties instables et de prioriser les révisions humaines, transformant la provenance en une couche analytique de premier ordre.

4. Résultats

Impact sur la NER : La version « Corrigée Intégralement » augmente le nombre d'entités extraites (meilleure reconnaissance) mais introduit une volatilité élevée (176 entités volatiles contre 0 pour l'OCR brut). La version « Filtrée par Provenance » conserve la majeure partie des gains de couverture tout en réduisant significativement la volatilité (121 entités volatiles).
Corrélation avec l'incertitude : Une fraction substantielle des entités volatiles est liée à des corrections à faible confiance ou non approuvées.
Analyse des signaux de provenance :
- Les divisions/fusions (split/merge) et les zones hors corps du texte (en-têtes, notes) sont les principaux contributeurs à l'instabilité, bien qu'ils soient moins fréquents.
- Les filtres basés sur la confiance permettent de trouver un équilibre entre couverture (rappel) et stabilité.
Liens d'entités (Entity Linking) : Les corrections affectent non seulement l'extraction, mais aussi le lien vers les bases de connaissances. De petites variations de surface (orthographe, espaces) peuvent changer l'identifiant KB attribué. Le filtrage par provenance réduit les changements de liens non désirés liés à des corrections incertaines.
Qualité des erreurs : Les erreurs résiduelles dans les textes corrigés sont souvent dues à du bruit OCR, des décalages de normalisation ou des erreurs de limites de segments, toutes détectables via les métadonnées de provenance.

5. Signification et Conclusion

L'article plaide pour un changement de paradigme dans les humanités numériques : la provenance ne doit pas être considérée comme une simple métadonnée technique, mais comme une couche analytique de premier ordre.

Transparence et Critique des Sources : En rendant visibles les décisions éditoriales (réparation vs normalisation), les chercheurs peuvent mieux évaluer la fiabilité de leurs données et justifier leurs choix méthodologiques.
Gestion de l'incertitude : Le système permet aux chercheurs de naviguer explicitement entre le compromis « couverture vs stabilité » en ajustant les politiques de filtrage, plutôt que de travailler sur un texte « corrigé » unique et opaque.
Auditabilité : Il devient possible d'attribuer les changements dans les résultats NLP à des opérations éditoriales spécifiques, facilitant le débogage et l'amélioration des pipelines.

En résumé, cette approche transforme le pipeline OCR-NLP d'une boîte noire en un processus inspectable, essentiel pour garantir la rigueur scientifique dans l'analyse de textes historiques.