From OCR to Analysis: Tracking Correction Provenance in Digital Humanities Pipelines

Cet article propose un cadre de traçabilité des corrections OCR au niveau des segments pour les corpus de sciences humaines, démontrant que l'intégration de ces métadonnées de provenance est essentielle pour garantir la reproductibilité et une interprétation incertaine des résultats des tâches NLP en aval.

Haoze Guo, Ziqi Wei

Publié Mon, 09 Ma
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un historien qui veut étudier des milliers de vieux journaux ou de livres manuscrits. Le problème ? Ces documents sont abîmés, la police d'écriture est bizarre, et l'encre a parfois brouillé les mots. Pour les analyser, vous devez d'abord les transformer en texte numérique grâce à un robot appelé OCR (Reconnaissance Optique de Caractères).

Mais ce robot est un peu comme un traducteur fatigué : il fait des erreurs. Il peut lire "Madison" comme "Madifon" ou confondre un "l" avec un "i".

Le Problème : La "Magie Noire" de la Correction

Jusqu'à présent, quand les chercheurs corrigeaient ces erreurs, ils faisaient un peu comme un éditeur qui prend un stylo rouge, barre l'erreur et écrit la bonne réponse directement sur le papier. Le résultat final est propre, mais l'histoire de la correction a disparu.

Si vous lisez le texte corrigé, vous ne savez pas :

  • Est-ce que le robot a deviné ?
  • Est-ce qu'un humain a vérifié ?
  • Est-ce que cette correction est sûre à 100 % ou juste un "peut-être" ?

C'est dangereux pour l'histoire, car si le robot s'est trompé en changeant un nom de personne, toute votre analyse future sera faussée, sans que vous puissiez le savoir.

La Solution : Le "Journal de Bord" (Provenance)

Haoze Guo et Ziqi Wei proposent une nouvelle façon de travailler. Au lieu de simplement effacer l'erreur, ils ajoutent un journal de bord numérique (ce qu'ils appellent la provenance) à chaque mot corrigé.

Imaginez que chaque correction est une pièce d'un puzzle, mais avec une étiquette collée dessus qui dit :

  • Qui a fait la correction ? (Un algorithme, une règle automatique, ou un humain ?)
  • Quelle confiance avons-nous ? (Est-ce sûr à 90 % ou à 50 % ?)
  • cela s'est-il passé ? (Dans le titre du journal ou dans le corps du texte ?)

L'Expérience : Trois Versions du Même Texte

Pour tester leur idée, les auteurs ont pris un petit tas de vieux textes et ont créé trois versions différentes pour voir comment cela changeait les résultats d'une analyse automatique (la recherche de noms propres, comme les villes ou les personnes) :

  1. La version "Brute" : Le texte tel quel, avec toutes les erreurs du robot.
  2. La version "Tout Corrigé" : On a appliqué toutes les corrections possibles, même les plus douteuses. C'est comme si on avait tout lissé, mais on a perdu la trace de ce qui était incertain.
  3. La version "Filtrée par la Confiance" : C'est la version magique. On ne garde que les corrections qui ont une étiquette de confiance élevée (par exemple, "sûr à 70 %") ou qui ont été validées par un humain. On ignore les corrections douteuses.

Les Résultats : Pourquoi c'est important ?

Leurs découvertes sont fascinantes et simples à comprendre :

  • Plus de corrections ne signifient pas toujours mieux : La version "Tout Corrigé" trouvait plus de noms, mais elle créait aussi beaucoup de "fantômes" (des noms inventés par erreur) et de confusion. C'était comme si le robot avait trop corrigé et créé de nouvelles erreurs.
  • Le filtre sauve la journée : La version "Filtrée" trouvait presque autant de bons noms que la version totale, mais avec beaucoup moins d'erreurs. Elle agissait comme un filtre à café : elle laissait passer le bon café (les corrections sûres) et retenait les grains (les corrections douteuses).
  • On peut savoir ce qui ne va pas : Grâce au journal de bord, les chercheurs pouvaient dire : "Ah, ce nom bizarre est apparu parce qu'un robot a corrigé un mot dans la marge du journal avec une faible confiance." Sans ce journal, ils auraient cru que c'était un fait historique réel.

L'Analogie Finale : La Cuisine

Pensez à un chef cuisinier (le chercheur) qui prépare un plat (l'analyse historique).

  • L'ancienne méthode : Le chef reçoit un plat déjà assaisonné par un assistant inconnu. Il goûte, trouve ça bon, mais s'il y a une erreur (trop de sel), il ne sait pas qui l'a mise et ne peut pas la retirer facilement.
  • La nouvelle méthode : Le chef reçoit le plat avec une liste d'ingrédients détaillée qui indique qui a ajouté chaque épice et avec quelle certitude. S'il y a un problème, il peut dire : "Attends, cette épice douteuse a été ajoutée par un robot incertain. Je vais la retirer ou la vérifier."

En Résumé

Ce papier nous dit que dans le monde de l'histoire numérique, la transparence est aussi importante que la correction elle-même. Il ne suffit pas d'avoir un texte propre ; il faut savoir comment il est devenu propre. En gardant une trace de chaque décision (la "provenance"), les chercheurs peuvent faire confiance à leurs résultats, comprendre leurs erreurs et éviter de raconter une histoire fausse basée sur une erreur de robot.

C'est une façon de dire : "Ne faites pas confiance aveuglément à la version finale. Regardez toujours les étiquettes sur les corrections."