A Survey of OCR Evaluation Methods and Metrics and the Invisibility of Historical Documents

Cette étude révèle que les méthodes d'évaluation actuelles de la reconnaissance optique de caractères, centrées sur des documents modernes et occidentaux, rendent invisibles les documents historiques marginalisés comme les journaux noirs en négligeant leurs spécificités typographiques et structurelles, ce qui entraîne des préjudices représentatifs dus à des biais institutionnels et organisationnels.

Fitsum Sileshi Beyene, Christopher L. Dancy

Publié 2026-03-30
📖 6 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Titre : Quand les lunettes de l'IA sont trop modernes pour voir l'histoire

Imaginez que vous avez une caméra magique (c'est l'IA de reconnaissance de texte, ou OCR) capable de lire n'importe quel document et de le transformer en texte numérique. C'est génial ! Mais il y a un gros problème : cette caméra a été entraînée à lire uniquement des documents modernes, propres et bien rangés, comme des factures d'entreprise ou des articles de journaux d'aujourd'hui.

Les auteurs de cette étude, Fitsum et Christopher, disent : « Attendez une minute ! Cette caméra est aveugle quand on lui montre des documents historiques, surtout ceux de la presse noire américaine du 19ème siècle. »

Voici comment ils expliquent le problème avec des images simples :


1. Le Problème : La "Lunette" qui ne voit que le présent 🕶️

Imaginez que vous essayez de lire un vieux journal du 1800 avec des lunettes de soleil très modernes.

  • Ce que la caméra voit : Elle voit des taches, des lignes qui se croisent, des polices d'écriture bizarres (comme des lettres gothiques) et des colonnes de texte très serrées.
  • Ce que la caméra pense : « Oh, c'est du bruit ! Je vais essayer de le nettoyer. »
  • Ce qui se passe réellement : Au lieu de lire le texte tel qu'il est, la caméra réarrange tout. Elle mélange les colonnes, invente des mots qui n'existent pas (des hallucinations) ou efface des parties importantes parce qu'elles ne ressemblent pas à ce qu'elle connaît.

L'analogie du puzzle :
C'est comme si vous donniez un puzzle de 1000 pièces à un robot, mais vous lui avez appris à assembler des puzzles de voitures modernes. Si vous lui donnez un puzzle de château médiéval, il va essayer de forcer les pièces à s'assembler comme des voitures. Le résultat ? Un monstre informe qui ne ressemble à rien, même si le robot dit : « J'ai fini ! J'ai mis toutes les pièces ! »

2. La Mesure du Succès : Le piège de la "Note de 10/10" 📝

Aujourd'hui, pour savoir si une IA est bonne, on lui donne une note basée sur la précision des lettres.

  • Si l'IA lit 95 % des lettres correctement, on dit : « Bravo, c'est excellent ! »
  • Le piège : Imaginez que l'IA lit parfaitement chaque lettre d'une recette de cuisine, mais qu'elle mélange l'ordre des étapes (elle met le four avant d'acheter les œufs). La note est parfaite, mais la recette est inutile, voire dangereuse.

Pour les journaux historiques noirs, l'IA lit souvent bien les lettres, mais elle détruit la structure. Elle ne comprend pas que la façon dont le texte est disposé (les colonnes, les titres en gros caractères) fait partie du message politique et culturel. En "nettoyant" le texte, elle efface l'histoire.

3. L'Enjeu : Pourquoi les journaux noirs historiques sont-ils invisibles ? 📰

Les auteurs se sont penchés sur des journaux comme The North Star ou Freedom's Journal. Ces documents sont cruciaux pour comprendre l'histoire des États-Unis et la lutte pour les droits civiques.

  • Le manque de données : Les IA sont entraînées sur des millions de documents modernes (des contrats, des PDF d'entreprise). Il y a très peu de journaux noirs historiques dans ces "bibliothèques d'entraînement".
  • La conséquence : L'IA ne sait pas comment lire ces documents. Elle les traite comme des erreurs. C'est comme si on apprenait à un enfant à parler en ne lui donnant que des livres de cuisine, puis on lui demandait de lire un poème de Shakespeare. Il va échouer, non pas parce qu'il est bête, mais parce qu'il n'a jamais été exposé à ce type de langage.

4. L'Expérience : Ce qui se passe quand on teste l'IA 🧪

Les chercheurs ont pris un vieux journal (The Weekly Advocate, 1837) et l'ont donné à trois IA différentes. Voici ce qui s'est passé :

  1. L'IA classique : Elle a lu les colonnes dans le désordre, mélangeant la poésie avec les nouvelles politiques. C'était illisible.
  2. L'IA moderne : Elle a vu les vieilles polices d'écriture et a commencé à répéter des mots sans fin ou à inventer des phrases.
  3. L'IA de pointe (la plus intelligente) : Elle a essayé de "deviner" ce qu'il y avait écrit. Elle a remplacé des noms réels par des mots qu'elle pensait être plus logiques, effaçant ainsi la réalité historique pour la remplacer par une fiction plausible.

Le résultat : Même si les IA disent « J'ai une note de 90 % », le document historique est devenu méconnaissable. L'histoire a été effacée.

5. La Solution Proposée : Changer les règles du jeu 🔄

Les auteurs ne disent pas qu'il faut jeter ces IA à la poubelle. Ils disent qu'il faut changer la façon dont on les teste et dont on les entraîne.

  • Inclure la diversité : Il faut entraîner les IA avec des documents historiques, des polices d'écriture anciennes et des layouts complexes.
  • Nouvelles règles de notation : Au lieu de compter seulement les lettres justes, il faut noter si l'IA a respecté la structure, l'ordre de lecture et l'intégrité du document.
  • Reconnaître la valeur culturelle : Il faut arrêter de voir ces documents comme des "cas particuliers" ou des "erreurs". Ils sont le cœur de l'histoire.

En résumé 🌟

Ce papier est un appel à la conscience. Il nous dit que l'histoire ne se lit pas comme un manuel d'instructions moderne. Si nous voulons que l'IA nous aide à préserver notre passé, nous devons lui apprendre à respecter les traces du passé, même si elles sont taches, déformées ou complexes. Sinon, nous risquons de créer une version de l'histoire qui est techniquement "correcte" mais historiquement fausse, rendant invisibles les voix de ceux qui ont déjà lutté pour être entendus.

C'est comme si on donnait à un restaurateur d'art des outils modernes pour réparer une peinture de la Renaissance, mais qu'il utilisait ces outils pour lisser les coups de pinceau et effacer les détails anciens. Le résultat serait propre, mais ce ne serait plus de l'art, ce serait une copie vide.