OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous devez remplir un formulaire administratif complexe à partir d'une pile de factures, de devis ou de contrats. C'est une tâche fastidieuse, remplie de chiffres, de tableaux et de petites écritures.

Voici l'histoire de la recherche présentée dans ce papier, racontée simplement :

🕵️‍♂️ Le Problème : La vieille méthode à deux étapes

Pendant longtemps, les entreprises ont utilisé une méthode en deux temps pour automatiser ce travail, un peu comme si vous aviez besoin de deux personnes pour faire le job :

L'œil de l'ordinateur (OCR) : Une première machine lit le document, reconnaît chaque lettre et la transforme en texte brut. C'est comme un photocopieur ultra-sophistiqué qui "voit" les mots.
Le cerveau (IA) : Une seconde machine prend ce texte brut et essaie de comprendre : "Ah, ce chiffre ici, c'est le prix total !".

Le souci ? Cette méthode est lourde. Si la première machine (l'œil) fait une erreur (elle lit un "8" comme un "B"), la deuxième machine (le cerveau) va aussi se tromper. C'est ce qu'on appelle la "propagation d'erreur". De plus, c'est compliqué à installer et à maintenir.

🚀 La Nouvelle Idée : L'IA "Tout-en-un"

Aujourd'hui, nous avons de nouvelles intelligences artificielles très puissantes, appelées MLLM (Modèles de Langage Multimodaux). On peut les imaginer comme des super-héros qui ont à la fois des yeux très perçants et un cerveau très intelligent.

Les chercheurs de SAP et de Stanford se sont demandé : "Pourquoi passer par l'étape intermédiaire du photocopieur (OCR) si notre super-héros peut lire l'image directement ?"

Ils ont donc testé ces modèles sur des milliers de documents réels (factures, documents financiers) pour voir qui était le plus efficace.

🔍 Ce qu'ils ont découvert (Les surprises !)

Voici les trois grandes révélations de leur étude, expliquées avec des analogies :

1. L'OCR n'est plus toujours nécessaire (Parfois, c'est même un frein !)

C'est la découverte la plus surprenante. Pour les modèles les plus puissants (comme les derniers Gemini ou Nova), lire l'image directement donne de meilleurs résultats que de passer par le texte OCR.

L'analogie : Imaginez que vous devez lire une recette de cuisine écrite à la main sur un vieux papier taché.
- Méthode OCR : Quelqu'un tape la recette sur un ordinateur. S'il se trompe sur une lettre, la recette est fausse.
- Méthode Image (MLLM) : Vous regardez directement le papier. Votre cerveau voit que le "u" taché est en fait un "n", et vous comprenez le contexte.
- Résultat : Les modèles modernes sont si forts qu'ils comprennent la mise en page, les espaces et les formes des lettres mieux que les vieux logiciels OCR. Parfois, leur donner le texte OCR les embrouille même un peu !

2. Plus le cerveau est gros, mieux il comprend (mais pas toujours)

En général, plus un modèle est grand (plus il a de "neurones"), mieux il fonctionne. C'est comme un étudiant qui a lu plus de livres.

La nuance : Cependant, pour les modèles "Open Source" (gratuits), la taille ne garantit pas toujours la victoire. Parfois, un petit modèle bien entraîné bat un gros modèle mal entraîné. C'est comme un petit chien de garde très intelligent qui vaut mieux qu'un grand chien paresseux.

3. Le secret n'est pas seulement le modèle, c'est la "recette" (Prompt)

Même le meilleur super-héros peut échouer si on lui donne des instructions floues. Les chercheurs ont découvert que la façon dont on pose la question (le "prompt") est cruciale.

L'analogie : Si vous demandez à un chef cuisinier : "Fais-moi un gâteau", il risque de faire n'importe quoi. Mais si vous lui donnez une recette précise avec des exemples : "Fais un gâteau au chocolat, sans noix, en suivant ce modèle", il sera parfait.
En affinant leurs instructions et en donnant des exemples clairs, ils ont pu faire grimper les performances de leurs modèles, même sans utiliser d'OCR.

🛠️ Comment ils ont analysé les erreurs ?

Pour comprendre pourquoi les modèles échouaient, ils ont créé un système d'enquête automatisé.
Au lieu de regarder manuellement des milliers d'erreurs, ils ont utilisé une IA pour classer les erreurs en catégories :

Erreur de lecture : Le modèle a confondu un "I" majuscule avec un "1".
Erreur de logique : Le modèle a pris le bon chiffre, mais l'a mis dans la mauvaise case (comme mettre le prix dans la colonne "date").
Erreur d'ambiguïté : Le document était mal structuré et le modèle a perdu le fil.

🏁 Conclusion : Vers un futur plus simple

Ce papier nous dit que l'avenir de l'extraction de documents est plus simple.
Nous n'avons peut-être plus besoin de ces chaînes de traitement complexes avec l'OCR au milieu. Avec les bons modèles (les "super-héros") et les bonnes instructions, on peut envoyer une simple photo de facture et obtenir un tableau de données parfait.

C'est comme passer d'une usine avec trois machines bruyantes et complexes à un seul robot silencieux et efficace qui fait tout le travail d'un coup.

En résumé : L'OCR n'est plus le roi incontesté. Les nouvelles IA peuvent voir et comprendre directement, rendant le processus plus rapide, moins cher et souvent plus précis.

Each language version is independently generated for its own context, not a direct translation.

Titre : OCR ou Non ? Repenser l'extraction d'informations documentaires à l'ère des MLLM avec des jeux de données réels à grande échelle

1. Problématique

L'extraction d'informations documentaires (DIE) est cruciale pour automatiser les flux de travail dans des secteurs comme la finance et la chaîne d'approvisionnement. Traditionnellement, l'industrie repose sur un pipeline à deux étapes :

OCR (Reconnaissance Optique de Caractères) : Extraction du texte brut et de sa position depuis l'image.
Modèle d'extraction : Transformation du texte structuré en données formatées selon un schéma.

Cependant, cette approche présente des limites : complexité système, difficulté de généralisation à de nouveaux domaines et propagation des erreurs (une erreur d'OCR se répercute sur l'extraction). Avec l'avènement des Modèles de Langage Multimodaux (MLLM), il est désormais possible d'envoyer directement l'image du document au modèle. La question centrale de cet article est : L'OCR est-il encore nécessaire lorsque l'on utilise des MLLM puissants, ou un pipeline « image seule » peut-il égaler, voire surpasser, les approches traditionnelles ?

2. Méthodologie

A. Données et Benchmark
Les auteurs ont utilisé deux jeux de données internes industriels de haute qualité et à grande échelle (environ 1 000 documents) :

C1 : Documents de la chaîne d'approvisionnement.
C2 : Documents financiers.
Ces données sont multilingues (anglais, allemand, espagnol, etc.) et présentent une complexité structurelle élevée (cellules imbriquées, en-têtes hétérogènes). Chaque document dispose d'annotations manuelles (vérité terrain) et de résultats OCR générés par un moteur interne performant (>90% de précision).

B. Pipeline d'Évaluation
L'étude compare trois modalités d'entrée pour divers MLLM d'état de l'art (GPT-4o, Gemini 2.0/2.5, Claude 3.5, Llama 4, etc.) :

Image seule (Image-only) : Le modèle reçoit uniquement l'image du document.
Texte OCR seul (OCR-only) : Le modèle reçoit uniquement le texte extrait par l'OCR.
Combinaison (Image + OCR) : Le modèle reçoit à la fois l'image et le texte OCR.

La métrique principale est le score F1 calculé sur les paires clé-valeur extraites.

C. Cadre d'Analyse des Erreurs Hiérarchique
Pour diagnostiquer systématiquement les échecs, les auteurs proposent un cadre automatisé utilisant des LLM :

Gestionnaire d'erreurs : Comparaison au niveau des caractères et sémantique entre les prédictions et la vérité terrain.
Raisonnement par LLM : Utilisation de modèles de langage pour catégoriser les erreurs et identifier les causes racines (ex: mauvaise interprétation du texte, ambiguïté du schéma OCR, problèmes de mise en page).
Attribution : Regroupement des causes par clustering (BERT) pour identifier les patterns dominants (ex: erreurs de reconnaissance visuelle vs erreurs de logique).

3. Contributions Clés

Réévaluation du rôle de l'OCR : L'étude démontre que pour certains MLLM puissants, l'OCR n'est pas nécessaire et peut même avoir un impact négatif mineur. Un pipeline « image seule » atteint des performances comparables, voire supérieures, aux approches OCR+MLLM.
Échelle et Performance : La performance d'extraction s'améliore avec la taille du modèle, mais la dépendance à l'OCR varie selon l'architecture. Les modèles plus grands (ex: Gemini 2.5) intègrent une reconnaissance de texte implicite si forte que l'apport de l'OCR devient redondant.
Cadre d'Analyse Automatisé : Proposition d'une méthode systématique pour découvrir et catégoriser les patterns d'erreurs sans intervention manuelle intensive.
Optimisation par Ingénierie de Prompt : Mise en évidence du fait que les MLLM génériques manquent de connaissances spécifiques aux tâches. L'ajout de schémas soigneusement conçus, d'exemples (exemplars) et d'instructions claires permet d'augmenter significativement les performances.

4. Résultats Principaux

Performance Globale : Les modèles utilisant l'entrée « Image seule » obtiennent des scores F1 moyens très compétitifs (souvent >70%), rivalisant avec les entrées « OCR seul » ou « Image + OCR ».
Cas des Modèles Puissants : Pour des modèles comme Gemini et Amazon Nova Pro, l'ajout de texte OCR n'apporte aucun gain significatif, voire une légère baisse de performance. Cela suggère que leurs encodeurs visuels internes sont capables de restituer le texte et la mise en page avec une précision suffisante, évitant ainsi les erreurs de segmentation ou de déformation introduites par l'OCR externe.
Analyse des Erreurs (Figure 5) :
- L'entrée « Image seule » génère moins d'erreurs totales que l'entrée « OCR seule ».
- Les erreurs de type C (Ambiguïté du schéma OCR) sont plus fréquentes avec l'OCR, car le texte extrait peut perdre la structure spatiale ou créer des confusions entre champs adjacents.
- Les erreurs de type B (Extraction Image-à-Texte) sont plus élevées en « Image seule », mais restent gérables pour les grands modèles.
Amélioration par Prompting : En affinant les instructions (optimisation du prompt, contraintes de format JSON strictes, clarification du schéma), les auteurs ont porté le score moyen du modèle Gemini 1.5 Pro (entrée image seule) de 76,8 % à 78,9 %, surpassant ainsi les configurations avec OCR.

5. Signification et Conclusion

Cet article marque un tournant dans la conception des systèmes d'extraction de documents :

Simplification du Pipeline : Il est désormais possible d'envisager des architectures end-to-end (Image $\to$ Données structurées) sans étape OCR intermédiaire, réduisant la complexité, les coûts de calcul et les points de défaillance.
Capacités des MLLM : Les encodeurs visuels des MLLM modernes ont atteint un niveau de maturité où ils peuvent comprendre la mise en page et le texte directement, rendant l'OCR explicite obsolète pour de nombreux cas d'usage industriels.
Importance de l'Ingénierie de Prompt : La performance ne dépend pas seulement du modèle, mais aussi de la qualité des instructions, des schémas et des exemples fournis.

Limites et Perspectives :
L'étude note qu'elle n'a pas systématiquement testé l'apprentissage few-shot ni l'utilisation de mécanismes de réflexion (Chain-of-Thought) en raison de contraintes de ressources. L'intégration de modèles de raisonnement avancés (comme O1 ou DeepSeek R1) constitue une piste de recherche future prometteuse.

En résumé, pour les applications d'extraction d'informations documentaires sur des documents complexes, l'approche « Image seule » avec des MLLM puissants et bien guidés est une alternative viable et souvent supérieure aux pipelines traditionnels basés sur l'OCR.