From PDF to RAG-Ready: Evaluating Document Conversion Frameworks for Domain-Specific Question Answering

Cette étude démontre que la qualité de la préparation des données, en particulier l'enrichissement des métadonnées et le fractionnement hiérarchique, est le facteur déterminant pour la performance des systèmes RAG, surpassant le choix du framework de conversion PDF lui-même.

José Guilherme Marques dos Santos, Ricardo Yang, Rui Humberto Pereira, Alexandre Sousa, Brígida Mónica Faria, Henrique Lopes Cardoso, José Duarte, José Luís Reis, Luís Paulo Reis, Pedro Pimenta, José Paulo Marques dos Santos

Publié 2026-04-08
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🍎 Le Secret d'un Bon Chef : La Qualité des Ingrédients

Imaginez que vous voulez préparer un repas gastronomique (la réponse d'une intelligence artificielle) pour un client exigeant. Vous avez un chef génial (le modèle d'IA, comme GPT), mais il ne peut pas cuisiner avec n'importe quoi.

Si vous lui donnez des légumes pourris, des tomates écrasées ou des ingrédients mélangés dans un sac poubelle, même le meilleur chef du monde ne pourra rien faire de bon. Il va soit rater le plat, soit inventer des choses qui n'existent pas (ce qu'on appelle des "hallucinations").

C'est exactement le problème que cette équipe de chercheurs portugais a résolu.

Ils se sont demandé : "Quand on demande à une IA de répondre à des questions sur des documents PDF (comme des règlements militaires ou des contrats), est-ce que le problème vient du chef (l'IA) ou des ingrédients (la façon dont on prépare les PDF) ?"

Leur réponse est sans équivoque : C'est presque toujours les ingrédients.


📄 Le Défi : Transformer le "Béton" en "Lego"

Les documents PDF sont comme du béton coulé. Ils sont parfaits pour être imprimés et regardés par un humain (les lettres sont à la bonne place, les tableaux sont jolis), mais ils sont un cauchemar pour un ordinateur. Pour une IA, un PDF, c'est comme un puzzle dont on a collé toutes les pièces ensemble : elle ne voit pas où commence une phrase, où finit un tableau, ou quelle est la hiérarchie des titres.

Les chercheurs ont testé quatre "machines à démolir" (des logiciels différents) pour transformer ce béton en briques Lego propres et bien rangées (du texte structuré) avant de les donner à l'IA.

Les machines testées étaient :

  1. Docling (Le nouveau champion).
  2. MinerU (Un ancien qui a besoin d'aide).
  3. DeepSeek OCR (Un peu trop zélé et qui fait des erreurs).
  4. PDFLoader (La méthode "brute", sans préparation).

Ils ont aussi testé deux méthodes pour ranger les briques Lego :

  • La méthode "Recyclage" : On coupe le texte au hasard, sans regarder la structure.
  • La méthode "Architecte" : On respecte les titres, les sous-titres et on ajoute des étiquettes (métadonnées) pour dire "Attention, ce paragraphe parle de la section 3".

🏆 Les Résultats : Ce n'est pas la machine, c'est le rangement !

Voici ce qu'ils ont découvert, avec des analogies simples :

1. La qualité de la préparation bat tout

La différence entre le pire résultat (71 % de bonnes réponses) et le meilleur (94 %) était énorme.

  • L'analogie : C'est comme si un chef cuisinier obtenait 71/100 avec des légumes pourris, mais 94/100 avec des légumes frais et épluchés. Le chef n'a pas changé, c'est l'ingrédient qui a tout changé.
  • Le gagnant : La machine Docling, combinée à une méthode de découpage intelligente (qui respecte la structure du document), a été la meilleure. Elle a presque égalé le résultat d'un humain qui aurait tout réécrit à la main (97 %).

2. Le "Rangement" compte plus que la "Machine"

C'est la découverte la plus surprenante. Peu importe quelle machine vous utilisez pour extraire le texte, si vous ne le rangez pas correctement, l'IA va se perdre.

  • L'analogie : Imaginez une bibliothèque. Si vous avez les meilleurs livres du monde (le texte extrait par Docling) mais que vous les jetez tous en vrac sur le sol (découpage aléatoire), personne ne trouvera l'information. Mais si vous les mettez sur des étagères bien étiquetées (découpage hiérarchique avec métadonnées), l'IA trouve la réponse instantanément.
  • Le verdict : La façon dont on découpe et étiquette le texte (l'architecture) est plus importante que le logiciel utilisé pour le lire.

3. L'IA pour réorganiser les titres ? Pas toujours utile !

Les chercheurs ont essayé d'utiliser une autre IA pour deviner quels titres étaient importants dans le document. Résultat : ça a souvent fait des erreurs.

  • L'analogie : C'est comme demander à un touriste de réorganiser les rayons d'une bibliothèque de droit militaire. Il va faire des suppositions. Mieux vaut utiliser une règle simple et stricte (comme la taille de la police d'écriture) qui ne se trompe jamais.

4. Le "Graphique de Connaissance" (GraphRAG) : Un échec coûteux

Ils ont essayé de créer un immense réseau de liens entre les idées (un "cerveau" artificiel) pour aider l'IA.

  • L'analogie : C'est comme si, au lieu de donner un livre à un étudiant, on lui construisait une carte mentale géante avec 20 000 nœuds. Résultat ? L'étudiant s'est perdu dans la carte et a eu moins de bonnes réponses que s'il avait juste lu le livre bien rangé.
  • La leçon : Pour l'instant, construire ce genre de réseau complexe sans un guide expert (une "ontologie") est une perte de temps et d'argent. Un bon nettoyage de texte suffit largement.

💡 La Conclusion en une phrase

Si vous voulez que votre intelligence artificielle soit intelligente, ne dépensez pas votre argent à acheter le meilleur cerveau (le modèle d'IA), dépensez-le à nettoyer et ranger vos documents.

Comme le dit l'adage informatique : "Garbage in, garbage out" (Si vous mettez des ordures dedans, vous aurez des ordures dehors). Mais cette étude ajoute : "Si vous mettez des ingrédients frais et bien préparés, même un bon cuisinier fera un plat de chef."

Pour les entreprises qui gèrent des documents sensibles (comme l'armée portugaise qui a fourni les documents), la clé n'est pas de changer d'IA, mais d'investir dans un bon pipeline de préparation de données.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →