MoDora: Tree-Based Semi-Structured Document Analysis System

Le système MoDora, propulsé par des modèles de langage, améliore l'analyse de documents semi-structurés en transformant les éléments OCR en composants sensibles à la mise en page, en les organisant hiérarchiquement via un arbre de corrélation de composants (CCTree) et en utilisant une stratégie de récupération adaptée au type de question pour surmonter les défis de fragmentation et de dispersion des informations.

Bangrui Xu, Qihang Yao, Zirui Tang, Xuanhe Zhou, Yeye He, Shihan Yu, Qianqian Xu, Bin Wang, Guoliang Li, Conghui He, Fan Wu

Publié 2026-03-02
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

📚 Le Problème : Lire un Document "Bricolage"

Imaginez que vous recevez un document très spécial. Ce n'est pas un simple roman avec des lignes de texte qui se suivent. C'est un document semi-structuré.

Pensez à un journal scientifique, un rapport financier ou un manuel technique.

  • Il y a du texte.
  • Il y a des tableaux avec des chiffres.
  • Il y a des graphiques (des courbes, des camemberts).
  • Il y a des titres à différents niveaux (chapitres, sous-chapitres).
  • Tout cela est mélangé de façon parfois bizarre : un tableau peut être en haut de page, un texte en bas, et un graphique sur le côté.

Le problème ?
Si vous demandez à un robot (une intelligence artificielle classique) : "Quel est le résultat de l'expérience 3 en hiver ?", il a du mal à répondre.

  • Soit il lit tout le texte mais ignore les tableaux (comme s'il lisait un livre sans regarder les photos).
  • Soit il regarde les images mais ne comprend pas le contexte (il ne sait pas que le graphique concerne l'expérience 3).
  • Soit il se perd dans la structure et mélange les chapitres.

C'est comme si on vous donnait un puzzle dont on a coupé les pièces, mélangé les bords, et qu'on vous demandait de reconstruire l'image en disant juste "regarde les pièces".


🌳 La Solution : MoDora, l'Architecte de l'Arbre

Les chercheurs ont créé MoDora. Imaginez MoDora comme un architecte très organisé qui transforme ce document chaotique en une grande famille d'arbres.

Voici comment il procède, étape par étape :

1. Le Tri des Pièces (L'Assemblage Local)

D'abord, le document est scanné (comme avec un scanner de téléphone). Le robot voit des bouts de texte, des cases de tableaux, des images. C'est le chaos.

  • L'analogie : Imaginez un déménagement où toutes les affaires sont dans des cartons ouverts.
  • Ce que fait MoDora : Il dit : "Attends, ce titre 'Introduction' et ces trois paragraphes qui suivent, c'est une seule famille !" ou "Ce titre 'Tableau 1' et ce tableau juste en dessous, ils sont mariés, restez ensemble !".
  • Il regroupe les éléments qui vont ensemble pour créer des composants (des blocs intelligents).

2. La Construction de l'Arbre (Le CCTree)

Une fois les blocs créés, MoDora ne les pose pas en ligne. Il construit un arbre généalogique (appelé CCTree).

  • L'analogie : Imaginez un arbre de Noël.
    • La racine est le titre du document.
    • Les grosses branches sont les grands chapitres.
    • Les petites branches sont les sous-chapitres.
    • Les décorations (les boules) sont les tableaux et les graphiques accrochés à la branche de texte qui les explique.
  • Pourquoi c'est génial ? Contrairement aux autres méthodes qui voient le document comme une liste plate (1, 2, 3...), MoDora voit la hiérarchie. Il sait que le tableau appartient au chapitre "Résultats", et non au chapitre "Introduction".

3. Le Résumé Intelligent (La Montée de l'Arbre)

Pour ne pas avoir à lire tout l'arbre à chaque fois, MoDora fait un petit tour de magie : il résume chaque branche en remontant vers le haut.

  • L'analogie : C'est comme si chaque enfant de la famille envoyait un résumé de sa journée à ses parents, qui le résumait à nouveau pour les grands-parents.
  • Le haut de l'arbre sait donc : "Dans cette branche, on parle d'expériences sur les poulets, avec des tableaux de scores de plumes". Il n'a pas besoin de lire chaque mot pour savoir de quoi ça parle.

4. La Chasse au Trésor (La Recherche)

Quand vous posez une question, MoDora n'explore pas tout l'arbre au hasard. Il utilise une stratégie intelligente :

  • Si vous demandez "Où est le graphique ?" (Question de lieu) : Il regarde la carte de l'arbre et dit : "Ah, c'est en bas à droite de la page 2".
  • Si vous demandez "Quel est le score ?" (Question de sens) : Il utilise un détective (une IA) pour regarder les résumés des branches. Si une branche semble intéressante, il la creuse. S'il manque des détails, il va chercher dans les "sous-bois" (recherche par mots-clés) pour ne rien rater.
  • Le vérificateur : Enfin, un expert vérifie : "Est-ce que ce que tu as trouvé répond vraiment à la question ?".

🏆 Le Résultat : Pourquoi c'est mieux ?

Les chercheurs ont testé MoDora contre d'autres robots (comme GPT-5, ZenDB, etc.) sur des milliers de documents réels.

  • Les autres robots : Ils se trompent souvent. Ils confondent un tableau avec un texte, ou ils inventent des réponses (hallucinations) parce qu'ils ne voient pas le lien entre le titre et le chiffre.
  • MoDora : Il gagne largement (jusqu'à 60% de mieux !).
    • Il comprend que le "Tableau 1" appartient au "Chapitre 3".
    • Il sait que le "Hiver" mentionné dans un paragraphe correspond à une ligne spécifique dans un tableau sur une autre page.
    • Il ne perd pas le fil.

En Résumé

MoDora, c'est comme passer d'un désordre de pièces de puzzle à un arbre généalogique parfaitement organisé.
Au lieu de lire le document mot à mot comme un robot bête, il comprend la structure, la famille des informations et leur emplacement. Cela lui permet de répondre à vos questions avec une précision humaine, même dans les documents les plus complexes et mélangés.

C'est une avancée majeure pour faire lire aux ordinateurs les rapports financiers, les thèses scientifiques et les manuels techniques sans qu'ils se perdent ! 🌳📄🤖

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →