DocCogito: Aligning Layout Cognition and Step-Level Grounded Reasoning for Document Understanding

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de lire un document complexe, comme un contrat juridique ou un rapport financier rempli de tableaux et de graphiques. Si vous demandez à un ordinateur de vous répondre, il ne suffit pas qu'il devine la bonne réponse ; il doit aussi pouvoir vous montrer où il a trouvé l'information et comment il a raisonné pour l'obtenir.

Voici l'histoire de DocCogito, une nouvelle invention qui aide les intelligences artificielles (IA) à devenir de véritables "experts en lecture de documents".

Le Problème : L'IA qui "rêve" au lieu de lire

Actuellement, les IA qui lisent des documents sont un peu comme des étudiants qui trichent. Elles peuvent parfois donner la bonne réponse, mais leur raisonnement est flou.

L'ancienne méthode : C'est comme si l'IA lisait tout le texte d'un coup, sans faire attention à la mise en page (les titres, les colonnes, les cases), et essayait de deviner la réponse en parlant comme un humain ("Je pense que c'est ici...").
Le problème : Quand le document change de forme (par exemple, un tableau qui se déplace), l'IA se perd. Elle ne sait pas exactement où regarder. Elle manque de "boussole".

La Solution : DocCogito, le "Super-Lecteur" Structuré

DocCogito change la donne en imitant la façon dont un humain expert lit un document. Voici comment cela fonctionne, avec des analogies simples :

1. La Tour de Layout : La Carte au Trésor

Imaginez que vous entrez dans une grande bibliothèque. Avant même de lire un livre, vous jetez un coup d'œil rapide à la structure de la pièce : où sont les rayons, où sont les tables, où sont les fenêtres.

DocCogito fait pareil : Il possède un petit module spécial (la "Tour de Layout") qui crée instantanément une carte mentale de la page. Il ne lit pas encore les mots, il comprend la "géographie" du document (où est le titre, où est le tableau, où est le bas de page).
L'analogie : C'est comme si l'IA avait un plan d'architecte du document avant même de commencer à lire une seule ligne. Cela l'aide à ne jamais se perdre.

2. La Chaîne Visuelle-Sémantique (VSC) : Le Mode d'Emploi Rigide

Au lieu de laisser l'IA écrire un long paragraphe de réflexion (ce qui peut être confus et plein d'erreurs), DocCogito l'oblige à suivre un mode d'emploi précis, comme une recette de cuisine ou un formulaire administratif.

Comment ça marche ? L'IA ne dit pas "Je vais chercher le chiffre". Elle doit suivre des étapes strictes :
1. Sélectionner : "Je choisis la zone 'Tableau des revenus'."
2. Lire : "Je lis le texte dans cette case."
3. Filtrer : "Je cherche la ligne 'Année 2024'."
4. Calculer : "J'additionne les chiffres."
L'analogie : C'est comme passer d'un brouillon de poème (libre mais désordonné) à un formulaire de déclaration d'impôts rempli case par case. Chaque étape est vérifiable et ancrée dans une zone précise du document.

3. L'Entraînement Progressif : De l'Écolier au Maître

Pour apprendre à l'IA à utiliser ces outils, les chercheurs ont utilisé une méthode d'entraînement en plusieurs étapes, un peu comme l'éducation humaine :

Étape 1 (Pré-entraînement) : On apprend à l'IA à reconnaître les structures (les murs, les fenêtres) sans encore lui poser de questions.
Étape 2 (Démarrage froid) : On lui donne des exercices simples où elle doit suivre le mode d'emploi (VSC) pour répondre.
Étape 3 (Réjection et Récompense) : C'est la partie la plus intelligente. L'IA essaie de répondre. Si elle se trompe de zone ou suit une mauvaise logique, on lui dit "Non, recommence". Si elle trouve la bonne zone et le bon raisonnement, elle reçoit une "récompense" virtuelle.
L'analogie : C'est comme un coach sportif qui regarde un athlète s'entraîner. Si l'athlète court dans la mauvaise direction, le coach l'arrête. S'il court bien, il le félicite. À force d'essais et d'erreurs, l'IA devient parfaite.

Pourquoi c'est génial ?

Grâce à DocCogito, l'IA ne devine plus. Elle prouve sa réponse.

Si vous lui demandez : "Quel est le chiffre d'affaires de 2023 ?", elle peut vous montrer exactement : "J'ai regardé le tableau en haut à droite, j'ai lu la ligne '2023', et j'ai trouvé 5 millions."
Cela rend les IA beaucoup plus fiables pour des tâches importantes comme les contrats de banque ou les dossiers médicaux, où une erreur de lecture peut coûter cher.

En résumé

DocCogito est comme un détective très organisé. Il ne se fie pas à son intuition floue. Il a d'abord une carte du crime (la structure du document), puis il suit une liste de tâches rigoureuse (la Chaîne Visuelle-Sémantique) pour trouver la preuve, étape par étape. Le résultat ? Une IA qui lit mieux, plus vite, et qui ne se trompe pas de chemin.

Each language version is independently generated for its own context, not a direct translation.

Titre : DocCogito : Alignement de la cognition de mise en page et du raisonnement ancré au niveau des étapes pour la compréhension de documents

1. Problématique

La compréhension de documents par des modèles de langage multimodaux (MLLM) nécessite non seulement des réponses précises, mais aussi un raisonnement explicite et ancré sur des preuves, en particulier dans des scénarios à haut risque (contrats juridiques, rapports financiers).

Les limites des approches actuelles sont les suivantes :

Découplage entre mise en page et raisonnement : Bien que les modèles améliorent l'encodage de la mise en page (layout) et utilisent des techniques de type "Chain of Thought" (CoT), l'interaction entre ces deux éléments reste implicite et lâche.
Manque de processus de raisonnement complet : Les modèles ne parviennent pas à reproduire le processus humain qui consiste d'abord à établir une priorité globale de mise en page, puis à itérer pour rassembler des preuves.
Ambiguïté du CoT naturel : Les raisonnements en langage naturel libre sont souvent ambigus, manquent de granularité cohérente et ne contraignent pas suffisamment le modèle à se focaliser sur les régions de preuve spécifiques, ce qui entraîne des erreurs de distraction ou des raccourcis cognitifs.

2. Méthodologie

DocCogito propose un cadre unifié et sans OCR (OCR-free) qui intègre la perception globale de la mise en page avec un raisonnement structuré et ancré sur des régions.

A. Architecture du Modèle

Tour de mise en page légère (Lightweight Layout Tower) : Un module ajouté à l'encodeur visuel qui extrait les indices structurels globaux de la page. Il transforme la structure de la page en un token prior de mise en page global ([LAYOUT]) apprenable. Ce token est injecté dans le modèle de langage pour guider toutes les étapes de raisonnement multimodal.
Chaîne Visuelle-Sémantique (Visual-Semantic Chain - VSC) : Au lieu d'un CoT en langage naturel libre, DocCogito utilise une représentation structurée et déterministe. Chaque étape de raisonnement est un triplet : $\langle op, region, args \rangle$ $⟨ o p, r e g i o n, a r g s ⟩$ .
- Opérations primitives : Sélection (Select), Lecture (Read), Filtrage (Filter), Comparaison (Compare), Agrégation (Aggregate).
- Ancrage : Chaque opération est explicitement liée à une région de mise en page spécifique, réduisant l'ambiguïté sémantique.

B. Recette d'Entraînement Progressive
L'entraînement suit une approche en plusieurs étapes pour aligner la perception et le raisonnement :

Pré-entraînement de la perception de mise en page : Entraînement de la tour de mise en page sur des annotations OCR pour apprendre les priors structurels globaux (via une perte KL et une perte d'alignement des centres).
Démarrage à froid guidé par VSC (Cold Start) : Utilisation d'un corpus structuré (4 000 échantillons) pour initier le modèle à un raisonnement étape par étape ancré sur des régions, évitant l'effondrement de la politique au début de l'entraînement.
Échantillonnage par rejet (Rejection Sampling) : Affinement sur un corpus multi-domaines. Seules les réponses valides structurellement et sémantiquement sont conservées pour l'ajustement fin supervisé (SFT).
Optimisation par GRPO (Group Relative Policy Optimization) : Une phase de renforcement où le modèle explore plusieurs trajectoires de raisonnement.
- Fonction de récompense composite : Elle inclut la justesse de la réponse, la validité de la structure VSC, et un terme crucial de confiance régionale. Ce terme récompense le modèle lorsqu'il attribue une haute probabilité aux tokens de région corrects, renforçant ainsi le couplage entre les priors de mise en page et l'exécution du raisonnement.

3. Contributions Clés

Cadre DocCogito : Un modèle MLLM unifié et sans OCR qui couple la perception globale de la mise en page avec une exécution étape par étape ancrée sur des régions.
Innovations Architecturales : Introduction d'une tour de mise en page légère pour des priors explicites et d'une Chaîne Visuelle-Sémantique (VSC) pour un raisonnement intermédiaire supervisé et non ambigu.
Stratégie d'Entraînement Avancée : Développement d'une recette progressive (Pré-entraînement $\rightarrow$ Démarrage à froid $\rightarrow$ Échantillonnage par rejet $\rightarrow$ GRPO) enrichie par un signal de confiance régionale fine pour renforcer l'alignement interne.
Performance et Généralisation : Démonstration de résultats de pointe (SOTA) sur plusieurs benchmarks, prouvant la robustesse et l'efficacité de la méthode à différentes échelles de modèles.

4. Résultats Expérimentaux

Les expériences ont été menées sur six benchmarks majeurs : DocVQA, WTQ, ChartQA, TextVQA, OCRBench et InfoVQA.

Performances SOTA : La variante 8B de DocCogito atteint les meilleurs résultats sur quatre benchmarks (DocVQA, InfoVQA, TextVQAval, OCRBench), surpassant les méthodes précédentes de 1,2 à 5,0 points.
Efficacité des paramètres : La variante 4B est hautement compétitive, surpassant plusieurs modèles de 8B à 17B, démontrant l'efficacité paramétrique du cadre.
Généralisation : Les améliorations sont observées même sur des types de données non présents dans le mélange d'entraînement (évaluation hors domaine), indiquant que les gains ne sont pas dus à un simple mémorisation mais à une meilleure capacité de raisonnement structurel.
Analyse par ablation : La suppression de la tour de mise en page, du VSC ou de l'étape GRPO entraîne une baisse significative des performances, confirmant que chaque composant est essentiel pour un raisonnement fiable.

5. Signification et Impact

DocCogito représente une avancée significative dans la compréhension de documents en :

Rendant le raisonnement auditable : La structure VSC expose clairement le processus de pensée (quelle région est consultée, quelle opération est appliquée), ce qui est crucial pour les applications critiques.
Résolvant le problème de l'ancrage : En forçant explicitement le modèle à ancrer chaque étape de raisonnement à une région de mise en page, le modèle évite les hallucinations et les erreurs de distraction.
Offrant une nouvelle voie pour les MLLM : Le papier suggère que l'intégration de priors structurels explicites et de mécanismes de récompense fine est plus efficace que l'augmentation simple de la taille des modèles ou l'utilisation de CoT en langage naturel.

En conclusion, DocCogito établit un nouveau standard pour les modèles de compréhension de documents en démontrant qu'un raisonnement structuré, guidé par la mise en page et optimisé par renforcement, permet d'atteindre une performance et une fiabilité supérieures.