CMRAG: Co-modality-based visual document retrieval and question answering

Each language version is independently generated for its own context, not a direct translation.

📚 Le Problème : Le Dilemme du "Document Mystère"

Imaginez que vous cherchez une information précise dans une immense bibliothèque remplie de documents complexes : des rapports financiers avec des graphiques, des manuels techniques avec des schémas, ou des présentations PowerPoint.

Actuellement, les robots intelligents (les IA) ont du mal à lire ces documents. Ils sont confrontés à un choix difficile, comme un détective qui ne peut utiliser qu'un seul outil :

L'approche "Texte seul" (Le Lecteur aveugle) :
Le robot essaie de tout transformer en texte. Il lit les mots, mais il est "aveugle" aux images.
- L'analogie : C'est comme essayer de comprendre un film en lisant uniquement le script, sans jamais voir les acteurs ni les décors. Si la réponse est cachée dans un graphique ou une photo, le robot la rate.
L'approche "Image seule" (Le Spectateur distrait) :
Le robot regarde le document comme une simple photo. Il voit les couleurs et les formes, mais il a du mal à lire les petits caractères ou à comprendre les nuances des phrases longues.
- L'analogie : C'est comme essayer de lire un livre en regardant juste la couverture et quelques pages en flou. Vous voyez l'ambiance, mais vous ratez les détails cruciaux écrits en petit.

Le résultat ? Les réponses sont souvent imprécises, incomplètes ou carrément fausses.

💡 La Solution : CMRAG (Le Super-Détective Bilingue)

Les chercheurs de Baidu et de l'Université de Hong Kong ont créé CMRAG. Imaginez-le comme un super-détective bilingue qui possède deux yeux : un œil pour voir les images et un œil pour lire le texte, et qui sait parfaitement faire travailler les deux ensemble.

Leur méthode repose sur deux super-pouvoirs principaux :

1. Le Traducteur Universel (UEM)

Dans le monde réel, comparer une image à un texte est difficile. C'est comme essayer de comparer le poids d'une pomme (un texte) avec la couleur d'un ciel (une image). Les unités sont différentes !

CMRAG utilise un traducteur universel (un modèle d'encodage unifié).

L'analogie : Imaginez que ce traducteur transforme tout ce qui existe dans le document (les mots, les photos, les tableaux) en une langue secrète commune.
Une fois que le texte et l'image sont traduits dans cette même "langue secrète", le robot peut les comparer directement. Il sait exactement si une phrase correspond à une image, même si l'une est un mot et l'autre un dessin.

2. Le Juge Équitable (UCMR)

Même avec la langue secrète, il y a un problème : les notes données par le robot pour le texte et pour l'image ne sont pas sur la même échelle.

L'analogie : C'est comme si un professeur notait les élèves sur 10 pour les maths, mais sur 100 pour le sport. Comment savoir qui est le meilleur ?
CMRAG utilise un juge équitable qui normalise les notes. Il transforme tout sur une échelle commune (comme une note sur 100 pour tout le monde) pour s'assurer que le texte et l'image ont une chance égale de gagner. Cela permet de trouver la bonne page du document, qu'elle soit riche en texte ou en images.

🚀 Comment ça marche en pratique ?

Voici le processus en trois étapes, comme une enquête policière :

L'Enquête (Recherche) : Vous posez une question (ex: "Quel était le chiffre d'affaires en 2023 ?"). Le robot CMRAG ne cherche pas seulement des mots-clés, ni seulement des images. Il cherche les deux. Il regarde si le texte correspond à votre question ET si l'image (le graphique) confirme le contexte.
La Fusion : Il combine les indices. Si le texte dit "10%" et que le graphique montre une barre à 10%, le robot est sûr à 100%.
La Réponse : Il donne la réponse finale à un grand expert (une IA génératrice) qui assemble toutes les pièces du puzzle pour vous donner la réponse exacte.

🌟 Pourquoi c'est important ?

Avant, si vous demandiez à une IA de lire un rapport financier complexe, elle pouvait se tromper sur un chiffre important caché dans un tableau. Avec CMRAG :

Elle ne rate plus les détails visuels.
Elle ne rate plus les nuances textuelles.
Elle est plus précise, plus rapide et plus fiable.

En résumé : CMRAG est comme donner à un robot les yeux d'un artiste et le cerveau d'un bibliothécaire, lui permettant de comprendre le monde des documents non pas en choisissant entre l'image ou le texte, mais en les fusionnant parfaitement pour vous donner la vérité.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé du papier de recherche « CMRAG: Co-modality–based visual document retrieval and question answering », publié à l'atelier ICLR 2026 sur l'intelligence multimodale.

1. Problématique

Le domaine de la Réponse aux Questions sur Documents Visuels (VDQA) assistée par la Génération Augmentée par Récupération (RAG) fait face à des limitations majeures avec les documents multimodaux (PDF, rapports, présentations contenant du texte, des tableaux, des images et des mises en page complexes). Les approches existantes se divisent en deux catégories, chacune présentant des défauts :

RAG basé sur le texte : Il repose sur l'extraction de texte (OCR) et l'analyse de la mise en page. Bien que précis pour le texte explicite, il échoue à capturer le contenu sémantique des images, des graphiques ou du contenu non structuré.
RAG basé sur l'image : Il traite les pages de documents directement comme des images via des Modèles de Langage Visuel (VLM). Bien qu'il capture les informations visuelles, il néglige souvent la précision et la densité sémantique du texte, ce qui entraîne des résultats de récupération et de génération sous-optimaux.

L'objectif est de combler ces lacunes en créant un cadre capable d'exploiter simultanément et efficacement les modalités textuelles et visuelles pour une récupération et une génération plus précises.

2. Méthodologie : Le cadre CMRAG

Les auteurs proposent CMRAG, un cadre de RAG basé sur la co-modalité qui unifie le texte et l'image. L'architecture se compose de trois étapes principales :

A. Parsing et Représentation

Chaque page de document ( $p_i$ ) est d'abord analysée par un VLM pour extraire deux représentations :

Une représentation visuelle ( $I_i$ ) : l'image complète de la page.
Une représentation textuelle ( $T_i$ ) : le texte structuré extrait de la page.

B. Modèle d'Encodage Unifié (UEM - Unified Encoding Model)

C'est le cœur de la méthode de récupération. L'UEM projette les requêtes ( $q$ ), les images ( $I$ ) et les textes extraits ( $T$ ) dans un espace latent partagé.

Architecture : Basée sur le modèle SigLIP, l'UEM utilise trois encodeurs : un pour la requête ( $E_q$ ), un pour l'image ( $E_I$ ) et un pour le texte ( $E_T$ ).
Entraînement : Le modèle est entraîné avec une fonction de perte à double sigmoïde (Dual-Sigmoid Alignment - DSA). Cette perte contrastive par paires aligne les triplets (requête, image, texte) dans un espace commun.
Stratégie : Les encodeurs de requête et d'image sont gelés (pré-entraînés sur SigLIP) pour préserver l'alignement multimodal, tandis que l'encodeur de texte est initialisé comme une copie étendue de l'encodeur de requête et entraîné pour gérer des textes longs et diversifiés.

C. Récupération Unifiée Informée par la Co-modalité (UCMR - Unified Co-Modality–informed Retrieval)

Pour fusionner les scores de similarité issus des deux modalités, une simple moyenne pondérée est insuffisante en raison des distributions différentes des scores bruts.

Normalisation : Le système applique d'abord une fonction sigmoïde pour normaliser les scores de similarité internes (produits scalaires) dans l'intervalle $[0, 1]$ .
Standardisation Z-score : Ensuite, une normalisation Z-score est appliquée pour centrer et réduire les distributions des scores visuels et textuels, éliminant ainsi les biais de distribution.
Fusion : Les scores normalisés sont combinés linéairement avec un paramètre de poids $\beta$ pour le texte, permettant une fusion robuste des signaux hétérogènes.

D. Génération

Les pages les plus pertinentes (images et textes extraits) sont injectées dans un VLM générateur avec la requête pour produire la réponse finale.

3. Contributions Clés

Cadre CMRAG : Une nouvelle approche RAG unifiant texte et image pour la VDQA, surpassant les méthodes mono-modalité.
Modèle UEM : Un modèle d'encodage unifié entraîné de bout en bout avec une perte sigmoïde par paires pour créer un espace d'embedding cohérent pour les requêtes, les images et les textes longs.
Méthode UCMR : Une technique de récupération utilisant la normalisation statistique (sigmoïde + Z-score) pour fusionner efficacement les scores de similarité cross-modaux.
Dataset Triplet : Construction et publication d'un jeu de données à grande échelle de triplets (requête, texte, image) dérivé de documents visuels open-source pour faciliter la recherche future.
Validation Empirique : Des expériences extensives démontrant la supériorité de l'approche sur plusieurs benchmarks.

4. Résultats Expérimentaux

Les expériences ont été menées sur six benchmarks VDQA (MMLongBench, REAL-MM-RAG, LongDocURL, etc.) couvrant divers domaines (rapports financiers, présentations, articles techniques).

Récupération (Retrieval) : CMRAG-R (la composante récupération) surpasse systématiquement les modèles de base mono-modalité (BGE pour le texte, CLIP/SigLIP pour l'image) et les modèles SigLIP2.
- Sur les documents riches en texte (ex: Finreport), le texte seul (BGE) est fort, mais CMRAG maintient une performance supérieure en combinant les deux.
- Sur les documents visuels (ex: Finslides), l'approche visuelle seule est forte, mais l'ajout du texte améliore encore la précision.
Génération : En utilisant les top-3 documents récupérés, le cadre CMRAG génère des réponses plus précises que les baselines.
Analyse d'ablation :
- La suppression de la normalisation (UCMR sans norm) entraîne une chute significative des performances, prouvant l'importance de l'unification des distributions de scores.
- L'ajout d'un ensemble SigLIP + BGE (utilisant deux encodeurs séparés) donne de bons résultats, suggérant que l'UEM de CMRAG a encore du potentiel d'amélioration avec plus de données d'entraînement.
Cas d'étude : Sur des rapports financiers, CMRAG réussit à récupérer la page exacte contenant des données chiffrées complexes, là où les modèles basés uniquement sur l'image échouent à localiser l'information précise ou à interpréter les chiffres correctement.

5. Signification et Perspectives

Efficacité : CMRAG introduit une latence négligeable lors de la phase de requête en ligne car l'encodage des documents est effectué hors ligne.
Généralité : La méthode est applicable à divers scénarios professionnels (recherche d'entreprise, support technique, aide aux documents scientifiques) où ni le texte seul ni l'image seule ne suffisent.
Limites et Futur : Les auteurs notent que trop de contexte peut parfois nuire aux questions sans réponse (hallucinations) et suggèrent un contrôle dynamique des modalités et de la quantité de contexte comme piste de recherche future.
Impact : Ce travail démontre que l'intégration unifiée de la co-modalité dans le RAG est une voie efficace pour améliorer les systèmes complexes de compréhension de documents, dépassant les approches traditionnelles de séparation texte/image.

En résumé, CMRAG propose une solution élégante et robuste au problème de la fragmentation des modalités dans les documents visuels, en normalisant les signaux hétérogènes pour permettre une récupération et une génération de haute qualité.