QA-Dragon: Query-Aware Dynamic RAG System for Knowledge-Intensive Visual Question Answering

Le papier présente QA-Dragon, un système RAG dynamique et conscient de la requête qui améliore les réponses aux questions visuelles complexes en orchestrant de manière hybride des agents de recherche textuelle et visuelle pour un raisonnement multimodal et multi-étapes.

Zhuohang Jiang, Pangjing Wu, Xu Yuan, Wenqi Fan, Qing Li

Publié 2026-03-17
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🐉 QA-Dragon : Le Détective Multimédia qui ne se trompe jamais

Imaginez que vous avez un ami très intelligent, un génie des livres et des images, appelé MLLM (un grand modèle de langage multimodal). Ce génie est capable de répondre à presque n'importe quelle question en regardant une photo. Mais il a un gros défaut : il a tendance à halluciner.

C'est comme un conteur de histoires qui, s'il ne connaît pas la réponse, va inventer un mensonge très convaincant plutôt que de dire "Je ne sais pas". Par exemple, si vous lui montrez une photo d'une voiture et demandez "Quel est le prix de ce modèle ?", il pourrait inventer un prix au hasard s'il ne l'a pas appris par cœur.

Pour régler ce problème, les chercheurs ont créé QA-Dragon. C'est un système qui agit comme un chef d'orchestre ou un détective privé très méthodique. Au lieu de laisser le génie répondre tout de suite, QA-Dragon l'oblige à faire ses devoirs avant de parler.

Voici comment ça marche, étape par étape, avec des images de la vie quotidienne :

1. Le Tri Postal : "De quel sujet parle-t-on ?" (Le Routeur de Domaine)

Quand vous posez une question, le système ne la traite pas comme n'importe quelle autre. Il regarde d'abord le sujet.

  • L'analogie : Imaginez un bureau de poste géant. Si vous arrivez avec une lettre sur la "cuisine", le facteur ne l'envoie pas au département "mécanique automobile".
  • Dans QA-Dragon : Le système identifie si votre question porte sur des animaux, des voitures, de la nourriture ou des livres. Il envoie ensuite la question au spécialiste le plus adapté pour ce domaine précis. Cela évite de chercher des recettes de cuisine dans un manuel de mécanique.

2. Le Chef de Service : "Faut-il chercher ou répondre ?" (Le Routeur de Recherche)

Une fois le sujet identifié, le système se pose une question cruciale : "Est-ce que le génie a déjà la réponse dans sa tête, ou doit-il aller chercher des infos ?"

  • L'analogie : C'est comme un patron de restaurant.
    • Si vous commandez un café (une question simple, visible sur la photo), le patron dit : "C'est prêt, servez !" (Réponse directe).
    • Si vous demandez "D'où vient le grain de ce café ?", le patron dit : "Attendez, je dois appeler le fournisseur" (Recherche externe).
  • Dans QA-Dragon : Le système analyse si la réponse est visible sur l'image (comme lire un texte sur un panneau) ou si elle nécessite des connaissances extérieures (comme le prix d'un objet).

3. Le Choix de l'Outil : "Où aller chercher ?" (Le Routeur d'Outils)

Si une recherche est nécessaire, le système décide chercher.

  • L'analogie : C'est comme choisir entre aller à la bibliothèque (texte) ou au musée (images).
    • Si vous demandez "Quel est le nom de ce chien ?", le système va au musée (recherche d'images similaires) pour trouver la race.
    • Si vous demandez "Quand ce chien a-t-il été élevé ?", le système va à la bibliothèque (recherche web) pour trouver l'histoire de la race.
  • Dans QA-Dragon : Il peut même utiliser les deux en même temps s'il le faut, comme un détective qui consulte à la fois les archives policières et les photos de scène de crime.

4. Le Filtre de Qualité : "Est-ce que c'est vrai ?" (Le Reranker)

Le système peut trouver des milliers de documents ou d'images. Il ne peut pas tout lire. Il doit choisir les meilleurs.

  • L'analogie : Imaginez que vous recevez 50 courriers de réponse à votre question. La plupart sont du bruit ou des publicités. Le système agit comme un éditeur de journal très sévère. Il lit rapidement tous les courriers, jette ceux qui sont hors-sujet, et ne garde que les 3 ou 4 plus pertinents et les plus fiables.
  • Dans QA-Dragon : Il utilise une méthode "du grossier au fin" (coarse-to-fine) pour trier les informations et ne garder que ce qui aide vraiment à répondre.

5. Le Vérificateur Final : "On est sûr à 100% ?" (Le Vérificateur)

Avant de donner la réponse finale, le système la vérifie une dernière fois.

  • L'analogie : C'est comme un fact-checker (vérificateur de faits) dans un journal. Il compare la réponse du génie avec les documents qu'il vient de trouver. Si le génie dit "C'est 50€" mais que le document dit "C'est 45€", le vérificateur corrige la réponse. Si le génie invente quelque chose, le vérificateur dit : "Non, on ne peut pas répondre avec certitude", et le système préfère dire "Je ne sais pas" plutôt que de mentir.

Pourquoi est-ce important ?

Dans le monde réel, on ne veut pas d'un assistant qui invente des faits. Que ce soit pour savoir le prix d'une voiture, l'histoire d'un monument ou identifier une plante rare, la précision est clé.

QA-Dragon a remporté un grand succès (le KDD Cup 2025) parce qu'il a réussi à :

  1. Comprendre le contexte (est-ce une question simple ou complexe ?).
  2. Choisir la bonne source (image ou texte).
  3. Vérifier la réponse pour éviter les mensonges.

En résumé, QA-Dragon ne remplace pas l'intelligence artificielle, il lui donne un système de vérification et une méthode de travail pour qu'elle devienne un expert fiable, et non un conteur de fables. C'est la différence entre un ami qui devine et un expert qui vérifie ses sources.