ReCQR: Incorporating conversational query rewriting to improve Multimodal Image Retrieval

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes dans une grande bibliothèque magique remplie de milliards de photos. Vous voulez trouver une image précise, mais vous ne savez pas exactement comment la décrire. C'est là que l'Recherche d'Images entre en jeu.

Mais voici le problème : dans une vraie conversation, nous ne parlons jamais comme des robots. Nous faisons des allusions, nous disons "celle-là" ou "comme sur la photo précédente". Si vous demandez à un ordinateur : "Montre-moi cette scène avec le ciel gris", il va être perdu. Quelle scène ? Quel ciel gris ? Sans le contexte de votre conversation précédente, l'ordinateur ne peut pas deviner.

C'est exactement le problème que l'équipe de l'Université de Soochow en Chine a résolu avec leur nouveau projet, qu'ils appellent ReCQR.

Voici une explication simple, avec des images mentales, de ce qu'ils ont fait :

1. Le Problème : Le "Je sais ce que je veux" mais "Je ne sais pas le dire"

Imaginez que vous parlez à un ami qui connaît très bien la bibliothèque, mais qui a une mémoire très courte.

Vous dites : "Montre-moi la photo du joueur de foot qu'on a vue tout à l'heure, mais avec un ciel gris."
L'ami (l'ordinateur) : "Euh... quel joueur ? Quel ciel ? Je ne vois rien."

Les ordinateurs actuels sont excellents pour comprendre une phrase complète et isolée, mais ils sont très mauvais pour suivre une conversation où les mots changent de sens selon ce qui a été dit avant.

2. La Solution : Le "Traducteur de Conversation" (ReCQR)

Les chercheurs ont créé un traducteur spécial. Ce n'est pas un traducteur de langues, mais un traducteur de contexte.

Imaginez ce traducteur comme un secrétaire très attentif qui écoute votre conversation avec l'ordinateur.

Quand vous dites "Montre-moi celle-là", le secrétaire entend le contexte précédent.
Il prend votre phrase confuse et la réécrit instantanément pour qu'elle soit parfaite pour l'ordinateur : "Montre-moi la photo du joueur de foot qui tape le ballon avec la tête, sous un ciel gris."

C'est ce qu'ils appellent la Réécriture de Requêtes Conversationnelles. Le but est de transformer votre demande floue en une demande claire et autonome, prête à être utilisée par n'importe quel moteur de recherche puissant.

3. La Cuisine : Comment ils ont créé leur "Recette" (Le Dataset)

Pour entraîner ce secrétaire, il fallait des milliers d'exemples de conversations réelles. Mais trouver de vraies conversations où quelqu'un cherche des images est difficile. Alors, ils ont utilisé l'intelligence artificielle pour cuisiner ces conversations eux-mêmes !

Étape 1 (La base) : Ils ont pris des milliers de photos (comme des ingrédients) et ont demandé à une IA de générer des descriptions. Ensuite, ils ont créé des dialogues où l'utilisateur pose des questions floues basées sur ces photos.
Étape 2 (Le plat complet) : Ils ont ajouté une couche de complexité. Imaginez une conversation où vous parlez de deux photos différentes qui ont un lien (par exemple, une photo d'une cuisine et une photo d'un four). L'utilisateur dit : "Montre-moi le four de la cuisine qu'on a vue avant."
Le Contrôle Qualité : Pour s'assurer que ces conversations étaient réalistes et utiles, ils ont utilisé une IA très intelligente (comme un chef étoilé) pour vérifier chaque phrase, et des humains pour faire une dernière vérification. Au final, ils ont créé une bibliothèque de 7 000 conversations parfaites pour entraîner les ordinateurs.

4. Le Résultat : Une Bibliothèque qui comprend enfin

Ils ont testé plusieurs modèles d'intelligence artificielle avec cette nouvelle méthode.

Avant : L'ordinateur cherchait la photo "ciel gris" et trouvait des milliers de résultats inutiles.
Après : Grâce au "secrétaire" qui a réécrit la demande, l'ordinateur a trouvé la photo exacte du joueur de foot sous le ciel gris.

C'est comme si vous donniez à un chercheur de photos une carte au trésor floue, et qu'un assistant la transformait en coordonnées GPS précises.

En résumé

Ce papier nous dit que pour que les ordinateurs comprennent vraiment ce que nous voulons quand nous cherchons des images en discutant, ils ne doivent pas seulement écouter la dernière phrase. Ils ont besoin d'un intermédiaire intelligent qui résume toute l'histoire de la conversation pour créer une requête claire.

Grâce à ReCQR, nous avons maintenant les outils et les données pour construire des assistants visuels qui ne sont pas seulement de bons chercheurs, mais de vrais interlocuteurs capables de comprendre nos allusions et nos souvenirs partagés.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La récupération d'images multimodale vise à localiser des images cibles en comprenant les intentions des utilisateurs à travers des contextes visuels et textuels. Cependant, dans les scénarios de dialogue conversationnel, les requêtes utilisateurs souffrent d'ambiguïté et d'incomplétude sémantique.

Dépendance au contexte : Les requêtes finales font souvent référence à des éléments du dialogue précédent (ex: « cette scène », « cela ») qui sont inexplicables sans l'historique.
Limites des modèles actuels : Des modèles puissants comme CLIP excellent dans la recherche en tour unique, mais échouent dans les dialogues multi-tours car ils ne peuvent pas résoudre ces références implicites.
Bruit dans les approches existantes : Les méthodes de récupération d'images conversationnelles (CIR) tentent d'encoder tout l'historique du dialogue, ce qui introduit souvent du bruit et de la redondance, compliquant le processus de recherche.

L'article identifie un vide critique : l'absence d'application de la Réécriture de Requêtes Conversationnelles (CQR) — une technique éprouvée en texte seul — au domaine de la récupération d'images multimodale.

2. Méthodologie

L'approche proposée, ReCQR, intègre la réécriture de requêtes conversationnelles pour transformer les requêtes ambiguës en requêtes autonomes et riches en intention, adaptées aux moteurs de recherche existants.

A. Construction du Dataset (ReCQR)

Les auteurs ont construit le premier benchmark dédié à la CQR pour la récupération d'images, contenant 7 000 dialogues multi-tours de haute qualité. La construction suit un pipeline en deux étapes :

Phase 1 (Dialogues Text-Only) : À partir de 6 000 images de MSCOCO, des dialogues sont générés pour une seule image. Un LLM (Qwen2.5-VL) génère une description, puis une requête cible, un historique de dialogue, et enfin une requête originale elliptique (avec des références implicites).
Phase 2 (Dialogues Multimodaux) : Pour simuler des scénarios réels où l'utilisateur fait référence à plusieurs images, des paires d'images sémantiquement liées sont formées (vérifiées via BLIP et ConceptNet). Le dialogue est étendu pour inclure la référence à la première image avant de demander la seconde.
Contrôle de Qualité : Un processus rigoureux de filtrage a été appliqué :
- Évaluation automatique par GPT-4 (notation sur 5 points).
- Révision manuelle par deux annotateurs humains avec arbitrage par un tiers expert en cas de conflit.
- Résultat final : 4 000 dialogues mono-image et 3 000 dialogues multi-images.

B. Tâche et Évaluation

Tâche : Étant donné un historique de dialogue multimodal $D$ et une requête actuelle $Oq$ , le modèle doit générer une requête réécrite $\hat{q}$ qui résout les références et intègre l'information visuelle nécessaire pour la recherche.
Modèles testés : Trois grands modèles multimodaux (MLLM) ont été évalués pour la tâche de réécriture : Qwen2.5-VL, LLaVA-v1.6, et GLM-4.1V.
Moteur de recherche : Un modèle CLIP-ViT-B/32 fixe est utilisé comme colonne vertébrale pour évaluer la qualité des requêtes réécrites via la similarité cosinus.
Métriques : Recall@K (R@1, R@5, R@10).
Protocole expérimental : Comparaison entre un réglage « Text-Only » (réécriture basée uniquement sur le texte) et un réglage « Multimodal » (incluant les images de l'historique).

3. Contributions Clés

Extension de la CQR : Première intégration systématique de la réécriture de requêtes conversationnelles dans le domaine de la récupération d'images multimodale.
Dataset ReCQR : Création d'un benchmark de 7 000 dialogues annotés, couvrant des contextes simples (mono-image) et complexes (multi-images), générés via un pipeline scalable LLM-as-Judge.
Benchmark Complet : Établissement d'une référence démontrant que la réécriture de requêtes permet aux modèles de récupération « hors de la boîte » (off-the-shelf) de gérer des dialogues multimodaux complexes avec succès.

4. Résultats Expérimentaux

Les résultats sur le benchmark ReCQR montrent des tendances significatives :

Impact de la Réécriture : Il existe un écart de performance majeur entre la requête originale (R@1 ~3-3%) et la requête cible idéale (R@1 ~20-22%), prouvant la nécessité de la réécriture.
Supériorité du Fine-tuning : Le fine-tuning des modèles sur le dataset ReCQR améliore considérablement les performances par rapport aux capacités zero-shot des modèles de base.
Difficulté Multimodale : Les modèles performent généralement moins bien sur le dataset multimodal que sur le dataset textuel, confirmant la complexité accrue de la résolution de références croisées entre images.
Comparaison des Modèles :
- GLM-4.1V-9B-Thinking excelle dans le réglage textuel (R@1 le plus élevé).
- LLaVA-v1.6-Mistral-7B-HF et GLM-4.1V montrent des forces complémentaires dans le réglage multimodal, avec LLaVA obtenant le meilleur R@1 et GLM les meilleurs R@5/R@10 sur le dataset multimodal.
- L'ajout de l'information visuelle (réglage M) est crucial pour les dialogues multi-images, bien qu'il puisse parfois entraîner un « oubli catastrophique » des capacités de raisonnement textuel pur si le fine-tuning n'est pas bien géré.

5. Signification et Conclusion

L'article démontre que la réécriture de requêtes conversationnelles (CQR) est une composante essentielle pour les futurs systèmes de dialogue multimodal. En transformant des requêtes ambiguës en requêtes explicites et autonomes, la CQR permet de tirer parti de la puissance des modèles de récupération d'images existants (comme CLIP) sans avoir besoin de réentraîner l'ensemble du système de recherche.

Cette approche offre une voie directe pour améliorer la précision de la récupération d'images dans des contextes conversationnels réels, comblant le fossé entre les modèles vision-langage statiques et les conversations dynamiques et multimodales. Le dataset ReCQR sert désormais de référence pour évaluer et développer de nouvelles méthodes de compréhension de l'intention utilisateur dans les systèmes multimodaux.

ReCQR: Incorporating conversational query rewriting to improve Multimodal Image Retrieval

1. Le Problème : Le "Je sais ce que je veux" mais "Je ne sais pas le dire"

2. La Solution : Le "Traducteur de Conversation" (ReCQR)

3. La Cuisine : Comment ils ont créé leur "Recette" (Le Dataset)

4. Le Résultat : Une Bibliothèque qui comprend enfin

En résumé

1. Problématique

2. Méthodologie

A. Construction du Dataset (ReCQR)

B. Tâche et Évaluation

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Conclusion

Articles similaires

M-RAG: Making RAG Faster, Stronger, and More Efficient

Bridge-RAG: An Abstract Bridge Tree Based Retrieval Augmented Generation Algorithm With Cuckoo Filter

SRAG: RAG with Structured Data Improves Vector Retrieval

Can AI be a Teaching Partner? Evaluating ChatGPT, Gemini, and DeepSeek across Three Teaching Strategies

Co-designing a Social Robot for Newcomer Children's Cultural and Language Learning