ReCQR: Incorporating conversational query rewriting to improve Multimodal Image Retrieval

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat verwarde bibliothecaris hebt. Deze bibliothecaris kan elke foto in de wereld vinden als je hem een duidelijke beschrijving geeft, bijvoorbeeld: "Zoek een foto van een zwarte fornuis met een theepot erop."

Maar wat gebeurt er als je in een gesprek met deze bibliothecaris staat?

Het probleem: De "Dat"-verwarring
Stel, je hebt net een foto van een gezellige keuken gezien. Vervolgens vraag je: "Heb je een foto van dat gezellige ding op de stoel?"
De bibliothecaris (de computer) schudt verward met zijn hoofd. Hij weet niet wat "dat" is. Is het de stoel? De deken? De kamer? Omdat hij de vorige foto niet meer "onthoudt" of niet begrijpt dat je daar naar verwijst, geeft hij je misschien een foto van een oude bank of een raam. Hij zoekt op het verkeerde woord.

Dit is precies wat er gebeurt bij huidige beeldzoeksystemen. Mensen praten in zinnen die afhankelijk zijn van de context ("die scène", "dat ding", "deze keer"), maar computers houden vaak alleen vast aan wat je nu zegt, zonder de eerdere conversatie.

De oplossing: De "Vertaler" (ReCQR)
De auteurs van dit papier hebben een slimme oplossing bedacht die ze ReCQR noemen. Je kunt dit zien als het inhuren van een tolk of een secretaris tussen jou en de bibliothecaris.

Jij spreekt: Je zegt tegen de tolk: "Heb je een foto van dat gezellige ding op de stoel?" (terwijl je naar een eerdere foto van een deken op een stoel wijst).
De tolk denkt na: De tolk kijkt naar wat je eerder hebt gezegd en wat je nu zegt. Hij denkt: "Ah, hij bedoelt de deken op de stoel uit de vorige foto!"
De tolk herschrijft: De tolk vertaalt jouw verwarde zin naar een perfecte, duidelijke zin voor de bibliothecaris: "Zoek een foto van een gezellige deken die over een stoel gedrapeerd is."
De bibliothecaris zoekt: Nu kan de bibliothecaris (de zoekmachine) de perfecte foto vinden, omdat de opdracht eenduidig is.

Hoe hebben ze dit gebouwd?
De onderzoekers hebben een enorme "trainingschool" voor deze tolken gecreëerd, genaamd het ReCQR-dataset.

Ze hebben duizenden gesprekken nagebootst waarbij mensen naar foto's vragen.
Ze gebruikten super-slimme AI-modellen (zoals grote taalmodellen) om te oefenen hoe je die verwarde zinnen moet herschrijven.
Vervolgens hebben ze mensen ingeschakeld om te controleren of de herschreven zinnen wel echt logisch waren. Het resultaat is een database van 7.000 voorbeelden van "verwarde vraag" naar "duidelijke opdracht".

Wat hebben ze ontdekt?
Toen ze verschillende slimme computersystemen lieten trainen met deze nieuwe "tolk-school", zagen ze twee belangrijke dingen:

Het werkt enorm goed: Systemen die eerst faalden op verwarde vragen, vonden nu veel betere foto's. De "tolk" maakte het verschil tussen een mislukte zoektocht en een succesvolle.
Het is lastiger dan het lijkt: Het is makkelijker om een zin te herschrijven als je alleen naar tekst kijkt, dan als je ook naar foto's moet kijken. Het is alsof de tolk niet alleen moet luisteren, maar ook moet kijken naar de foto's die je eerder deelde om te begrijpen waar je over praat.

Conclusie
Kortom: Dit onderzoek laat zien dat als we een tussenstap toevoegen om onze verwarde, context-afhankelijke vragen om te zetten in duidelijke zoekopdrachten, we veel beter foto's kunnen vinden in gesprekken. Het is de sleutel om computers te laten begrijpen wat we echt bedoelen, niet alleen wat we letterlijk zeggen.

Each language version is independently generated for its own context, not a direct translation.

1. Probleemstelling

Multimodale afbeeldingsretrieval (het vinden van afbeeldingen op basis van tekstuele queries) staat voor een aanzienlijke uitdaging in conversatieve settings. Bestaande modellen, zoals CLIP, presteren goed bij single-turn queries, maar hebben moeite met meerdere beurten (multi-turn) dialogen.

Ambiguïteit en Context: Gebruikersuitingen in een gesprek zijn vaak contextafhankelijk en semantisch incompleet (bijv. "Stuur een foto van dat tafereel op een bewolkte dag"). Zonder de volledige dialooggeschiedenis zijn verwijzingen zoals "dat tafereel" onoplosbaar.
Ruis in Bestaande Oplossingen: Huidige methoden voor Conversational Image Retrieval (CIR) proberen de volledige dialooggeschiedenis te coderen samen met de huidige query. Dit introduceert echter vaak ruis en redundantie, wat de zoekprocessus bemoeilijkt.
Het Gat in de Literatuur: Hoewel Conversational Query Rewriting (CQR) succesvol is in tekst-only domeinen, is de toepassing ervan op multimodale afbeeldingsretrieval nog niet grondig onderzocht. Er ontbreekt een dataset en benchmark om te testen of het herschrijven van queries de prestaties van bestaande vision-language modellen verbetert.

2. Methodologie

De auteurs introduceren een nieuwe aanpak die CQR integreert in multimodale retrieval, ondersteund door een nieuw dataset en een specifieke evaluatiepipeline.

A. Dataset Constructie: ReCQR

De kern van het werk is de creatie van ReCQR, het eerste benchmark-dataset voor conversational query rewriting in afbeeldingsretrieval. De dataset bevat ongeveer 7.000 hoogwaardige multi-turn dialogen en is opgebouwd via een tweestapsproces:

Fase 1 (Tekst-only): Er worden dialogen gegenereerd rondom één afbeelding. Een Large Language Model (LLM) genereert een standaard caption, een doel-query, en een dialooggeschiedenis. Vervolgens wordt de originele query "elliptisch" gemaakt (informatie wordt weggelaten die uit de context kan worden afgeleid) om een contextafhankelijke query te simuleren.
Fase 2 (Multimodaal): Dit breidt het uit naar dialogen over twee semantisch gerelateerde afbeeldingen. Hierbij worden cross-modale afhankelijkheden gecreëerd (verwijzingen naar eerdere afbeeldingen in de chat).
Kwaliteitscontrole: Een robuust filterproces wordt toegepast:
- Automatische evaluatie door GPT-4 (scoren op coherentie en reconstructie).
- Menselijke review door twee annotatoren (accepteren/verwerpen).
- Een derde expert beslist bij conflicten.
- Resultaat: 4.000 enkelvoudige afbeelding-dialogen en 3.000 meervoudige afbeelding-dialogen.

B. Taak Formulering

De taak is gedefinieerd als het genereren van een herschreven query ( $\hat{q}$ ) op basis van een multimodale dialooggeschiedenis ( $D$ ) en de huidige, vaak onduidelijke query ($Oq$). Het doel is een zelfstandige, semantisch complete query te creëren die geschikt is voor bestaande retrievers (zoals CLIP).

C. Experimenteel Kader

Modellen: Drie Multimodale Large Language Models (MLLMs) werden getest voor de herschrijftaak: Qwen2.5-VL, LLaVA-v1.6, en GLM-4.1V.
Retrieval Backbone: CLIP-ViT-B/32 wordt gebruikt als vaste retriever. De prestaties worden gemeten aan de hand van hoe goed de herschreven query de juiste afbeelding vindt.
Training Settings:
- Text-Only (T): Modellen worden getraind alleen op tekstuele context.
- Multimodal (M): Modellen worden getraind op zowel tekst als de visuele input van de dialooggeschiedenis.

3. Belangrijkste Bijdragen

Extensie van CQR: Het paper breidt het concept van Conversational Query Rewriting succesvol uit naar het domein van multimodale afbeeldingsretrieval.
ReCQR Dataset: De bouw van een schaalbaar, hoogwaardig dataset (7K dialogen) dat specifiek is ontworpen voor het evalueren van query-rewriting in multimodale contexten, inclusief zowel enkelvoudige als meervoudige afbeeldingsreferenties.
Comprehensieve Benchmark: Het vaststellen van een benchmark die aantoont dat query-rewriting bestaande, "off-the-shelf" retrieval-modellen in staat stelt om complexe multimodale dialogen effectief te verwerken.

4. Resultaten

De experimentele resultaten (gemeten met Recall@K) tonen de volgende inzichten:

Noodzaak van Rewriting: Er is een groot prestatieverschil tussen de originele, onduidelijke query (lage Recall) en de "Target Query" (oracle herschrijving). Dit bevestigt dat rewriting essentieel is.
Effectiviteit van Fine-tuning: Alle geteste LLMs presteerden aanzienlijk beter na fine-tuning op de ReCQR dataset vergeleken met zero-shot prestaties.
Text-Only vs. Multimodaal:
- Modellen presteerden consistent slechter op het multimodale dataset dan op het tekst-only dataset, wat de complexiteit van cross-image verwijzingen onderstreept.
- Visuele informatie is cruciaal: Modellen die visuele grounding gebruikten (M-setting) presteerden beter op het multimodale dataset dan die welke alleen tekst gebruikten.
Model Vergelijking:
- GLM-4.1V en LLaVA-v1.6 toonden de beste prestaties, maar met verschillende sterke punten (bijv. LLaVA scoorde hoger op R@1, GLM op R@5/R@10).
- Er werd waargenomen dat bij sommige modellen de tweede fase van multimodale fine-tuning leidde tot "catastrophic forgetting" van tekstuele redeneercapaciteiten, wat resulteerde in lagere scores op tekst-only taken.

5. Significantie en Conclusie

Het paper demonstreert dat Conversational Query Rewriting een krachtige techniek is om de kloof te overbruggen tussen statische vision-language modellen en dynamische, multimodale conversaties.

Praktische Toepassing: Door onduidelijke gebruikersvragen om te zetten in precieze zoekopdrachten, kunnen bestaande, krachtige retrievers (zoals CLIP) direct worden ingezet in chatbots en assistenten zonder dat de retriever zelf opnieuw getraind hoeft te worden.
Toekomstperspectief: De ReCQR dataset en de bevindingen bieden een nieuwe richting voor het modelleren van gebruikersqueries in multimodale systemen, waarbij de nadruk ligt op het ontrafelen van contextuele verwijzingen in plaats van het simpelweg toevoegen van ruis aan de input.

Kortom, het werk bewijst dat het "herformuleren" van de vraag een kritieke schakel is voor succesvolle multimodale zoekopdrachten in een conversatieve omgeving.

ReCQR: Incorporating conversational query rewriting to improve Multimodal Image Retrieval

1. Probleemstelling

2. Methodologie

A. Dataset Constructie: ReCQR

B. Taak Formulering

C. Experimenteel Kader

3. Belangrijkste Bijdragen

4. Resultaten

5. Significantie en Conclusie

Meer zoals dit

M-RAG: Making RAG Faster, Stronger, and More Efficient

Bridge-RAG: An Abstract Bridge Tree Based Retrieval Augmented Generation Algorithm With Cuckoo Filter

SRAG: RAG with Structured Data Improves Vector Retrieval

Can AI be a Teaching Partner? Evaluating ChatGPT, Gemini, and DeepSeek across Three Teaching Strategies

Co-designing a Social Robot for Newcomer Children's Cultural and Language Learning