ReCQR: Incorporating conversational query rewriting to improve Multimodal Image Retrieval

Dit paper introduceert ReCQR, een framework dat conversatievragen herschrijft met behulp van grote taalmodellen om de nauwkeurigheid van multimodale beeldretrieval te verbeteren, ondersteund door een nieuw dataset van 7.000 hoogwaardige dialooginteracties.

Yuan Hu, ZhiYu Cao, PeiFeng Li, QiaoMing Zhu

Gepubliceerd 2026-03-31
📖 3 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat verwarde bibliothecaris hebt. Deze bibliothecaris kan elke foto in de wereld vinden als je hem een duidelijke beschrijving geeft, bijvoorbeeld: "Zoek een foto van een zwarte fornuis met een theepot erop."

Maar wat gebeurt er als je in een gesprek met deze bibliothecaris staat?

Het probleem: De "Dat"-verwarring
Stel, je hebt net een foto van een gezellige keuken gezien. Vervolgens vraag je: "Heb je een foto van dat gezellige ding op de stoel?"
De bibliothecaris (de computer) schudt verward met zijn hoofd. Hij weet niet wat "dat" is. Is het de stoel? De deken? De kamer? Omdat hij de vorige foto niet meer "onthoudt" of niet begrijpt dat je daar naar verwijst, geeft hij je misschien een foto van een oude bank of een raam. Hij zoekt op het verkeerde woord.

Dit is precies wat er gebeurt bij huidige beeldzoeksystemen. Mensen praten in zinnen die afhankelijk zijn van de context ("die scène", "dat ding", "deze keer"), maar computers houden vaak alleen vast aan wat je nu zegt, zonder de eerdere conversatie.

De oplossing: De "Vertaler" (ReCQR)
De auteurs van dit papier hebben een slimme oplossing bedacht die ze ReCQR noemen. Je kunt dit zien als het inhuren van een tolk of een secretaris tussen jou en de bibliothecaris.

  1. Jij spreekt: Je zegt tegen de tolk: "Heb je een foto van dat gezellige ding op de stoel?" (terwijl je naar een eerdere foto van een deken op een stoel wijst).
  2. De tolk denkt na: De tolk kijkt naar wat je eerder hebt gezegd en wat je nu zegt. Hij denkt: "Ah, hij bedoelt de deken op de stoel uit de vorige foto!"
  3. De tolk herschrijft: De tolk vertaalt jouw verwarde zin naar een perfecte, duidelijke zin voor de bibliothecaris: "Zoek een foto van een gezellige deken die over een stoel gedrapeerd is."
  4. De bibliothecaris zoekt: Nu kan de bibliothecaris (de zoekmachine) de perfecte foto vinden, omdat de opdracht eenduidig is.

Hoe hebben ze dit gebouwd?
De onderzoekers hebben een enorme "trainingschool" voor deze tolken gecreëerd, genaamd het ReCQR-dataset.

  • Ze hebben duizenden gesprekken nagebootst waarbij mensen naar foto's vragen.
  • Ze gebruikten super-slimme AI-modellen (zoals grote taalmodellen) om te oefenen hoe je die verwarde zinnen moet herschrijven.
  • Vervolgens hebben ze mensen ingeschakeld om te controleren of de herschreven zinnen wel echt logisch waren. Het resultaat is een database van 7.000 voorbeelden van "verwarde vraag" naar "duidelijke opdracht".

Wat hebben ze ontdekt?
Toen ze verschillende slimme computersystemen lieten trainen met deze nieuwe "tolk-school", zagen ze twee belangrijke dingen:

  1. Het werkt enorm goed: Systemen die eerst faalden op verwarde vragen, vonden nu veel betere foto's. De "tolk" maakte het verschil tussen een mislukte zoektocht en een succesvolle.
  2. Het is lastiger dan het lijkt: Het is makkelijker om een zin te herschrijven als je alleen naar tekst kijkt, dan als je ook naar foto's moet kijken. Het is alsof de tolk niet alleen moet luisteren, maar ook moet kijken naar de foto's die je eerder deelde om te begrijpen waar je over praat.

Conclusie
Kortom: Dit onderzoek laat zien dat als we een tussenstap toevoegen om onze verwarde, context-afhankelijke vragen om te zetten in duidelijke zoekopdrachten, we veel beter foto's kunnen vinden in gesprekken. Het is de sleutel om computers te laten begrijpen wat we echt bedoelen, niet alleen wat we letterlijk zeggen.