ReCQR: Incorporating conversational query rewriting to improve Multimodal Image Retrieval

该论文提出了将对话式查询重写(CQR)引入多模态图像检索领域,通过构建包含约 7000 条高质量多轮对话的 ReCQR 数据集,并利用大语言模型优化用户查询,显著提升了传统图像检索模型的准确率。

Yuan Hu, ZhiYu Cao, PeiFeng Li, QiaoMing Zhu

发布于 2026-03-31
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 ReCQR 的新项目,它的核心目的是让电脑更懂我们在聊天时“话没说完”的意思,从而帮我们更准确地找到想要的图片

为了让你轻松理解,我们可以把整个过程想象成**“在一家超级复杂的图书馆里找书”**。

1. 现在的困境:模糊的“暗语”

想象一下,你走进一家巨大的图书馆(现在的图片搜索引擎),你想找一张“昨天那场足球赛里,阴天时球员顶球的照片”。

  • 第一轮对话:你问图书管理员:“昨天那场球赛看了吗?”
    • 管理员(AI)说:“看了,很精彩。”
  • 第二轮对话:你接着说:“那……那个场景能给我看张图吗?”

问题出在哪?
如果你直接对电脑说“那个场景”,电脑会一脸懵。因为它不知道“那个场景”是指“晴天”还是“阴天”,是指“进球”还是“顶球”。现在的搜索引擎(像 CLIP 这种)很聪明,但如果你只给它一句没头没尾的“那个场景”,它就像个只会死记硬背的图书管理员,只能瞎猜,最后给你找出一堆完全不相干的图片。

2. 论文的解决方案:聪明的“翻译官” (CQR)

这篇论文提出了一种叫**“对话式查询重写” (Conversational Query Rewriting, CQR)** 的技术。

我们可以把这项技术想象成一位超级聪明的“翻译官”或“秘书”

  • 你的任务:你只需要像平时聊天一样,把没说完的话丢给这位秘书。
  • 秘书的工作:秘书会回头看你之前的聊天记录(上下文),把你那句模糊的“那个场景”,瞬间翻译成一句完整、清晰的话:“请给我找一张昨天足球赛里,阴天时球员顶球的图片。”
  • 最终结果:秘书把这句完整的话交给图书管理员(搜索引擎)。因为指令清晰了,管理员就能精准地找到那张照片。

3. 他们做了什么?(ReCQR 数据集)

为了训练这位“秘书”,作者们干了两件大事:

  1. 造了一个“模拟考场” (ReCQR 数据集)
    他们利用大模型(LLM)像造房子一样,生成了7000 个模拟的聊天场景。

    • 单图场景:就像上面说的,基于同一张图的对话。
    • 多图场景:更难的,比如你先聊了“厨房”,然后指着另一张图说“我要那种风格的”,这种跨图片的指代关系。
    • 人工把关:他们请了真人专家像“阅卷老师”一样,把那些翻译得不好、逻辑不通的对话全部挑出来扔掉,只留下最优质的 7000 条数据。
  2. 让“秘书”们去考试
    他们找了几位目前最厉害的 AI 模型(比如 Qwen, LLaVA, GLM 等)来当“秘书”,用这个数据集进行训练和测试。

4. 实验结果:效果惊人

测试结果就像一场大考,结论非常明确:

  • 不重写 vs. 重写:如果不经过“秘书”翻译,直接让 AI 去搜,准确率极低(就像在图书馆里乱撞)。一旦加上“重写”环节,准确率大幅提升
  • 单图 vs. 多图:在涉及多张图片的复杂对话中,AI 确实更难,但经过专门训练的模型依然能表现得很好。
  • 大模型的作用:那些经过专门“特训”(微调)的大模型,表现最好。它们学会了如何把“暗语”变成“明语”。

总结

简单来说,这篇论文就是给现在的图片搜索加了一个**“智能翻译器”**。

以前,你问 AI“那个”,AI 会晕;现在,这个翻译器会先帮你把“那个”补全成“昨天那个阴天的足球场景”,再交给 AI 去搜。这让我们的搜索体验从**“猜谜游戏”变成了“精准导航”**。

一句话概括
ReCQR 就像是一个懂上下文的神秘书籍管理员,它能把我们聊天时那些没头没尾的“暗语”,自动翻译成完整的指令,帮我们在海量图片中瞬间找到真正想要的那一张。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →