Efficient Discriminative Joint Encoders for Large Scale Vision-Language Reranking

该论文提出了 EDJE,一种通过离线预计算并压缩视觉特征来消除在线推理瓶颈的高效判别式联合编码器,在保持大规模视觉 - 语言重排序性能的同时,显著降低了存储需求并实现了高吞吐量的推理速度。

Mitchell Keren Taraday, Shahaf Wagner, Chaim Baskin

发布于 2026-02-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 EDJE 的新方法,旨在解决一个非常实际的问题:如何让电脑在海量图片中快速、精准地找到你描述的那一张?

想象一下,你手里有一张写着“一只穿着红色雨衣在雨中跳舞的柯基犬”的纸条,你想在几百万张图片里找到它。

1. 以前的困境:要么慢,要么笨

目前的搜索系统通常分两步走:

  1. 粗筛(Embedding):先用一个“快但有点傻”的模型,把几百万张图都变成简单的“指纹”存起来。当你输入文字时,它先快速比对,挑出前 100 张最像的图。这很快,但不够准,可能会把“穿红衣服的狗”和“穿红衣服的人”搞混。
  2. 精排(Re-ranking):为了更准,我们需要一个“超级大脑”(联合编码器,Joint Encoder)来仔细看看这 100 张图和你的文字到底像不像。

问题出在哪?
以前的“超级大脑”(比如 BLIP 模型)虽然很聪明,能看懂细节,但它太慢了,而且太占地方

  • :它每次看一张图,都要像做全套体检一样,把图片的每一个像素都重新分析一遍。如果你要检查 100 张图,它得累死,根本来不及在几秒钟内给你结果。
  • 占地方:为了存这些“体检报告”(图片特征),需要巨大的硬盘空间。

这就好比:你想在图书馆找书。以前的方法是,每来一个读者,图书管理员都要把书架上所有书都搬下来,一页页翻一遍看内容(太慢!)。

2. EDJE 的绝招:提前“预习” + “浓缩精华”

EDJE 的核心思想非常巧妙,它把“做体检”和“看病”分开了,并且发明了一种“浓缩胶囊”。

第一步:离线“预习” (Pre-computation)

EDJE 不再让“超级大脑”在用户搜索时去现场看图片。相反,它提前把几百万张图片都分析了一遍,把分析结果(图片特征)存到了硬盘上。

  • 比喻:就像图书管理员在闭馆前,已经把所有书的内容都读了一遍,并写好了详细的“内容摘要”贴在书脊上。

第二步:压缩“精华胶囊” (Token Compression)

但是,直接把所有“内容摘要”存下来,硬盘还是不够用(因为摘要太长了)。
EDJE 发明了一个智能压缩器(Adapter)。它能把一张图原本几百个字的“冗长摘要”,压缩成几十个字的“精华胶囊”

  • 比喻:原本一本书有 500 页的笔记,EDJE 把它提炼成了 64 个“关键词标签”。这 64 个标签保留了书里最核心的故事(比如“柯基”、“红雨衣”、“跳舞”),去掉了无关紧要的废话。

第三步:在线“极速诊断” (Online Inference)

当用户输入“穿红雨衣跳舞的柯基”时:

  1. 系统先快速挑出前 100 张候选图。
  2. 系统从硬盘里把这 100 张图的"64 个关键词胶囊”取出来。
  3. 一个轻量级的小模型(就像一个小医生)把这些“胶囊”和用户的文字放在一起,瞬间就能判断出哪张图最匹配。
  • 比喻:现在,图书管理员不需要翻书了。他只需要看一眼书脊上的"64 个关键词”,就能在 0.1 秒内告诉你哪本书最符合你的要求。

3. 效果如何?

  • 速度快得惊人:EDJE 每秒能处理 5 万对图片和文字!比以前的方法快了53 倍
  • 省空间:以前存一张图的特征可能需要几兆,现在只需要49 千字节(大概相当于几行文字的大小)。
  • 依然很准:虽然它只看了“精华胶囊”,但在找图准确率上,它和那些笨重的大模型打得有来有回,甚至在某些测试中更好。

总结

这篇论文就像是在说:

“以前我们为了找东西,要么用笨办法(慢),要么用费钱的办法(占硬盘)。现在,我们学会了提前把东西整理好,并提炼出最核心的‘梗概’。这样,当你需要时,只需要看一眼‘梗概’,就能瞬间找到答案,既快又省,还特别准。”

这就是 EDJE:让大规模的图片搜索变得像翻通讯录一样简单、快速且经济。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →