Compression then Matching: An Efficient Pre-training Paradigm for Multimodal Embedding

本文提出了名为 CoMa 的新范式,通过引入压缩预训练阶段作为对比学习的预热,仅用少量数据即可将多模态大语言模型高效转化为在 MMEB 基准上达到同等规模模型最先进性能的嵌入模型。

Da Li, Yuxiao Luo, Keping Bi, Jiafeng Guo, Wei Yuan, Biao Yang, Yan Wang, Fan Yang, Tingting Gao, Guorui Zhou

发布于 2026-02-26
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 CoMa(Compression then Matching,先压缩后匹配)的新方法,旨在让多模态大模型(既能看图又能读文的 AI)变得更擅长“理解”和“检索”信息,而且更省钱、更省数据

为了让你轻松理解,我们可以把整个过程想象成**“培养一个超级图书管理员”**的故事。

1. 背景:现在的 AI 有什么痛点?

想象一下,你有一个非常聪明的图书管理员(多模态大模型,MLLM)。

  • 它的强项:它能写诗、能聊天、能根据图片写故事(生成能力很强)。
  • 它的弱项:如果你让它去图书馆里快速找到“所有关于黄色仓鼠吃糖果”的书,它可能会慢吞吞的,或者找不准重点。

以前的方法(对比学习)就像是直接把这个管理员扔进一个巨大的图书馆,让他通过成千上万次的“找书”练习来变强。但这需要海量的数据巨大的算力,就像让管理员背下整个图书馆的目录,效率很低。

2. CoMa 的核心思想:先“压缩”,再“匹配”

作者认为,要做一个好的图书管理员,需要两步走:

  1. 全面理解(压缩):先把书里的内容读透,提炼出核心精华。
  2. 精准匹配:在有人问问题时,能迅速从精华里找到答案。

以前的方法试图一步到位,既要求理解又要求匹配,结果往往顾此失彼,或者需要海量数据。
CoMa 的做法是:把这两步拆开,先专门练“压缩”能力。

3. 具体是怎么做的?(三个步骤)

第一步:压缩预训练(“做笔记”阶段)

这是 CoMa 最创新的地方。

  • 场景:给管理员看一张图(比如一只黄色的仓鼠),然后问它一系列复杂的问题(“仓鼠是什么颜色?”“它在做什么?”“如果它吃糖果会怎样?”)。
  • 关键机制
    • 在图片和问题之间,插入了一组特殊的**“压缩令牌”(你可以把它们想象成“智能摘要贴纸”**)。
    • 作者设计了一个规则:管理员在回答问题时,只能看这些“摘要贴纸”,不能直接看原图。
    • 目的:这迫使管理员必须把图片里所有重要的信息(颜色、动作、细节)都浓缩进这几张小小的“贴纸”里。如果贴纸没记全,它就答不上来。
  • 数据魔法:以前这种方法需要人工写很多高质量的问题和答案。CoMa 发明了一个**“自动出题机”**(利用大模型自己生成多轮对话),让 AI 自己给自己出题、自己找答案。这样就不需要大量人工数据了,大大降低了成本。

第二步:对比学习(“找书”阶段)

  • 经过第一步的“做笔记”训练后,管理员已经学会了如何把一张复杂的图浓缩成几个核心“贴纸”。
  • 现在,进入正式的“找书”训练。当用户问“找一张黄色仓鼠的图”时,管理员不再需要重新看图,而是直接提取之前练好的**“压缩贴纸”**作为代表,去和数据库里的其他“贴纸”进行比对。
  • 因为“贴纸”已经提炼了精华,所以匹配速度极快,准确率也高。

4. 为什么这个方法很厉害?(比喻总结)

  • 以前的方法:像是在教学生背整本字典,然后让他去猜谜语。虽然也能猜对,但太累了,需要背很多书(海量数据)。
  • CoMa 的方法
    1. 先教学生**“做思维导图”**(压缩预训练):不管问题多复杂,先学会把核心信息画在一张小卡片上。
    2. 再教学生**“用卡片找书”**(对比学习):只要看小卡片就能快速找到目标。
  • 结果
    • 数据少:只需要别人 10% 的训练数据就能达到同样甚至更好的效果。
    • 效率高:省去了大量计算资源,就像用“小抄”代替了“背诵全书”。
    • 效果好:在复杂的检索任务(比如找特定细节的图片)上,表现超越了之前的顶尖模型。

5. 核心结论

这篇论文告诉我们,不要试图让 AI 一次性学会所有事
通过引入一个**“压缩预训练”的中间环节,让 AI 先学会如何“去粗取精”地理解信息,然后再去进行“精准匹配”**,就能用更少的数据、更低的成本,训练出更聪明的多模态检索模型。

这就好比,与其让一个侦探背下全城所有的监控录像,不如先训练他学会如何快速提取关键线索,然后再去破案,效率自然大大提升。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →