CREM: Compression-Driven Representation Enhancement for Multimodal Retrieval and Comprehension

本文提出了 CREM 框架,通过压缩驱动的提示设计与训练策略,在保持多模态大语言模型生成能力的同时,显著提升了其在基于嵌入的检索任务中的性能。

Lihao Liu, Yan Wang, Biao Yang, Da Li, Jiangxia Cao, Yuxiao Luo, Xiang Chen, Xiangyu Wu, Wei Yuan, Fan Yang, Guiguang Ding, Tingting Gao, Guorui Zhou

发布于 2026-02-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 CREM 的新模型,它的核心目标是解决人工智能领域的一个大难题:如何让一个 AI 既擅长“找东西”(检索),又擅长“聊天画画”(生成),而不需要在两者之间做“二选一”的牺牲。

为了让你更容易理解,我们可以把现在的 AI 世界想象成一个图书馆

1. 现状:两个互不往来的“专家”

在 CREM 出现之前,图书馆里通常有两种截然不同的专家:

  • 图书管理员(检索模型): 他记忆力超群,能在几亿本书里瞬间找到你需要的任何一本。但他是个“哑巴”,你问他“这本书讲了什么故事?”,他只能给你一张索引卡片,说不出任何生动的描述。
  • 故事大王(生成模型): 他才华横溢,能根据一张图片讲出精彩的故事,或者回答各种复杂的问题。但他记性不好,如果你让他从几亿本书里找特定的那一本,他可能会找错,或者根本找不到。

以前的做法: 如果你想让“故事大王”变成“图书管理员”,通常得对他进行“特训”(微调)。但这就像让一个擅长写诗的人去背电话号码,结果往往是:他背会了电话号码,但写诗的能力却退化了,甚至忘了怎么说话。这就叫**“顾此失彼”**。

2. CREM 的解决方案:给大脑装个“超级压缩包”

CREM 提出了一种全新的思路。它认为,无论是“找书”还是“讲故事”,大脑都需要先理解图片的核心内容。

CREM 发明了一种叫**“合唱团令牌”(Chorus Tokens)的机制。你可以把它想象成“超级压缩包”“精华摘要”**。

  • 原来的情况: 一张高清图片包含成千上万个像素点(就像一本书有几千页)。AI 处理这些信息时,就像要读完几千页书才能回答一个问题,既慢又累。
  • CREM 的做法: 它训练 AI 把这张几千页的书,瞬间压缩成16 个“精华关键词”(这就是那 16 个“合唱团令牌”)。
    • 这 16 个词,既包含了图片的所有关键信息(足以让 AI 去图书馆精准找书),又保留了足够的细节(足以让 AI 根据这些词讲出精彩的故事)。

3. 核心魔法:压缩驱动的训练

CREM 最厉害的地方在于它的训练方式,它用了一个巧妙的**“压缩驱动”**策略:

  • 以前的训练: 让 AI 分别学习“怎么找书”和“怎么说话”,这两个任务互不干扰,甚至互相打架。
  • CREM 的训练:
    1. 强制压缩: 在训练时,它强迫 AI 必须只用那 16 个“精华词”来理解图片。
    2. 双重任务: 它一边让 AI 用这 16 个词去“找书”(检索任务),一边让 AI 用这 16 个词去“讲故事”(生成任务)。
    3. 互相促进: 神奇的事情发生了!为了让“找书”更准,AI 必须把“精华词”提炼得更精准;而为了“讲故事”更生动,AI 又必须确保这些“精华词”里保留了足够的细节。结果就是,这两个任务互相帮衬,让 AI 的“大脑”变得更聪明、更全能。

4. 实际效果:一鱼两吃

实验结果表明,CREM 做到了以前做不到的事:

  • 找书能力(检索): 它在著名的 MMEB 测试中拿到了第一名,比那些专门只练“找书”的模型还要强。
  • 讲故事能力(生成): 它完全没有变笨!在回答复杂问题、看图说话的任务上,它依然保持了顶级水平,几乎没有退化。
  • 省内存: 因为 AI 只需要记住那 16 个“精华词”而不是几千个像素点,所以在处理长视频或复杂图片时,它的内存占用大大减少,运行速度更快。

总结

想象一下,CREM 就像是一个既懂“速记”又懂“演讲”的超级助手

  • 当你需要它找资料时,它把复杂的图片瞬间压缩成几个核心要点,精准定位。
  • 当你需要它写报告时,它又能基于这几个核心要点,展开丰富的联想,娓娓道来。

这篇论文告诉我们:“压缩”不仅仅是为了省空间,它其实是一种让 AI 更深刻理解世界、同时兼顾多种能力的强大方法。 这就像把一本厚厚的百科全书压缩成一张“思维导图”,既方便携带(检索快),又保留了所有智慧(生成强)。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →