MMLoP: Multi-Modal Low-Rank Prompting for Efficient Vision-Language Adaptation

本文提出了 MMLoP 框架,通过低秩分解实现仅含 1.15 万可训练参数的多模态深层提示学习,并辅以一致性损失、漂移校正和共享上投影等组件,在保持参数高效性的同时显著提升了视觉 - 语言模型在少样本任务中的性能与泛化能力。

Sajjad Ghiasvand, Haniyeh Ehsani Oskouie, Mahnoosh Alizadeh, Ramtin Pedarsani

发布于 2026-02-26
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种名为 MMLoP 的新方法,旨在让大型人工智能模型(特别是像 CLIP 这样的“视觉 - 语言”模型)更聪明、更灵活,同时不消耗太多计算资源

为了让你轻松理解,我们可以把整个故事想象成**“如何训练一位超级管家”**。

1. 背景:超级管家与昂贵的装修

想象你家里有一位超级管家(CLIP 模型)。他读过世界上所有的书,看过所有的画,知识渊博,能一眼认出各种东西(比如看到一张狗的照片,就能立刻联想到“狗”这个词)。

  • 问题:当你想让他帮你做一件具体的新任务(比如“帮我整理家里的旧照片,找出所有猫的照片”)时,传统的做法是重新装修整个房子(全量微调)。但这不仅花钱(计算资源巨大),还容易把管家原本广博的知识给“洗脑”了,让他忘了其他东西,变得只会认猫,认不出别的。
  • 旧方案(提示学习 Prompt Learning):聪明的研究人员发现,与其装修房子,不如给管家写一张便条(Prompt/提示)。比如告诉他:“现在的任务是找猫”。这样既不用动房子,也能让他完成新任务。
    • 早期的便条:只写在纸上(只改文本),简单便宜,但效果一般。
    • 后来的便条:为了效果更好,大家开始在房子的每个房间(每一层神经网络)都贴便条,甚至给管家看图片时也在旁边贴便条(多模态深度提示)。效果确实好了很多,但便条贴得太满,导致需要记住的便条内容(参数)多到爆炸,又回到了“装修房子”那么贵的地步。

2. 核心创新:MMLoP 的“低秩魔法”

MMLoP 的作者提出了一个绝妙的想法:我们能不能既保留“在每个房间贴便条”的高效果,又把便条的数量压缩回“只写一张纸”的便宜程度?

答案是:低秩分解(Low-Rank Factorization)

  • 比喻
    • 以前的做法:每个房间贴一张全新的、巨大的海报(全参数),上面写满了复杂的指令。
    • MMLoP 的做法:只准备几块通用的乐高积木(低秩因子)
      • 在每一个房间,我们只用这几块积木出不同的便条。
      • 因为积木很少(参数极少),所以成本极低(只有 1.15 万个参数,和最早期的简单方法一样少)。
      • 但因为是在每个房间都拼,所以效果依然很好(深度多模态提示)。

3. 三大“防走火”神器

仅仅用积木拼便条,可能会因为积木太少,拼不出想要的复杂形状(表达能力不足),或者拼歪了(过拟合,只认训练过的东西,认不出新东西)。为了解决这个问题,MMLoP 加了三个“防走火”的保险措施:

A. 自我调节的一致性损失 (Self-Regulating Consistency Loss)

  • 比喻“锚定”
  • 解释:当管家在拼积木时,容易飘到太远的地方,忘了自己原本是谁。这个方法就像给管家系了一根安全绳,把他拉回原本的知识库。
  • 作用:无论怎么调整便条,都要确保管家对“狗”和“猫”的基本理解,和原本那个博学的超级管家保持一致,防止他为了适应新任务而“走火入魔”。

B. 均匀漂移修正 (Uniform Drift Correction)

  • 比喻“去噪”
  • 解释:有时候,管家在适应新任务时,会不由自主地给所有东西都加上一层奇怪的“滤镜”(比如觉得所有东西都偏红一点)。这种偏差不分青红皂白,对所有类别都一样,对区分“猫”和“狗”没有帮助,反而有害。
  • 作用:这个方法能精准地把这种通用的“滤镜”擦掉,只保留真正有用的、能区分不同类别的特征。

C. 共享上投影 (Shared Up-Projection)

  • 比喻“双语翻译官”
  • 解释:以前,给管家看的“图片便条”和“文字便条”是各写各的,互不沟通。MMLoP 强制它们共用同一套核心积木(共享因子)
  • 作用:这迫使图片理解和文字理解必须步调一致。就像让翻译官在翻译图片和文字时,必须用同一套核心逻辑,这样图片和文字就能更好地“对齐”,互相促进,而不用增加额外的成本。

4. 结果:花小钱办大事

作者用 11 个不同的数据集(就像 11 种不同的家务活)测试了这个方法:

  • 效率:它只用了1.15 万个可训练参数(就像只用了很少的乐高积木)。
  • 效果:它的表现打败了很多需要几百万甚至几千万参数(需要几万个乐高积木)的竞争对手。
  • 通用性:它不仅能在熟悉的任务上做得好,还能很好地适应从未见过的“新任务”(泛化能力强),就像管家不仅能整理旧照片,还能立刻学会整理新买的玩具。

总结

MMLoP 就像是一个精明的管家训练师。他不再给管家买昂贵的定制家具(全量微调),也不再贴满整个房子的巨大海报(高参数提示)。相反,他教管家用极少量的通用积木,在房子的每个角落灵活地拼出最合适的指令,同时用安全绳去噪器确保管家不跑偏。

最终结果是:用极低的成本,达到了顶尖的智商。 这证明了在人工智能领域,有时候“少即是多”,参数少不代表能力弱,关键在于如何巧妙地设计。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →