MARS: Harmonizing Multimodal Convergence via Adaptive Rank Search

该论文提出了 MARS 方法,通过利用双缩放定律自动搜索最优秩组合,以平衡多模态大语言模型微调中的训练动态并消除负向干扰,从而在无需人工调整学习率的情况下显著提升性能。

Minkyoung Cho, Insu Jang, Shuowei Jin, Zesen Zhao, Adityan Jothi, Ethem F. Can, Min-Hung Chen, Z. Morley Mao

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 MARS(多模态自适应秩搜索)的新方法,旨在解决多模态大语言模型(MLLM)在微调过程中遇到的一个核心难题:“步调不一致”

为了让你轻松理解,我们可以把训练一个多模态大模型想象成组建一支“双人探险队”

1. 核心问题:探险队的“步调不一致”

想象你的探险队由两个人组成:

  • 视觉队员(Vision Encoder):负责看路、识别风景(处理图像)。
  • 语言队员(LLM):负责思考、讲故事、回答问题(处理文字)。

在训练(微调)过程中,你需要给这两个人分配不同的“学习装备”(在论文中称为 LoRA Rank,你可以理解为装备的灵活度或容量)。

  • 旧方法的问题:以前,大家通常给两个人发完全一样的装备,或者凭感觉(试错法)去调整他们的“学习速度”(学习率)。
    • 情况 A(视觉太慢):如果视觉队员装备太笨重,他走得很慢,语言队员再聪明也没用,因为没人能看懂眼前的风景。整个队伍就被拖慢了,甚至因为语言队员等不及而开始乱跑(训练震荡)。
    • 情况 B(语言太慢):如果语言队员装备太笨重,他跟不上视觉队员的节奏。视觉队员已经把风景看透了,语言队员还在发呆,导致队伍配合失调,最后学不到东西。

这种步调不一致(Imbalanced Training Dynamics)会导致最终的成绩(准确率)很差。

2. MARS 的解决方案:智能的“装备分配师”

MARS 就像一个超级智能的装备分配师。它不再盲目地给两人发一样的装备,也不靠猜,而是通过一套**“双定律”**来精准计算:

第一定律:收敛定律(Scaling Law-C)—— “谁需要多久才能学会?”

  • 比喻:这就像在计算两个人分别需要跑多少圈才能到达终点。
  • 作用:MARS 发现,装备越灵活(Rank 越大),学会新东西就越快;数据越多,需要的时间就越长。
  • 操作:MARS 利用这个定律,先排除掉那些会让两人“步调严重不一致”的装备组合。比如,如果它算出“视觉队员用大装备、语言队员用小装备”会导致视觉队员跑得太快而语言队员跟不上,它就直接把这个组合扔掉。这就把原本巨大的搜索空间砍掉了一大半

第二定律:性能定律(Scaling Law-P)—— “哪种组合成绩最好?”

  • 比喻:在剩下的那些“步调一致”的组合里,哪一组能跑出最好的成绩?
  • 作用:MARS 预测哪种装备搭配能让最终的探险成果(任务准确率)最高。
  • 操作:它从剩下的候选者中,选出那个既能步调一致,又能拿高分的最佳组合。

3. 为什么 MARS 很厉害?(三大优势)

  1. 不再靠“试错”(不用盲目撞墙)

    • 以前的方法像“盲人摸象”,要试几百种装备组合,每种都要跑很久才能知道行不行,既费钱又费时。
    • MARS 像看地图导航,它先通过“双定律”预测,直接锁定最佳路线,省去了 90% 以上的无用功。
  2. 不仅快,而且准

    • 实验结果显示,MARS 找到的装备组合,让模型在科学问答(ScienceQA)上的准确率提高了 12%,在理解能力测试(LLaVA Bench)上的表现也大幅提升。
    • 更重要的是,它把寻找最佳装备的时间缩短了 11.5 倍!这意味着以前需要跑一个月的实验,现在几天就能搞定。
  3. 自动适应各种情况

    • 不管你的数据是多是少,不管你的模型是强是弱,MARS 都能动态调整。
    • 小数据时:它会给视觉队员配更灵活的装备,让他快速吸收有限的知识。
    • 大数据时:它会稍微收敛一下,防止视觉队员“用力过猛”导致死记硬背(过拟合),让语言队员能更好地消化信息。

4. 总结

MARS 的核心思想就是:
在多模态模型训练中,“配合”比“单兵作战”更重要

以前我们要么给两人发一样的装备,要么靠运气调整速度。现在,MARS 通过数学预测,自动找到让“看图的”和“说话的”两个人步调完美同步的最佳装备组合。

一句话总结:MARS 就像一位经验丰富的教练,它不需要让队员盲目奔跑,而是通过计算,给每个人分配最合适的鞋子,让整支队伍以最快的速度、最稳的步伐冲向终点。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →