Rethinking the Mixture of Vision Encoders Paradigm for Enhanced Visual Understanding in Multimodal LLMs

该论文通过系统研究混合视觉编码器(MoVE)的融合设计,提出了一种名为 LEO 的轻量级架构,其采用独立投影器后融合、图块级序列交错及动态分块全局上下文等策略,在 11 个视觉语言基准测试和自动驾驶领域均展现出优于现有方法的性能与泛化能力。

Mozhgan Nasr Azadani, James Riddell, Sean Sedwards, Krzysztof Czarnecki

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Leo 的新人工智能模型,它能让电脑“看懂”图片的能力变得更强、更聪明。为了让你轻松理解,我们可以把现在的多模态大模型(能看图说话的 AI)想象成一个正在学习看世界的学生

1. 现在的学生遇到了什么困难?

以前的 AI 学生(现有的多模态模型)虽然很聪明,但在看高清大图(比如复杂的地图、密密麻麻的文档、或者需要看清细节的街景)时,就像让一个近视眼学生戴着度数不够的眼镜去读小字。

  • 问题:为了看清细节,图片必须被切得很碎,或者把图片压缩得很小,导致细节丢失。
  • 现状:有些聪明的学生尝试戴两副眼镜(使用多个视觉编码器)来互补,但怎么把两副眼镜看到的画面拼在一起,大家还在摸索,有的拼得乱七八糟,有的拼得太慢。

2. Leo 的三大“独门秘籍”

作者通过大量实验,发现了一套让 AI 学生“开窍”的简单配方,他们称之为 Leo。这就好比给这个学生配了一套完美的学习工具:

秘籍一:动态切图 + 全局视野(Tiled MoVE)

  • 比喻:想象你要看一张巨大的城市地图。
    • 旧方法:要么把整张地图缩成一个小点(看不清细节),要么把地图切成很多小块,但切法很死板(比如不管地图是长是宽,都切成一样的方块,导致有的地方切多了,有的切少了)。
    • Leo 的方法:它像一位聪明的裁缝。它会根据地图的形状(是长方形还是正方形),动态地把地图切成大小合适的碎片。同时,它还会保留一张缩略图(全局视野),让你既知道“森林”在哪里,又能看清“树叶”的纹理。
    • 效果:既保留了高清细节,又不会让大脑(计算机内存)累垮。

秘籍二: interleaving(交错编织)

  • 比喻:假设你有两个专家,一个擅长认路(编码器 A),一个擅长认人(编码器 B)。现在要把他们说的话拼成一段话。
    • 旧方法:让专家 A 说完一整段,再让专家 B 说完一整段(先说完路,再说人)。这样 AI 容易把路和人搞混,或者中间断了联系。
    • Leo 的方法:采用**“你一句,我一句”**的交错模式。专家 A 说“前面有棵树”,专家 B 马上接“那是棵橡树”;A 说“左边有辆车”,B 接“那是红色的”。
    • 效果:这种**“编织”**的方式让视觉信息融合得更紧密,AI 能瞬间把“树”和“红色”联系起来,理解得更透彻。

秘籍三:先翻译,再开会(Post-adaptation Fusion)

  • 比喻:想象两个来自不同国家的外国专家(两个视觉编码器)要一起给老板(大语言模型)汇报工作。
    • 旧方法:让两个专家直接用各自的方言(原始特征)吵架或讨论,然后再让老板来翻译。老板听得云里雾里,容易误解。
    • Leo 的方法:给每个专家配一个专属翻译官(独立的项目器)。专家先把自己的话翻译成老板能听懂的“通用语”,然后再坐在一起开会讨论。
    • 效果:老板(AI 核心)听到的都是清晰、统一的信息,而且保留了每个专家独特的视角,不会混淆。

3. Leo 有多厉害?

  • 全能选手:在 11 个不同的测试任务中(比如读复杂的图表、识别文档里的文字、理解科学图表),Leo 的表现超过了大多数现有的“多专家”模型。
  • 举一反三:最有趣的是,作者没有专门为自动驾驶重新训练 Leo。直接把这套“看世界”的方法用在开车场景上,Leo 就能立刻理解:
    • “前面有行人,该停车了。”
    • “这辆车在逆行,很危险。”
    • 它甚至能数清楚路边停了几辆车,或者识别出路牌上的文字。
  • 省资源:虽然它看得很细,但它用的计算资源(显卡算力)比那些笨重的“巨无霸”模型要少得多。就像它用更聪明的方法,而不是靠堆砌硬件来变强。

4. 总结

这篇论文的核心思想是:有时候,把复杂的问题拆解,用简单、巧妙的组合方式(动态切图 + 交错编织 + 独立翻译),比单纯堆砌更复杂的算法更有效。

Leo 就像是一个戴着智能眼镜、拿着记事本、懂得如何高效协作的超级观察员。它不需要变成巨人,就能看清世界的每一个角落,无论是复杂的文档、精细的图表,还是瞬息万变的自动驾驶路况。

一句话概括:Leo 教会了 AI 如何像人类一样,既能“管中窥豹”看清细节,又能“纵观全局”把握整体,而且是用一种最省力、最高效的方式做到的。