Founder effects shape the evolutionary dynamics of multimodality in open LLM families

该研究基于 Hugging Face 海量模型元数据发现,开源大模型家族中的多模态能力并非通过跨模态微调广泛传播,而是由罕见的“奠基者”事件引入,随后在特定的视觉 - 语言谱系内部迅速扩增,呈现出独特的间断性采纳动态。

Manuel Cebrian

发布于 2026-03-25
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于人工智能(AI)模型如何“进化”的有趣故事,特别是关于它们如何从只懂文字变成既懂文字又懂图片(多模态)的过程。

作者 Manuel Cebrian 通过观察 Hugging Face 上超过 180 万个 AI 模型的数据,发现了一个反直觉的现象:多模态能力(看图说话)并不是像“温水煮青蛙”那样慢慢从纯文字模型里进化出来的,而是像“外星移民”一样,偶尔突然出现几个“始祖”,然后迅速繁衍成一大片。

为了让你更容易理解,我们可以用**“开餐厅”“家族遗传”**来打比方:

1. 核心发现:不是“慢慢改良”,而是“突然移民”

  • 通常的想象:大家可能认为,既然现在有很多只懂文字的 AI 模型(比如只会写诗的),那么只要给它们加一点图片训练,它们就会慢慢变成既能写诗又能看图的 AI。这就像一家只卖汉堡的店,慢慢开始卖薯条,最后变成全餐店。
  • 实际的情况:研究发现,在那些著名的开源 AI 模型家族里,这种情况极少发生
    • 把“纯文字模型”微调成“图文模型”的概率极低(只有约 0.2%)。这就像你很难把一家只卖汉堡的店,通过简单的装修,直接变成一家能卖海鲜大餐的高级餐厅。
    • 真正的模式是:偶尔会有几个全新的、一开始就设计成“图文双修”的**“始祖模型”**(Founders)横空出世。一旦这些“始祖”出现,它们就会迅速“生儿育女”,衍生出成千上万个类似的“图文后代”。

2. 时间差:外面的世界很热闹,家里却很冷清

  • 比喻:想象整个 AI 世界是一个巨大的**“美食集市”**。
    • 在集市的角落里,早就有很多卖“图文套餐”的小摊贩了(这是整个生态系统的现状)。
    • 但是,那些著名的、大品牌的**“连锁餐厅”**(主要的开源 LLM 家族,比如 Llama, Gemma 等),直到最近(2024-2025 年)才开始大规模推出图文套餐。
    • 结论:外面的世界早就有了图文能力,但这些大模型家族却“反应迟钝”,直到最近才突然跟上。

3. 家族遗传:近亲繁殖,远亲难融

  • 比喻:AI 模型之间也有“父母”和“孩子”的关系(通过微调、合并等技术产生)。
    • 文字转图文(跨物种):如果父母是“纯文字”的,孩子变成“图文”的概率极低。这就像父母都是只会说中文的人,孩子突然开始流利地说法语,这种情况非常罕见。
    • 图文转图文(近亲繁殖):如果父母已经是“图文”的,那么孩子几乎肯定也是“图文”的。这就像父母都是厨师,孩子大概率也会做饭。
    • 数据支持:在所有的“图文后代”中,94.5% 的父母也是“图文”模型。只有不到 5% 是来自“纯文字”父母的。

4. 创始人效应:几个“超级祖先”统治了世界

  • 比喻:想象一个**“超级家族”**。
    • 虽然有很多新的“图文始祖”出现,但其中只有极少数几个特别厉害(比如论文中提到的 donut-base 等模型),它们就像家族的“老祖宗”。
    • 后来出现的成千上万个“图文模型”,绝大多数都是这几个“老祖宗”的直系后代(通过微调、量化等技术衍生出来的)。
    • 这就解释了为什么多模态能力的爆发看起来是**“突然的”**(Punctuated):因为只要几个关键的“始祖”出现了,它们的后代就会像病毒一样迅速扩散,填满整个家族。

5. 为什么会出现这种情况?

作者认为,从“纯文字”变成“图文”,不仅仅是加一点数据那么简单,它需要:

  • 全新的架构(就像要把汉堡店改成海鲜餐厅,需要换厨房设备)。
  • 新的数据管道(需要处理图片,而不仅仅是文字)。
  • 新的评估标准(怎么判断它看图看得准不准?)。

这些门槛太高了,导致普通的“微调”操作(就像给汉堡加个酱)无法完成这种跨越。只有专门的、高难度的“集成工程”才能创造出新的“图文始祖”。

总结

这篇论文告诉我们,AI 多模态能力的发展不是通过无数个小步改良慢慢积累起来的,而是:

  1. 偶尔出现几个高难度的“图文始祖”(Founder Events)。
  2. 然后,这些始祖通过快速繁衍(在家族内部微调),迅速占据了主流。
  3. 普通的“纯文字”模型很难直接“进化”成“图文”模型,它们更像是被“新物种”取代或绕过。

一句话概括:AI 多模态的爆发,不是靠“老树发新芽”,而是靠“新树种”的突然引入和疯狂繁殖。