Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于人工智能（AI）模型如何“进化”的有趣故事，特别是关于它们如何从只懂文字变成既懂文字又懂图片（多模态）的过程。

作者 Manuel Cebrian 通过观察 Hugging Face 上超过 180 万个 AI 模型的数据，发现了一个反直觉的现象：多模态能力（看图说话）并不是像“温水煮青蛙”那样慢慢从纯文字模型里进化出来的，而是像“外星移民”一样，偶尔突然出现几个“始祖”，然后迅速繁衍成一大片。

为了让你更容易理解，我们可以用**“开餐厅”和“家族遗传”**来打比方：

1. 核心发现：不是“慢慢改良”，而是“突然移民”

通常的想象：大家可能认为，既然现在有很多只懂文字的 AI 模型（比如只会写诗的），那么只要给它们加一点图片训练，它们就会慢慢变成既能写诗又能看图的 AI。这就像一家只卖汉堡的店，慢慢开始卖薯条，最后变成全餐店。
实际的情况：研究发现，在那些著名的开源 AI 模型家族里，这种情况极少发生。
- 把“纯文字模型”微调成“图文模型”的概率极低（只有约 0.2%）。这就像你很难把一家只卖汉堡的店，通过简单的装修，直接变成一家能卖海鲜大餐的高级餐厅。
- 真正的模式是：偶尔会有几个全新的、一开始就设计成“图文双修”的**“始祖模型”**（Founders）横空出世。一旦这些“始祖”出现，它们就会迅速“生儿育女”，衍生出成千上万个类似的“图文后代”。

2. 时间差：外面的世界很热闹，家里却很冷清

比喻：想象整个 AI 世界是一个巨大的**“美食集市”**。
- 在集市的角落里，早就有很多卖“图文套餐”的小摊贩了（这是整个生态系统的现状）。
- 但是，那些著名的、大品牌的**“连锁餐厅”**（主要的开源 LLM 家族，比如 Llama, Gemma 等），直到最近（2024-2025 年）才开始大规模推出图文套餐。
- 结论：外面的世界早就有了图文能力，但这些大模型家族却“反应迟钝”，直到最近才突然跟上。

3. 家族遗传：近亲繁殖，远亲难融

比喻：AI 模型之间也有“父母”和“孩子”的关系（通过微调、合并等技术产生）。
- 文字转图文（跨物种）：如果父母是“纯文字”的，孩子变成“图文”的概率极低。这就像父母都是只会说中文的人，孩子突然开始流利地说法语，这种情况非常罕见。
- 图文转图文（近亲繁殖）：如果父母已经是“图文”的，那么孩子几乎肯定也是“图文”的。这就像父母都是厨师，孩子大概率也会做饭。
- 数据支持：在所有的“图文后代”中，94.5% 的父母也是“图文”模型。只有不到 5% 是来自“纯文字”父母的。

4. 创始人效应：几个“超级祖先”统治了世界

比喻：想象一个**“超级家族”**。
- 虽然有很多新的“图文始祖”出现，但其中只有极少数几个特别厉害（比如论文中提到的 donut-base 等模型），它们就像家族的“老祖宗”。
- 后来出现的成千上万个“图文模型”，绝大多数都是这几个“老祖宗”的直系后代（通过微调、量化等技术衍生出来的）。
- 这就解释了为什么多模态能力的爆发看起来是**“突然的”**（Punctuated）：因为只要几个关键的“始祖”出现了，它们的后代就会像病毒一样迅速扩散，填满整个家族。

5. 为什么会出现这种情况？

作者认为，从“纯文字”变成“图文”，不仅仅是加一点数据那么简单，它需要：

全新的架构（就像要把汉堡店改成海鲜餐厅，需要换厨房设备）。
新的数据管道（需要处理图片，而不仅仅是文字）。
新的评估标准（怎么判断它看图看得准不准？）。

这些门槛太高了，导致普通的“微调”操作（就像给汉堡加个酱）无法完成这种跨越。只有专门的、高难度的“集成工程”才能创造出新的“图文始祖”。

总结

这篇论文告诉我们，AI 多模态能力的发展不是通过无数个小步改良慢慢积累起来的，而是：

偶尔出现几个高难度的“图文始祖”（Founder Events）。
然后，这些始祖通过快速繁衍（在家族内部微调），迅速占据了主流。
普通的“纯文字”模型很难直接“进化”成“图文”模型，它们更像是被“新物种”取代或绕过。

一句话概括：AI 多模态的爆发，不是靠“老树发新芽”，而是靠“新树种”的突然引入和疯狂繁殖。

Each language version is independently generated for its own context, not a direct translation.

论文技术总结：创始者效应如何塑造开放大语言模型家族中的多模态进化动态

1. 研究背景与问题 (Problem)

大型语言模型（LLM）家族在参数、数据和算力规模的推动下迅速进步，但其多模态能力（特别是图像 - 文本推理）如何在开放模型生态系统中涌现和传播，尚不明确。

核心矛盾：多模态模型（VLMs）需要额外的数据管道、架构接口和评估协议，这是否意味着它们是通过文本生成模型的常规微调（incremental adaptation）逐步演化而来，还是通过罕见的“创始者事件”（founder events）引入，随后在家族内部快速扩散？
研究目标：利用大规模数据集量化多模态能力在时间上的演变，以及沿着记录的父母 - 子代（parent-to-child）关系线的传播机制，揭示开放 LLM 家族中多模态扩散的真实动力学。

2. 方法论 (Methodology)

本研究基于 ModelBiome AI Ecosystem 数据集（2025 年 7 月快照），该数据集包含：

数据规模：约 $1.86 \times 10^6$ 个 Hugging Face 模型条目，以及 $3.02 \times 10^6$ 条有向的谱系（lineage）关系边。
数据来源：模型元数据、任务标签（pipeline tags）、模型卡片（model cards）以及记录的父母 - 子代关系（如微调、合并、适配器、量化）。
关键定义：
- VLM（视觉语言模型）：定义为具有图像 - 文本任务标签（如 image-to-text, image-text-to-text）的模型。
- 开放 LLM 家族：通过名称模式识别的基于 Transformer 的模型家族（排除扩散模型）。
分析策略：
1. 时间趋势分析：对比整个生态系统与主要 LLM 家族内部多模态标签的出现时间。
2. 谱系条件转移率：计算不同关系类型（微调、合并等）下，从“纯文本”父母到"VLM"子代的转移概率。
3. 创始者集中度分析：分析 VLM 子代的来源，区分是源自新的根节点（无记录父母）还是现有 VLM 谱系的延续，并计算有效创始者数量（ $N_{eff}$ ）。

3. 主要发现与结果 (Key Results)

A. 生态系统与家族内部的“时间滞后”

现象：跨模态任务在广泛的 Hugging Face 生态系统中很早就已普遍存在，但在主要开放 LLM 家族内部，多模态能力直到 2023 年及 2024 年大部分时间都极其罕见。
转折点：多模态能力在 2024-2025 年间急剧增加，且主要由图像 - 文本任务主导。
滞后性：主要家族中第一个 VLM 变体通常比第一个文本生成版本晚出现数月甚至数年（例如 GLM 家族滞后约 26 个月，Gemma 家族滞后约 1 个月）。

B. 文本到多模态的转移极其罕见 (Weak Cross-Type Transfer)

低转移率：在记录的关系中，从“文本生成”父母到"VLM"子代的转移率极低。
- 微调（Fine-tuning）：仅 0.218% (50/22,928)。
- 合并（Merge）：0.104%。
- 量化（Quantization）：0.133%。
结论：多模态能力并非通过常规的文本模型微调逐步演化而来。文本模型到 VLM 的转换是偶发性事件（episodic），而非渐进式趋势。

C. 谱系内的“创始者效应”主导扩散 (Founder-Driven Expansion)

VLM 内部的高保留率：一旦谱系进入多模态状态，其子代极大概率保持多模态。
- 94.5% 的 VLM 子代微调边源自 VLM 父母。
- 相比之下，仅 4.7% 源自文本生成父母。
根节点现象：约 60% 的 VLM 发布作为没有记录父母的“新根”出现。
集中与分化：VLM 的扩散呈现典型的创始者效应模式：
- 少数几个“创始者”模型（如 naver-clova-ix/donut-base, llava-hf/llava-v1.6-mistral-7b-hf）产生了绝大多数的下游 VLM 变体。
- 早期由少数高复用创始者主导，随后在谱系内部快速放大并逐渐多样化。

D. 时间分辨的动态特征

文本到 VLM 的转移率在 2024 年底有短暂的小幅上升，但随后回落至接近零，并未呈现持续增长的“渐进转化”趋势。
相反，VLM 到 VLM 的保留率始终保持在高位（通常 $\ge 0.75$ ），表明多模态能力的传播主要发生在已建立的 VLM 谱系内部。

4. 核心贡献 (Key Contributions)

量化了多模态扩散的机制：首次通过大规模谱系数据证明，开放 LLM 家族中的多模态能力并非由文本模型平滑演化而来，而是由罕见的跨谱系集成事件（创始者事件）引入，随后在谱系内部快速复制。
揭示了“去耦合”现象：证明了生态系统层面的多模态可用性（Global Supply）与主要 LLM 家族内部的采用（Family-level Adoption）之间存在显著的时间解耦和瓶颈。
提出了“创始者效应”理论框架：将生物学中的“创始者效应”和“间断平衡”（Punctuated Equilibrium）概念引入 AI 模型进化研究，解释了为何创新扩散呈现爆发式而非线性增长。
提供了实证数据支持：基于 180 万 + 模型条目和 300 万 + 关系边，提供了关于模型微调、合并和量化过程中任务转移概率的精确统计。

5. 意义与启示 (Significance)

对技术发展的理解：多模态能力的引入不仅仅是文本模型的简单扩展，它需要更高复杂度的集成步骤（如视觉编码器与语言骨干的架构对接、多模态数据管道）。因此，标准的微调操作难以自动实现从文本到多模态的跨越。
对未来的预测：
- 如果社区开发出标准化的、低摩擦的视觉模块附加方法（如高效的适配器 LoRA、量化感知工作流），文本到 VLM 的转移率可能会上升。
- 如果多模态仍需定制化的工程管道，增长将继续由“创始者”驱动，表现为新 VLM 发布后的爆发式扩散，而非现有文本分支的缓慢转化。
对生态系统的启示：创新在开放模型生态中的传播具有强烈的路径依赖（Path Dependence）。早期的成功 VLM 创始者会成为下游衍生的主要通道，导致创新集中在少数谱系中。这意味着单纯改进文本模型的性能，若不进行显式的多模态集成工作，不会自动转化为多模态能力的提升。

总结：该论文通过大规模数据分析，揭示了开放 LLM 家族中多模态进化的**“间断性”和“谱系依赖性”**特征。多模态能力是通过罕见的“创始者”事件引入，随后在家族内部通过高频的微调和衍生迅速扩散，而非通过文本模型的渐进式微调自然演化。这一发现为理解 AI 模型的进化动力学提供了新的理论视角。

Founder effects shape the evolutionary dynamics of multimodality in open LLM families