Founder effects shape the evolutionary dynamics of multimodality in open LLM families

Each language version is independently generated for its own context, not a direct translation.

Imagine que o mundo dos modelos de Inteligência Artificial (IA) é como uma floresta gigante de árvores.

Cada "família" de IA (como Llama, Gemma ou Qwen) é uma dessas árvores. Antigamente, essas árvores só sabiam "falar" (processar texto). Mas agora, elas estão aprendendo a "ver" e a "falar" ao mesmo tempo (processar imagens e texto). Isso é o que chamamos de multimodalidade.

O artigo que você enviou investiga como essa nova habilidade de "ver" se espalhou por essa floresta. E a descoberta principal é surpreendente: não foi uma evolução lenta e gradual. Foi mais como uma invasão de sementes raras que cresceram muito rápido.

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Fenômeno do "Fundador" (A Semente Rara)

Na biologia, o "efeito fundador" acontece quando um pequeno grupo de animais se isola e cria uma nova população. No mundo das IAs, os pesquisadores descobriram que a capacidade de ver e falar (os modelos VLMs) não surgiu de todas as árvores de texto de uma vez.

A Analogia: Imagine que você tem um bosque de árvores que só produzem maçãs (texto). De repente, uma única árvore mutante nasce que consegue produzir maçãs e laranjas (texto e imagem).
O que aconteceu: Essa "árvore mutante" (o modelo fundador) foi muito rara. Ela apareceu de vez em quando, como um evento especial. Não foi que todas as árvores de maçã começaram a tentar produzir laranjas aos poucos. Foi que, quando uma árvore nova nascia com essa capacidade, ela se tornou a "mãe" de uma nova linhagem.

2. O Atraso da Floresta (Por que demorou?)

O estudo mostra que, no "mundo todo" da internet (o ecossistema do Hugging Face), as IAs que misturam imagem e texto já existiam há muito tempo. Mas dentro das grandes famílias famosas (como as da Google, Meta, etc.), elas demoraram anos para aparecer.

A Analogia: Pense em uma cidade grande onde todo mundo já usa smartphones com câmeras (o ecossistema geral). Mas, dentro de um bairro muito tradicional e fechado (as grandes famílias de IA), ninguém tinha câmera até que, de repente, um morador trouxe um smartphone novo. Só depois disso, todos os vizinhos desse morador começaram a usar câmeras também.
A Realidade: As grandes famílias de IA ficaram "cegas" por muito tempo, mesmo que a tecnologia já estivesse disponível lá fora. A mudança só aconteceu quando um "fundador" entrou na família.

3. A Dificuldade de "Trocar de Camisa" (A Barreira Técnica)

O estudo analisou milhões de conexões entre modelos "pais" e "filhos". Eles queriam saber: "Se eu pegar um modelo que só sabe escrever e der um 'ajuste fino' (fine-tuning) nele, ele vira um modelo que vê imagens?"

A Analogia: É como tentar transformar um carro de corrida (que só anda em pista de asfalto/texto) em um jato (que voa e vê o mundo/imagens) apenas trocando o óleo.
O Resultado: Quase nunca funciona. A chance de um modelo de texto virar um modelo de visão apenas com ajustes comuns é de menos de 0,2%. É como tentar transformar um carro em um avião apenas pintando-o de azul.
O que realmente acontece: Quando um modelo de visão nasce, ele tende a ter "filhos" que também são modelos de visão. A habilidade de ver é preservada e multiplicada dentro da própria família, mas é muito difícil entrar nessa família vindo de fora (do mundo do texto puro).

4. A Explosão Repentina (O Efeito Dominó)

Assim que um "fundador" (o primeiro modelo que vê e fala) é criado dentro de uma família, ele se multiplica rapidamente.

A Analogia: Imagine que um único coelho mutante (que consegue voar) é solto em uma colônia de coelhos normais. Ele não se mistura com todos de uma vez. Mas, ele cria uma ninhada de coelhos voadores. Esses coelhos voadores, por sua vez, criam mais coelhos voadores. Em pouco tempo, a colônia inteira tem coelhos voadores, mas todos eles descendem daquele primeiro coelho raro.
No Papel: Os dados mostram que 94,5% dos novos modelos que veem imagens vêm de pais que também veem imagens. Apenas uma fração minúscula vem de pais que só escrevem.

Resumo da História

A evolução da multimodalidade nas IAs não foi um rio que aumentou de água devagar. Foi como chuvas torrenciais.

Eventos Raros: De tempos em tempos, alguém cria um "modelo fundador" incrível que consegue ver e falar.
Explosão Local: Esse modelo se torna o "avô" de centenas de outros modelos que também veem e falam.
Barreira: É muito difícil para um modelo que só sabe escrever "virar" um modelo de visão por conta própria. É preciso uma grande engenharia (uma nova semente) para entrar no jogo.

Por que isso importa?
Isso significa que, se você quer que uma grande família de IAs aprenda a ver, não basta apenas "ajustar" os modelos de texto existentes. É preciso criar novos "fundadores" (modelos base com visão integrada). E uma vez que esses fundadores existem, a tecnologia se espalha muito rápido dentro daquela família específica, criando uma divisão entre quem tem a habilidade e quem não tem.

Each language version is independently generated for its own context, not a direct translation.

1. Problema e Contexto

O artigo investiga como as capacidades multimodais (especificamente a integração de visão e texto) emergem e se propagam dentro do ecossistema de Grandes Modelos de Linguagem (LLMs) de código aberto.

O Dilema: Embora existam avanços rápidos em modelos fundacionais e um ecossistema aberto de "derivados" (fine-tuning, fusão, quantização) no Hugging Face, não está claro se a multimodalidade surge através da adaptação incremental de checkpoints puramente textuais ou através de eventos de integração raros que criam novos "fundadores" multimodais.
Hipótese de Trabalho: A pergunta central é se a multimodalidade se espalha gradualmente a partir de modelos de texto (conversão contínua) ou se segue uma dinâmica de "efeito fundador", onde eventos raros de criação de modelos fundadores (VLMs) são seguidos por uma rápida expansão dentro de suas próprias linhagens.

2. Metodologia

Os autores utilizaram uma abordagem baseada em dados em escala de ecossistema:

Dataset: Utilizaram o conjunto de dados ModelBiome AI Ecosystem (snapshot de julho de 2025), contendo 1,86 milhões de entradas de modelos do Hugging Face e 3,02 milhões de relações diretas de linhagem (parente-filho).
Definições:
- VLM (Vision-Language Model): Modelos com pipeline tags de tarefas imagem-texto (ex: image-to-text, image-text-to-text).
- Famílias de LLM: Identificadas por padrões de model_id baseados em nomes dentro de arquiteturas Transformers (excluindo pipelines de difusão).
Análises Realizadas:
1. Tendências Temporais: Comparação do surgimento de tarefas multimodais no ecossistema geral versus dentro de famílias específicas de LLMs.
2. Taxas de Transição Condicionadas à Linhagem: Cálculo da probabilidade de um modelo filho ser multimodal dado que o pai é textual (e vice-versa), categorizado por tipo de relação (fine-tuning, merging, adapters, quantização).
3. Análise de Estrutura de Fundadores: Investigação de quantos modelos VLMs surgem como "raízes" (sem pais registrados) versus derivados, e a concentração de descendentes em torno de poucos pais fundadores.
Estatística: Uso de intervalos de confiança de 95% (Wilson score) para proporções e medidas de diversidade (número efetivo de fundadores, $N_{eff}$ ).

3. Principais Contribuições e Resultados

A. Atraso na Adoção Familiar vs. Ecossistema

Descoberta: Tarefas multimodais são comuns no ecossistema geral do Hugging Face muito antes de se tornarem prevalentes dentro das grandes famílias de LLMs abertos.
Dinâmica: A multimodalidade permaneceu rara nas principais famílias de LLMs até 2023 e grande parte de 2024, com um aumento abrupto apenas em 2024–2025.
Dominância: O aumento é impulsionado quase exclusivamente por tarefas de visão-texto, e não por áudio ou vídeo.

B. Baixa Transferência de Checkpoints de Texto para VLMs

Transição Rara: A conversão direta de modelos de geração de texto para VLMs através de fine-tuning é extremamente rara.
- Apenas 0,218% das arestas de fine-tuning com pais de texto geram filhos VLMs.
- Taxas similares são observadas em fusões (merges) e quantização.
Persistência de Linhagem: Uma vez que uma linhagem se torna multimodal, a probabilidade de manter essa característica é alta.
- 94,5% das arestas de fine-tuning que resultam em VLMs têm pais que já são VLMs.
- Apenas 4,7% vêm de pais de texto.
Conclusão: A expansão não ocorre por conversão gradual de modelos de texto, mas sim por reprodução dentro de linhagens já multimodais.

C. Dinâmica de Efeito de Fundador (Founder Effects)

Surgimento como Raízes: Aproximadamente 60% dos lançamentos de VLMs aparecem como novas raízes sem pais registrados, indicando eventos de integração independentes e complexos.
Amplificação Rápida: Após o surgimento de um fundador VLM, ocorre uma amplificação rápida e concentrada dentro de sua linhagem.
- Um pequeno número de pais fundadores domina a descendência. Por exemplo, o modelo naver-clova-ix/donut-base sozinho é responsável por 28,2% de todas as arestas de descendência VLM→VLM.
- Os top 3 fundadores respondem por quase 49% das conexões.
Padrão Punctuado: A adoção segue uma dinâmica "punctuada": eventos raros de criação de fundadores seguidos por rápida difusão interna, em vez de uma adoção linear e contínua.

4. Significado e Implicações

Mecanismo de Inovação: A evolução da multimodalidade em LLMs abertos é moldada por efeitos de fundador. A introdução de capacidades multimodais requer uma etapa de integração de alta complexidade (pipelines de dados, interfaces arquiteturais entre codificadores visuais e backbones de linguagem) que não é capturada por operações derivativas rotineiras como fine-tuning simples.
Desacoplamento de Adoção: A disponibilidade global de artefatos multimodais não se traduz automaticamente em difusão dentro de famílias específicas. O "gargalo" é a criação de mecanismos de ponte para essas árvores de linhagem.
Dependência de Caminho (Path Dependence): Os fundadores VLMs bem-sucedidos tornam-se condutos desproporcionalmente importantes para derivativos futuros, concentrando a inovação subsequente em poucas linhagens.
Previsões Futuras:
- Se a comunidade desenvolver interfaces padronizadas e de baixo atrito para anexar módulos visuais (ex: adapters eficientes, fluxos de trabalho conscientes de quantização), as taxas de transição de texto para VLM devem aumentar.
- Caso contrário, o crescimento continuará dominado pela reprodução dentro de linhagens VLM existentes e entradas periódicas de novos fundadores.
Limitações: O estudo depende de metadados autorrelatados (que podem estar incompletos) e de tags de tarefas (que podem ser ruidosas), servindo como indicadores de uso pretendido em nível de ecossistema, e não necessariamente de capacidade técnica verificada por benchmarks.

Conclusão

O artigo demonstra que a multimodalidade em famílias de LLMs abertos não é o resultado de uma evolução incremental suave a partir de modelos de texto. Em vez disso, ela é caracterizada por eventos de integração raros que estabelecem novos fundadores, seguidos por uma expansão rápida e concentrada dentro dessas linhagens específicas. Isso sugere que a inovação multimodal é estruturalmente diferente da evolução de modelos puramente textuais, sendo limitada pela complexidade da integração inicial e pela dependência de linhagem.