Founder effects shape the evolutionary dynamics of multimodality in open LLM families

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"오픈 소스 거대 언어 모델 (LLM) 가족들 사이에서 '멀티모달 (텍스트+이미지 등)' 능력이 어떻게 생겨나고 퍼져나가는가?"**에 대한 흥미로운 연구 결과를 담고 있습니다.

저자 마누엘 세브리아는 이 현상을 생물학의 **'창시자 효과 (Founder Effect)'**라는 개념에 빗대어 설명합니다. 마치 새로운 섬에 정착한 소수의 개체들이 그 섬의 모든 생물의 조상이 되는 것처럼, AI 모델 세계에서도 소수의 '초기 모델'들이 멀티모달 능력의 문을 연 후, 그 자손들이 폭발적으로 늘어나는 현상을 발견한 것입니다.

이 복잡한 내용을 일상적인 비유로 쉽게 풀어서 설명해 드릴게요.

🌍 비유: "새로운 도시의 정착과 번식"

상상해 보세요. 거대한 'AI 도시 (오픈 소스 생태계)'가 있습니다. 이 도시에는 수백만 명의 주민 (모델) 이 살고 있는데, 대부분은 **'텍스트만 쓰는 사람 (문자 전용 모델)'**입니다. 그들은 편지를 쓰고, 소설을 쓰고, 코딩을 하지만, 사진은 못 봅니다.

그런데 어느 날, 이 도시의 한 구석에서 **'사진도 볼 수 있는 사람 (멀티모달 모델)'**이 소수 등장합니다.

1. 도시 전체는 이미 사진 보는 법을 알고 있었다

연구에 따르면, 이 'AI 도시'의 넓은 시장 (Hugging Face 전체) 에서는 사진 보는 기술이 이미 꽤 오래전부터 널리 퍼져 있었습니다. 마치 도시 전체에는 사진 찍는 카메라 가게가 이미 가득 차 있었던 것과 같습니다.

하지만, 주요 '문자 전용 가족들 (LLM Families)' 안에서는 상황이 달랐습니다.

현상: 도시 전체에는 사진 기술이 있었지만, 유명한 '문자 가족' 집안 안에서는 2023 년까지도 사진 보는 사람이 거의 없었습니다.
비유: 마치 "온 세상에 스마트폰이 다 있는데, 어떤 전통적인 가문에서는 2024 년까지도 아날로그 전화기만 쓰고 있었다가, 갑자기 2024~2025 년에 스마트폰을 쓰기 시작한 것"과 같습니다.

2. 왜 늦게 퍼졌을까? (창시자 효과)

그렇다면 왜 문자 가족들 안에서 사진 보는 사람이 갑자기 늘었을까요? 연구진은 **"문자 전용 사람이 노력해서 갑자기 사진 보는 사람이 된 게 아니다"**라고 말합니다.

기존의 생각: "문자 전용 모델이 조금씩 훈련을 받아서, 어느 날 갑자기 사진도 볼 수 있게 변했을 것이다." (점진적인 진화)
실제 발견: "아닙니다. **새로운 '사진 보는 조상 (Founder)'**이 갑자기 등장한 것입니다."
- 문자 전용 부모 모델에서 자식이 갑자기 사진 보는 모델이 될 확률은 0.2% 미만으로 거의 불가능했습니다. (1000 명 중 2 명도 안 됩니다.)
- 대신, 이미 사진 보는 부모 모델에서 태어난 자식은 94.5% 확률로 사진 보는 능력을 그대로 물려받았습니다.

🔑 핵심 비유:

문자 전용 가족이 갑자기 사진 보는 능력을 얻으려면, 마치 **"아무도 못 보는 안경을 쓰던 사람이 갑자기 안경을 만들어서 끼는 것"**처럼 매우 어렵고 드문 일입니다.
하지만 **이미 안경을 끼고 있는 사람 (VLM)**이 자식을 낳으면, 그 자식은 태어날 때부터 안경을 끼고 태어납니다. 그래서 한 번 '사진 보는 조상'이 나타나면, 그 가문은 순식간에 사진 보는 사람들로 가득 차게 됩니다.

3. 폭발적인 확산 (가문의 번성)

한 번 '사진 보는 조상 (예: LLaVA, Qwen-VL 같은 모델)'이 등장하면, 그 가문 안에서는 폭발적으로 번식합니다.

비유: 한 마을에 '사진 전문가' 가문 하나가 정착하자, 그 가문의 자손들이 마을 구석구석에 퍼져나가고, 다른 가문에서는 거의 새로운 전문가가 나오지 않는 현상이 발생합니다.
연구 결과, 주요 오픈 모델 가족들에서 멀티모달 모델이 등장할 때, 약 **60% 는 아예 부모 기록이 없는 '새로운 뿌리 (Root)'**로 등장했습니다. 즉, 기존 문자 모델에서 변형된 게 아니라, 완전히 새로운 모델이 '창시자'로 등장한 것입니다.

4. 결론: "점진적 진화가 아닌, '점프'와 '번식'"

이 논문은 오픈 소스 AI 의 발전이 "조금씩 나아지는 과정"이 아니라, **"드문 '기술적 점프 (창시자 등장)'가 일어나고, 그 뒤를 이어 그 가문 내에서 빠르게 퍼지는 과정"**이라고 설명합니다.

문자 전용 모델이 멀티모달로 변하는 건 드문 '기적' 같은 사건입니다.
하지만 이미 멀티모달인 모델이 자손을 낳는 건 매우 흔하고 빠른 일입니다.

💡 우리가 무엇을 배울 수 있을까요?

기술의 장벽: 텍스트만 다루던 모델에 갑자기 이미지 기능을 추가하는 건 매우 어렵습니다. 새로운 데이터 파이프라인과 구조적 변화가 필요하기 때문입니다.
미래 예측: 만약 우리가 "텍스트 모델에 이미지를 쉽게 붙일 수 있는 표준 도구 (레고 블록처럼)"를 만든다면, 이 '드문 창시자' 현상이 줄어들고 더 자연스럽게 기술이 퍼질 수 있을 것입니다. 하지만 현재는 여전히 소수의 '초기 모델'들이 문을 열고, 그 자손들이 세상을 채우는 방식입니다.

한 줄 요약:

"오픈 소스 AI 세계에서 멀티모달 능력은 '점진적인 진화'가 아니라, 드물게 등장한 소수의 '초기 모델 (창시자)'이 문을 열고, 그 가문 안에서 폭발적으로 번식하는 방식으로 퍼져나가고 있습니다."

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

대형 언어 모델 (LLM) 패밀리의 성능은 빠르게 향상되고 있으나, 오픈 소스 LLM 패밀리 내에서 멀티모달 (멀티모달리티) 능력이 어떻게 등장하고 전파되는지에 대한 메커니즘은 불명확합니다.

핵심 질문: 멀티모달리티는 텍스트 전용 (text-only) 체크포인트의 점진적인 적응 (incremental adaptation) 을 통해 자연스럽게 발생하는 것인가요? 아니면 드문 통합 사건을 통해 '창시자 (founder)' 모델이 등장한 후, 해당 계보 내에서 급격히 확장되는 것인가요?
배경: 오픈 생태계 (Hugging Face 등) 에서는 베이스 체크포인트를 미세 조정 (fine-tuning), 양자화, 병합 등을 통해 파생 모델이 대량 생성됩니다. 멀티모달리티는 텍스트 전용 개발과 달리 추가적인 데이터 파이프라인, 아키텍처 인터페이스, 평가 프로토콜이 필요하므로, 텍스트 전용 모델에서의 전파 방식이 다를 수 있다는 가설이 존재합니다.

2. 연구 방법론 (Methodology)

저자는 ModelBiome AI Ecosystem 데이터셋을 활용하여 거시적 생태계 분석을 수행했습니다.

데이터: 2025 년 7 월 기준 Hugging Face 의 공개 모델 메타데이터 186 만 개 ( $1.86 \times 10^6$ ) 및 기록된 부모 - 자식 계보 (lineage) 관계 302 만 개 ( $3.02 \times 10^6$ ).
분석 대상:
- 멀티모달리티 정의: 텍스트 - 이미지/오디오/비디오 태스크 (특히 이미지 - 텍스트 비전 - 언어 모델, VLM).
- 패밀리 식별: Transformer 아키텍처 기반의 주요 오픈 LLM 패밀리 (Diffusion 모델 제외).
- 계보 조건 전이율 (Lineage-conditioned transition rates): 부모 모델의 태스크 (텍스트 생성 vs VLM) 와 관계 유형 (미세 조정, 병합, 어댑터, 양자화) 을 기준으로 자식 모델의 태스크 변화를 분석.
통계적 기법: 월별 전이 확률 추정, 윌슨 점수 신뢰 구간 (Wilson score CI) 활용, 창시자 집중도 분석 (HHI 기반 유효 창시자 수 $N_{eff}$ ).

3. 주요 결과 (Key Results)

A. 생태계 전체 vs. 주요 LLM 패밀리 간의 시차 (Time Lag)

생태계 전체: Hugging Face 전체 생태계에서는 멀티모달 태스크가 초기부터 상당 수준 존재했습니다.
주요 LLM 패밀리: 주요 오픈 LLM 패밀리 내에서는 2023 년 말까지 멀티모달리티가 거의 없었으며, 2024 년 중반 이후 급격히 증가하기 시작했습니다.
지연 현상: 생태계 전반의 멀티모달 가용성과 패밀리 내 채택 사이에는 상당한 시차가 존재하며, 이는 주로 이미지 - 텍스트 (Vision-Language) 태스크에 의해 주도되었습니다.

B. 텍스트 전용에서 VLM 으로 전이하는 빈도의 극도로 낮음 (Weak Transfer)

전이율: 텍스트 생성 (text-generation) 부모 모델에서 VLM 자식 모델로의 전이는 매우 드뭅니다.
- 미세 조정 (Fine-tuning): 약 0.218% (22,928 개 중 50 개).
- 병합 (Merge): 약 0.104%, 양자화 (Quantization): 약 0.133%.
결론: 텍스트 전용 체크포인트를 기반으로 한 '점진적인 변환 (gradual conversion)' 메커니즘은 VLM 의 확산을 설명하지 못합니다.

C. VLM 계보 내에서의 강한 자기 복제 및 창시자 효과 (Founder Effects)

VLM 내 전파: VLM 부모 모델에서 VLM 자식 모델로의 전이는 매우 높게 유지됩니다 (미세 조정 시 약 65.9%).
창시자 구조:
- VLM 릴레이션의 약 **60%**는 기록된 부모가 없는 새로운 '루트 (root)'로 등장합니다.
- 나머지 VLM 의 **94.5%**는 기존 VLM 부모에서 파생된 것입니다.
- 집중도: 소수의 '창시자' 모델 (예: naver-clova-ix/donut-base, llava-v1.6-mistral-7b-hf 등) 이 하위 VLM 파생물의 대부분을 차지합니다. 상위 3 개 창시자가 VLM→VLM 미세 조정 에지의 약 49% 를 차지합니다.
패턴: 멀티모달리티는 드문 통합 사건 (창시자 등장) 을 통해 도입된 후, 해당 계보 내에서 급속히 증폭되고 분화되는 단속적 (punctuated) 확산 양상을 보입니다.

D. 주요 패밀리별 VLM 등장 지연

주요 LLM 패밀리 (Gemma, GLM 등) 에서 첫 텍스트 생성 릴리즈 이후 첫 VLM 변종이 등장하기까지 1 개월 (Gemma) 에서 26 개월 (GLM) 까지의 긴 지연 시간이 관찰되었습니다.

4. 핵심 기여 (Key Contributions)

진화적 메커니즘 규명: 오픈 LLM 패밀리에서 멀티모달리티 확산이 '점진적 적응'이 아니라 **'창시자 효과 (Founder Effects)'와 '단속적 평형 (Punctuated Equilibrium)'**에 의해 주도됨을 실증적으로 증명했습니다.
전이 장벽의 정량화: 텍스트 전용 모델에서 멀티모달 모델로의 전이가 기술적으로나 생태학적으로 매우 드물며 (0.2% 미만), 이는 멀티모달리티 도입에 추가적인 엔지니어링 비용과 통합 작업이 필요함을 시사합니다.
패밀리 내 확산 역학: 일단 VLM 창시자가 등장하면, 해당 계보 내에서 미세 조정, 양자화 등을 통해 빠르게 복제 및 확산되지만, 다른 텍스트 전용 계보로의 전파는 제한적임을 발견했습니다.

5. 의의 및 시사점 (Significance)

혁신 확산의 비선형성: 오픈 생태계에서 기술 혁신이 보편화되는 과정이 연속적이지 않고, 특정 '창시자' 모델의 등장과 그 후속 파생물들의 급증이라는 불연속적 패턴을 따름을 보여줍니다.
모듈화 및 표준화의 중요성: 텍스트 전용 모델의 개선 사항이 멀티모달 모델로 자연스럽게 전파되지 않는 이유는 아키텍처적 통합 비용 때문입니다. 따라서 비전 모듈을 부착하고 훈련하는 표준화된 저비용 방법 (예: 효율적인 어댑터, 양자화 인식 워크플로우) 이 개발된다면, 텍스트 - VLM 전이율이 높아질 수 있다는 예측을 제시합니다.
미래 예측: 현재와 같은 엔지니어링 장벽이 유지된다면, 멀티모달리티는 새로운 VLM 창시자가 등장할 때마다 '폭발 (burst)' 형태로 나타날 것이며, 기존 텍스트 기반 패밀리들의 점진적인 전환은 드물 것입니다.

요약

이 논문은 오픈 LLM 생태계에서 멀티모달리티가 텍스트 전용 모델의 자연스러운 진화가 아니라, 드문 '창시자' 모델의 등장과 이를 중심으로 한 계보 내 급속한 확산에 의해 형성됨을 데이터 기반으로 입증했습니다. 이는 멀티모달 기술의 확산이 생태계 전체의 가용성보다는 특정 계보의 진입 장벽과 창시자 효과에 의해 결정됨을 의미합니다.