Founder effects shape the evolutionary dynamics of multimodality in open LLM families

이 논문은 오픈 LLM 패밀리에서 멀티모달리티가 드문 '창시자 사건'을 통해 도입된 후 해당 계보 내에서 급격히 확장되는 도약적 채택 역학을 보이며, 텍스트 생성 모델에서 멀티모달 모델로의 전이가 제한적임을 분석을 통해 규명했습니다.

Manuel Cebrian

게시일 2026-03-25
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"오픈 소스 거대 언어 모델 (LLM) 가족들 사이에서 '멀티모달 (텍스트+이미지 등)' 능력이 어떻게 생겨나고 퍼져나가는가?"**에 대한 흥미로운 연구 결과를 담고 있습니다.

저자 마누엘 세브리아는 이 현상을 생물학의 **'창시자 효과 (Founder Effect)'**라는 개념에 빗대어 설명합니다. 마치 새로운 섬에 정착한 소수의 개체들이 그 섬의 모든 생물의 조상이 되는 것처럼, AI 모델 세계에서도 소수의 '초기 모델'들이 멀티모달 능력의 문을 연 후, 그 자손들이 폭발적으로 늘어나는 현상을 발견한 것입니다.

이 복잡한 내용을 일상적인 비유로 쉽게 풀어서 설명해 드릴게요.


🌍 비유: "새로운 도시의 정착과 번식"

상상해 보세요. 거대한 'AI 도시 (오픈 소스 생태계)'가 있습니다. 이 도시에는 수백만 명의 주민 (모델) 이 살고 있는데, 대부분은 **'텍스트만 쓰는 사람 (문자 전용 모델)'**입니다. 그들은 편지를 쓰고, 소설을 쓰고, 코딩을 하지만, 사진은 못 봅니다.

그런데 어느 날, 이 도시의 한 구석에서 **'사진도 볼 수 있는 사람 (멀티모달 모델)'**이 소수 등장합니다.

1. 도시 전체는 이미 사진 보는 법을 알고 있었다

연구에 따르면, 이 'AI 도시'의 넓은 시장 (Hugging Face 전체) 에서는 사진 보는 기술이 이미 꽤 오래전부터 널리 퍼져 있었습니다. 마치 도시 전체에는 사진 찍는 카메라 가게가 이미 가득 차 있었던 것과 같습니다.

하지만, 주요 '문자 전용 가족들 (LLM Families)' 안에서는 상황이 달랐습니다.

  • 현상: 도시 전체에는 사진 기술이 있었지만, 유명한 '문자 가족' 집안 안에서는 2023 년까지도 사진 보는 사람이 거의 없었습니다.
  • 비유: 마치 "온 세상에 스마트폰이 다 있는데, 어떤 전통적인 가문에서는 2024 년까지도 아날로그 전화기만 쓰고 있었다가, 갑자기 2024~2025 년에 스마트폰을 쓰기 시작한 것"과 같습니다.

2. 왜 늦게 퍼졌을까? (창시자 효과)

그렇다면 왜 문자 가족들 안에서 사진 보는 사람이 갑자기 늘었을까요? 연구진은 **"문자 전용 사람이 노력해서 갑자기 사진 보는 사람이 된 게 아니다"**라고 말합니다.

  • 기존의 생각: "문자 전용 모델이 조금씩 훈련을 받아서, 어느 날 갑자기 사진도 볼 수 있게 변했을 것이다." (점진적인 진화)
  • 실제 발견: "아닙니다. **새로운 '사진 보는 조상 (Founder)'**이 갑자기 등장한 것입니다."
    • 문자 전용 부모 모델에서 자식이 갑자기 사진 보는 모델이 될 확률은 0.2% 미만으로 거의 불가능했습니다. (1000 명 중 2 명도 안 됩니다.)
    • 대신, 이미 사진 보는 부모 모델에서 태어난 자식은 94.5% 확률로 사진 보는 능력을 그대로 물려받았습니다.

🔑 핵심 비유:

문자 전용 가족이 갑자기 사진 보는 능력을 얻으려면, 마치 **"아무도 못 보는 안경을 쓰던 사람이 갑자기 안경을 만들어서 끼는 것"**처럼 매우 어렵고 드문 일입니다.
하지만 **이미 안경을 끼고 있는 사람 (VLM)**이 자식을 낳으면, 그 자식은 태어날 때부터 안경을 끼고 태어납니다. 그래서 한 번 '사진 보는 조상'이 나타나면, 그 가문은 순식간에 사진 보는 사람들로 가득 차게 됩니다.

3. 폭발적인 확산 (가문의 번성)

한 번 '사진 보는 조상 (예: LLaVA, Qwen-VL 같은 모델)'이 등장하면, 그 가문 안에서는 폭발적으로 번식합니다.

  • 비유: 한 마을에 '사진 전문가' 가문 하나가 정착하자, 그 가문의 자손들이 마을 구석구석에 퍼져나가고, 다른 가문에서는 거의 새로운 전문가가 나오지 않는 현상이 발생합니다.
  • 연구 결과, 주요 오픈 모델 가족들에서 멀티모달 모델이 등장할 때, 약 **60% 는 아예 부모 기록이 없는 '새로운 뿌리 (Root)'**로 등장했습니다. 즉, 기존 문자 모델에서 변형된 게 아니라, 완전히 새로운 모델이 '창시자'로 등장한 것입니다.

4. 결론: "점진적 진화가 아닌, '점프'와 '번식'"

이 논문은 오픈 소스 AI 의 발전이 "조금씩 나아지는 과정"이 아니라, **"드문 '기술적 점프 (창시자 등장)'가 일어나고, 그 뒤를 이어 그 가문 내에서 빠르게 퍼지는 과정"**이라고 설명합니다.

  • 문자 전용 모델이 멀티모달로 변하는 건 드문 '기적' 같은 사건입니다.
  • 하지만 이미 멀티모달인 모델이 자손을 낳는 건 매우 흔하고 빠른 일입니다.

💡 우리가 무엇을 배울 수 있을까요?

  1. 기술의 장벽: 텍스트만 다루던 모델에 갑자기 이미지 기능을 추가하는 건 매우 어렵습니다. 새로운 데이터 파이프라인과 구조적 변화가 필요하기 때문입니다.
  2. 미래 예측: 만약 우리가 "텍스트 모델에 이미지를 쉽게 붙일 수 있는 표준 도구 (레고 블록처럼)"를 만든다면, 이 '드문 창시자' 현상이 줄어들고 더 자연스럽게 기술이 퍼질 수 있을 것입니다. 하지만 현재는 여전히 소수의 '초기 모델'들이 문을 열고, 그 자손들이 세상을 채우는 방식입니다.

한 줄 요약:

"오픈 소스 AI 세계에서 멀티모달 능력은 '점진적인 진화'가 아니라, 드물게 등장한 소수의 '초기 모델 (창시자)'이 문을 열고, 그 가문 안에서 폭발적으로 번식하는 방식으로 퍼져나가고 있습니다."