Beyond Language Modeling: An Exploration of Multimodal Pretraining

이 논문은 Transfusion 프레임워크를 활용한 원천 멀티모달 사전학습 실험을 통해 시각적 표현의 최적화, 언어와의 시너지, 세계 모델링의 자연스러운 등장, 그리고 MoE 아키텍처를 통한 언어와 비주얼 데이터 간의 스케일링 비대칭성 해결이라는 네 가지 핵심 통찰을 제시합니다.

Shengbang Tong, David Fan, John Nguyen, Ellis Brown, Gaoyue Zhou, Shengyi Qian, Boyang Zheng, Théophane Vallaeys, Junlin Han, Rob Fergus, Naila Murray, Marjan Ghazvininejad, Mike Lewis, Nicolas Ballas, Amir Bar, Michael Rabbat, Jakob Verbeek, Luke Zettlemoyer, Koustuv Sinha, Yann LeCun, Saining Xie

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"언어 모델 (LLM) 의 한계를 넘어, 시각과 언어를 하나로 통합한 차세대 AI 를 어떻게 만들 것인가?"**에 대한 답을 제시합니다.

기존의 AI 는 책만 읽어서 세상을 배웠다면, 이 연구는 **"눈을 뜨고 세상을 직접 보며 배우는 AI"**를 만드는 방법을 찾았습니다. 마치 동굴에 갇혀 벽에 비친 그림자 (글자) 만 보던 사람이, 동굴 밖으로 나가 실제 사물과 빛을 직접 경험하는 것과 같습니다.

이 복잡한 연구를 일상적인 비유로 쉽게 설명해 드릴게요.


1. 핵심 아이디어: "눈과 입을 하나로 합치자"

기존 AI 는 글을 배우는 '입'만 훈련시켰습니다. 하지만 이 연구는 시각 (눈) 과 언어 (입) 를 동시에 훈련시키는 '통합 모델'을 만들었습니다.

  • 비유: 과거의 AI 는 요리 레시피 (글자) 만 외워서 요리를 하려 했지만, 이 새로운 AI 는 실제 재료를 보고 만지면서 (시각) 레시피도 읽으며 (언어) 요리를 배웁니다. 그래서 재료가 어떻게 변하는지, 냄새는 어떤지 더 잘 이해하게 됩니다.

2. 네 가지 주요 발견 (비유로 설명)

① "한 가지 눈으로 모든 것을 보자" (RAE)

기존에는 '이해'를 위한 눈과 '생성' (그림 그리기) 을 위한 눈이 따로 있었습니다. 마치 안경을 두 개씩 끼고 다니는 것처럼 복잡했죠.

  • 발견: 연구진은 **RAE(표현 오토인코더)**라는 기술을 써서, 단 하나의 눈으로 그림을 이해하고 그리는 것을 동시에 잘하게 만들었습니다.
  • 비유: 마치 한 쌍의 선글라스를 끼고 있으면서도, 낮에는 선명하게 보고 밤에는 별자리도 잘 볼 수 있는 '만능 안경'을 개발한 것과 같습니다.

② "글과 영상은 서로 돕는 친구" (상호 보완성)

많은 사람이 "영상을 많이 보면 글쓰기 실력이 떨어지지 않을까?"라고 걱정했습니다.

  • 발견: 전혀 그렇지 않았습니다. 오히려 영상 데이터를 함께 학습하면 글쓰기 실력은 그대로 유지되면서, 그림을 그리는 능력과 세상 이치를 이해하는 능력이 훨씬 좋아졌습니다.
  • 비유: 요리사에게 레시피 (글) 만 주는 게 아니라, 실제 요리하는 영상 (시각) 도 함께 보여주니, 레시피를 더 잘 이해하고 더 맛있는 요리를 만들게 된 것입니다.

③ "세상을 예측하는 능력 (World Modeling) 은 자연스럽게 생긴다"

AI 에게 로봇이 움직이는 법을 가르치려면 엄청난 양의 로봇 데이터가 필요할 거라고 생각했습니다.

  • 발견: 하지만 일반적인 영상과 글을 많이 학습시키면, 별도의 로봇 데이터 없이도 "앞으로 가면 벽에 부딪힌다"거나 "계단을 내려가야 한다"는 물리 법칙을 자연스럽게 깨우칩니다.
  • 비유: 아이가 TV 나 유튜브를 많이 보면, 직접 놀이터에 가지 않아도 "공을 차면 굴러간다"는 물리 법칙을 자연스럽게 알게 되는 것과 같습니다.

④ "효율적인 전문가 팀 (MoE)"

글을 배우는 데는 많은 '머리'가 필요하고, 영상을 배우는 데는 많은 '데이터'가 필요합니다. 이 두 가지를 한 모델에 넣으면 서로 방해할까요?

  • 발견: **MoE(혼합 전문가)**라는 기술을 써서 해결했습니다. 이는 마치 한 회사에 다양한 전문가 팀을 둔 것과 같습니다.
    • 글을 다룰 때는 '글 전문가' 팀이 나옵니다.
    • 영상을 다룰 때는 '영상 전문가' 팀이 나옵니다.
    • 둘이 섞일 때는 '복합 전문가' 팀이 나옵니다.
  • 효과: 이렇게 하면 컴퓨터 자원 (전력) 을 아끼면서도, 언어와 시각이라는 서로 다른 특성을 가진 두 가지 능력을 모두 최고 수준으로 키울 수 있습니다.

3. 결론: 왜 이것이 중요한가?

이 연구는 **"AI 가 더 이상 책만 읽지 않고, 세상을 직접 보고 경험하며 배울 수 있다"**는 것을 증명했습니다.

  • 기존: 책만 읽어서 그림자를 이해함 (Plato 의 동굴 비유).
  • 이제: 동굴 밖으로 나가 실제 사물을 보고, 물리 법칙을 깨우치고, 자연어 명령으로 로봇을 조종할 수 있음.

이 기술이 발전하면, 우리가 "저기 나무 뒤에 숨어 있는 고양이를 찾아줘"라고 말했을 때, AI 가 단순히 글자만 분석하는 게 아니라 실제 나무의 그림자, 고양이의 움직임, 공간감까지 고려하여 찾아내는 진정한 '세계 모델'을 만들 수 있게 될 것입니다.

한 줄 요약:

"글만 읽던 AI 에게 눈을 뜨게 하고, 다양한 영상과 언어를 함께 가르쳐 세상을 직접 이해하고 예측하는 똑똑한 친구로 만든 연구입니다."