A Step Toward Federated Pretraining of Multimodal Large Language Models

이 논문은 프라이버시 민감한 분산된 멀티모달 데이터를 활용한 사전 학습의 한계를 해결하기 위해, 로컬 프로젝터의 파라미터 간섭과 그래디언트 진동을 극복하는 'Fed-CMP'라는 새로운 페더레이션 프레임워크를 제안하고 그 우수성을 입증합니다.

Baochen Xiong, Yifan Xu, Xiaoshan Yang, Yaguang Song, Yaowei Wang, Changsheng Xu

게시일 2026-03-31
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🌟 핵심 주제: "비밀을 지키며 함께 배우는 AI"

1. 문제 상황: "데이터라는 보물상자가 잠겨 있다"
지금까지 AI 는 인터넷에 공개된 엄청난 양의 이미지와 텍스트 데이터를 먹고 자라왔습니다. 하지만 이제 좋은 공개 데이터가 거의 다 떨어졌습니다.
그런데 생각해보세요! 우리 각자의 스마트폰, 병원, 학교에는 AI 가 배울 수 있는 아주 풍부하고 다양한 데이터들이 가득합니다. 하지만 개인정보 보호법 때문에 이 데이터들은 서로 섞일 수 없는 '잠긴 상자 (데이터 실로)' 속에 갇혀 있습니다.

2. 기존 해결책의 한계: "모두를 한곳에 모으는 건 위험하다"
이 잠긴 상자들을 열어 AI 를 훈련시키려면, 보통은 모든 데이터를 한곳으로 모아야 합니다. 하지만 이건 사생활 침해 문제가 되고, 데이터 양도 너무 많아 처리하기 힘듭니다.
그래서 등장한 것이 **'연방 학습 (Federated Learning)'**입니다. 데이터를 한곳으로 모으지 않고, 각자의 기기에서 학습시킨 뒤 '학습 결과'만 공유하는 방식입니다. 마치 "수업 내용을 공유하되, 학생들의 개인 일기는 공개하지 않는 것"과 같습니다.

3. 새로운 도전: "AI 의 '초등학교' 과정이 아직 없다"
기존 연방 학습 연구는 AI 가 이미 어느 정도 배운 상태에서 '세부 조정 (파인튜닝)'을 하는 데만 집중했습니다. 하지만 AI 가 제대로 말하고 그림을 이해하려면, 처음부터 기본기를 다지는 '프리트레이닝 (Pre-training)' 과정이 필수적입니다.
이 논문은 바로 이 가장 기초적인 단계를 여러 사람의 기기를 통해 함께 훈련시키는 방법을 처음 제안합니다.


🛠️ 해결책: "Fed-CMP"라는 새로운 교실

저자들은 이 새로운 방식에서 두 가지 큰 문제를 발견했습니다.

❌ 문제 1: "서로 다른 방향을 향한 혼란" (파라미터 간섭)

각 학생 (기기) 이 배우는 데이터가 다릅니다. A 학생은 '고양이' 사진만 보고, B 학생은 '자동차' 사진만 봅니다.

  • 기존 방식: 각자가 배운 내용을 단순히 평균내면, 고양이와 자동차를 섞어서 "고양이처럼 생긴 자동차" 같은 엉뚱한 개념이 만들어집니다. 서로의 방향이 달라서 서로를 방해하는 효과가 발생합니다.
  • 해결책 (CRA): 저자들은 **'공통 언어 (Canonical Space)'**를 만들었습니다.
    • 모든 학생이 배운 내용을 '공통된 기준 (기초)'과 '각자만의 특징 (계수)'으로 나눕니다.
    • 그리고 누가 더 잘 배웠는지 신뢰도를 따져서, 잘 배운 학생의 의견에 더 가중치를 둡니다.
    • 비유: "모든 학생이 '사과'라는 공통 개념을 이해한 뒤, 각자가 가진 '사과'의 특징 (빨간색, 녹색 등) 만을 비교해서 합치는 방식"입니다.

❌ 문제 2: "한 번 보고 잊어버리는 기억력" (기울기 진동)

이 방식은 데이터를 한 번만 보고 넘어갑니다 (One-pass).

  • 기존 방식: 오늘 배운 것만 기억하고, 어제는 완전히 잊어버립니다. 그러다 보면 AI 가 배운 내용을 계속 흔들리거나 (진동), 아예 잊어버리게 됩니다 (재앙적 망각).
  • 해결책 (OPM): **'기억을 보존하는 모멘텀'**을 도입했습니다.
    • 단순히 평균만 내는 게 아니라, 과거에 배운 '공통된 방향'을 기억해 두면서 새로운 학습을 더합니다.
    • 하지만 수학적으로 방향을 섞으면 모양이 망가질 수 있으므로, 기하학적 구조를 유지하면서 과거의 지혜를 더합니다.
    • 비유: "산책을 할 때, 오늘 걷는 길만 기억하는 게 아니라, 어제와 그제까지 걷던 '전체적인 경로'를 기억하면서 다음 발걸음을 내딛는 것"과 같습니다.

📊 결과: "더 똑똑하고 안정적인 AI"

이론을 실제 데이터로 실험해 보니, 기존 방법들보다 훨씬 좋은 결과를 얻었습니다.

  • 더 높은 점수: 다양한 이미지와 텍스트 이해 테스트에서 다른 방법들보다 높은 점수를 받았습니다.
  • 더 안정적인 학습: 학습 과정에서 점수가 오락가락하지 않고 꾸준히 올라갔습니다.

💡 요약 및 의의

이 논문은 **"개인정보를 침해하지 않으면서도, 전 세계의 다양한 데이터를 모아 AI 의 기초 체력을 키우는 방법"**을 제시했습니다.

  • 핵심 비유: "각자의 집 (기기) 에서 요리를 배우되, 레시피만 공유하고 식재료는 집에 남겨둔 채, 최고의 셰프 (AI) 를 함께 양성하는 시스템"입니다.
  • 미래: 이 기술이 발전하면, 우리가 일상에서 마주치는 사생활이 보호된 채로 훨씬 더 똑똑하고 다양한 AI 를 만날 수 있게 될 것입니다.

이 연구는 AI 가 더 이상 '중앙의 거대 데이터'에만 의존하지 않고, 분산된 우리 모두의 데이터를 통해 진화할 수 있는 새로운 길을 열었습니다.