Revisiting Model Stitching In the Foundation Model Era

이 논문은 비동종 비전 기반 모델 (VFMs) 간의 레이어 연결을 위한 새로운 스티칭 프로토콜을 제시하여, 단순한 진단 도구를 넘어 모델 간 표현의 정합성을 파악하고 다양한 강점을 결합한 효율적인 멀티모달 시스템 구축을 가능하게 함을 보여줍니다.

Zheda Mai, Ke Zhang, Fu-En Wang, Zixiao Ken Wang, Albert Y. C. Chen, Lu Xia, Min Sun, Wei-Lun Chao, Cheng-Hao Kuo

게시일 2026-03-16
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧩 "모델 스티칭 (Model Stitching)"의 재발견: 서로 다른 AI 의 지식을 하나로 엮다

이 논문은 최근 인공지능 (AI) 분야에서 큰 화제를 모으고 있는 **'비전 파운데이션 모델 (Vision Foundation Models, VFMs)'**에 대한 흥미로운 실험 결과를 담고 있습니다.

쉽게 말해, **"서로 다른 배경을 가진 두 명의 AI 전문가를 만나게 해서, 한 사람의 초기 학습 경험과 다른 사람의 최종 판단 능력을 연결하면 더 똑똑한 AI 를 만들 수 있을까?"**라는 질문에서 시작합니다.


1. 배경: 왜 이 연구를 했나요?

과거에는 AI 모델을 만들 때, 모든 것을 처음부터 새로 가르치는 (훈련하는) 방식이 일반적이었습니다. 하지만 요즘은 CLIP, DINOv2 같은 거대 AI 모델들이 이미 인터넷의 수많은 이미지와 텍스트를 학습해 놓았습니다.

  • CLIP: 이미지와 텍스트의 관계를 잘 이해하는 '언어형' AI.
  • DINOv2: 이미지의 세부적인 질감과 구조를 잘 파악하는 '시각형' AI.

이 두 AI 는 각자 다른 목적과 데이터로 훈련되었기 때문에, 서로의 '생각 방식 (표현)'이 완전히 다를 것이라고 여겨졌습니다. 마치 한국어만 하는 사람프랑스어만 하는 사람이 서로 대화할 수 있을까? 하는 질문과 비슷합니다.

2. 핵심 아이디어: '스티칭 (Stitching)'이란 무엇인가요?

논문의 제목인 '스티칭 (Stitching)'은 **'바느질'**을 의미합니다.

  • 시나리오: AI 모델은 레이어 (층) 가 여러 겹으로 쌓인 구조입니다.
    • Source (출발지): 한 AI 의 초반 레이어 (기본적인 눈, 귀 기능).
    • Target (도착지): 다른 AI 의 후반 레이어 (복잡한 판단, 결론 도출).
    • Stitch Layer (바느질 실): 이 두 부분을 이어주는 아주 얇은 연결 고리.

연구진은 **"서로 다른 AI 의 초반부와 후반부를 이 얇은 실로 이어붙여도, 원래 AI 들만큼 잘 작동할까?"**를 확인했습니다.

3. 주요 발견: 실패한 방법과 성공한 비법

연구진은 기존에 쓰이던 두 가지 방법을 시도해 보았지만, 큰 AI 들에게는 효과가 없었습니다.

  • 실패한 방법 1 (단순 연결): 중간 단계의 특징만 맞추려고 노력함. (예: "이게 코야, 저게 눈이야"만 맞추기)
  • 실패한 방법 2 (결과만 맞추기): 최종 문제 풀이 점수만 보고 바느질 실을 조정함. (초반 레이어에서는 너무 어렵게 느껴져서 실패함)

성공한 비법 (두 단계 훈련법):
연구진은 새로운 방법을 개발했습니다.

  1. 1 단계 (마지막 결과 미리 보기): 바느질 실을 훈련할 때, 중간이 아닌 **AI 가 최종적으로 내놓는 결론 (이미지 특징)**을 맞추도록 가르칩니다. 마치 "이 그림이 '강아지'인지 '고양이'인지 최종 판단을 미리 맞춰보게" 하는 것입니다.
  2. 2 단계 (실제 문제 풀이): 그 다음에 실제 시험 문제 (분류 작업) 를 풀며 다듬습니다.

이 방법을 쓰니, 서로 다른 AI 들을 이어붙여도 오히려 원래 AI 들보다 더 잘하는 경우가 나왔습니다!

4. 왜 더 잘할까요? (시너지 효과)

서로 다른 AI 를 이어붙였을 때 성능이 오르는 이유는 '상호 보완' 때문입니다.

  • 비유: 한 사람은 건축 구조를 잘 아는 엔지니어 (DINOv2) 이고, 다른 사람은 디자인과 의미를 잘 아는 디자이너 (SigLIP) 입니다.
  • 결과: 이 둘을 이어붙이면, 구조적 안정성 (엔지니어의 강점) 과 미적/의미적 이해 (디자이너의 강점) 를 모두 갖춘 완벽한 건축가가 됩니다.
  • 핵심: 단순히 AI 의 능력을 더하는 게 아니라, 서로의 약점을 보완해주기 때문에 성능이 올라갑니다.

5. 실용적 응용: 'VFM 스티치 트리 (VST)'

이 기술을 이용해 더 효율적인 시스템을 만들 수 있습니다.

  • 문제: 멀티모달 AI(이미지 + 텍스트) 를 만들 때, CLIP 과 DINOv2 두 모델을 모두 다 쓰면 컴퓨터 성능 (메모리, 속도) 이 2 배나 필요합니다.
  • 해결책 (VST):
    • 두 AI 가 처음 14 개 레이어는 공유합니다. (같은 기초 교육)
    • 나중 10 개 레이어만 따로 가집니다. (전문 분야)
    • 효과: 성능은 거의 두 모델을 다 쓴 것과 비슷하지만, 컴퓨터 비용은 40% 만 듭니다.

이는 마치 두 명의 전문가가 처음에는 같은 사무실에서 기초 작업을 공유하다가, 마지막 단계에서 각자 전문 분야로 나뉘어 일하는 것과 같습니다.

6. 결론: 이 연구의 의미

이 논문은 단순한 실험을 넘어, AI 개발의 패러다임을 바꿉니다.

  1. 진단 도구에서 실용 도구로: 예전에는 "이 두 AI 가 비슷하냐?"를 확인하는 진단 도구였지만, 이제는 **"서로 다른 AI 를 섞어서 더 좋은 AI 를 만드는 실용적인 레시피"**가 되었습니다.
  2. 효율성: 더 많은 AI 를 쓰지 않아도, 기존 AI 들을 잘 조합하면 더 똑똑하고 빠른 시스템을 만들 수 있습니다.
  3. 미래: 앞으로는 여러 AI 의 강점을 상황에 따라 유연하게 조합하는 '지식 융합' 시대가 올 것입니다.

한 줄 요약:

"서로 다른 배경을 가진 AI 전문가들을 얇은 실로 잘 이어붙이면, 서로의 약점을 보완해 더 똑똑하고 효율적인 '슈퍼 AI'를 만들 수 있다!"

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →