A Unified Framework for Knowledge Transfer in Bidirectional Model Scaling

이 논문은 모델 가중치를 연속 신호로 간주하고 이산 웨이블릿 변환을 활용하여 소규모에서 대규모로, 대규모에서 소규모로의 양방향 모델 확장 문제를 통합적으로 해결하는 'BoT' 프레임워크를 제안합니다.

Jianlu Shen, Fu Feng, Jiaze Xu, Yucheng Xie, Jiaqi Lv, Xin Geng

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"BoT(Bidirectional knowledge Transfer)"**라는 새로운 기술을 소개합니다. 쉽게 말해, AI 모델을 크기를 조절할 때 (작게 만들거나 크게 키울 때) 기존에 배운 지식을 그대로 가져와서 효율적으로 재사용하는 방법입니다.

기존에는 AI 모델을 크기를 바꿀 때 두 가지 문제가 있었습니다.

  1. 작은 모델을 큰 모델로 키울 때 (S2L): 지식을 더해야 하는데, 어떻게 더할지 막막해서 처음부터 다시 배우거나, 복잡한 장치를 만들어야 했습니다.
  2. 큰 모델을 작은 모델로 줄일 때 (L2S): 지식을 버려야 하는데, 어떤 부분을 잘라낼지 고민하다 보니 중요한 지식이 사라지거나 구조가 망가졌습니다.

이 논문은 이 두 문제를 **"하나의 원리로 해결"**했습니다.


🌊 핵심 비유: "파도 (Wave) 와 사진 (Signal)"

이 연구의 가장 멋진 아이디어는 **"AI 의 지식 (가중치) 을 파도처럼 연속적인 신호로 본다"**는 것입니다.

1. 지식을 '사진'으로 생각해보세요

  • 작은 AI 모델: 흐릿한 썸네일 (미니어처) 사진입니다. 전체적인 모양과 큰 특징은 보이지만, 디테일은 없습니다.
  • 큰 AI 모델: 고해상도의 정밀한 사진입니다. 전체적인 모양도 있고, 눈썹 하나하나, 배경의 나뭇잎까지 다 보입니다.

기존 방식은 이 두 사진을 연결할 때, 썸네일을 복사해서 붙이거나 (S2L), 정밀 사진에서 무작위로 잘라내는 (L2S) 식이라서 효율이 떨어졌습니다.

2. BoT 의 방법: "파도 (Wavelet) 로 변형하기"

이 논문은 이 두 사진을 **파도 (Wave)**로 변환하는 기술을 사용합니다.

  • 큰 모델 → 작은 모델 (L2S, 다운샘플링):

    • 고해상도 사진을 파도 분석기에 넣습니다.
    • 파도 분석기는 사진의 **핵심적인 저주파 (큰 흐름)**만 남기고, **고주파 (디테일한 잡음)**는 잘라냅니다.
    • 이렇게 남은 **핵심 파도 (Learngene)**만 작은 모델에 주면, 작은 모델도 큰 모델의 핵심 지식을 완벽하게 물려받게 됩니다. 마치 고해상도 사진을 흐릿하게 줄여도 '누가 찍은 사진인지'는 바로 알 수 있는 것과 같습니다.
  • 작은 모델 → 큰 모델 (S2L, 업샘플링):

    • 작은 모델의 **핵심 파도 (저주파)**를 가져옵니다.
    • 여기에 **빈 공간 (고주파 부분)**을 만들어두고, 그 빈 공간에 **0 (무)**을 채웁니다. (왜 0 인가? 아직 디테일이 없으니까요.)
    • 이걸 다시 파도 합성기에 넣으면, 작은 모델의 핵심 지식을 바탕으로 큰 모델의 구조가 자연스럽게 완성됩니다. 마치 흐릿한 초상화에서 핵심 윤곽만 보고, AI 가 나머지 디테일을 자연스럽게 채워주는 것과 같습니다.

🚀 왜 이 기술이 대단한가요?

이 방법은 세 가지 큰 장점이 있습니다.

  1. 한 번에 양방향 해결 (Unified):

    • 예전에는 "작게 줄이는 도구"와 "크게 키우는 도구"가 따로 있었습니다. BoT 는 하나의 도구로 두 가지 일을 모두 합니다. 마치 스마트폰 하나로 사진을 줄이기도 하고, 확대해서 디테일도 살릴 수 있는 것과 같습니다.
  2. 학습 없이 바로 사용 가능 (Parameter-free):

    • 기존 방법들은 지식을 옮기면서 새로운 학습 과정을 거치거나 복잡한 매핑을 학습해야 했습니다. 하지만 BoT 는 **수학적 변환 (파도 변환)**만 하면 되므로, 추가 학습 비용이 전혀 들지 않습니다.
  3. 엄청난 시간과 비용 절약:

    • 실험 결과, 이 방법을 쓰면 AI 모델을 처음부터 훈련할 때보다 최대 67% 까지 계산 비용 (FLOPs) 을 아낄 수 있었습니다.
    • 예를 들어, 큰 모델을 작은 모델로 줄일 때 50% 이상, 작은 모델을 큰 모델로 키울 때 60% 이상 시간을 단축할 수 있습니다.

📝 요약

이 논문은 **"AI 모델의 크기를 바꿀 때, 지식을 버리거나 새로 배우지 말고, 파도처럼 변형해서 옮겨라"**라고 말합니다.

  • 큰 모델 → 작은 모델: "핵심만 추려서 (저주파) 작은 그릇에 담기."
  • 작은 모델 → 큰 모델: "핵심을 바탕으로 빈 공간 (고주파) 을 0 으로 채워 큰 그릇에 담기."

이렇게 하면 AI 개발 비용이 크게 줄어들고, 어떤 크기의 모델이든 빠르게, 정확하게 지식을 전달받을 수 있게 됩니다. 마치 훌륭한 요리사가 큰 냄비에서 만든 국물을 작은 컵에 담거나, 반대로 작은 국물을 큰 냄비에 퍼서 다시 끓여도 맛이 변하지 않는 것과 같은 원리입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →