One-for-All Model Initialization with Frequency-Domain Knowledge

이 논문은 가중치의 저주파 성분에 인코딩된 'learngene'을 이산 코사인 변환 (DCT) 을 통해 추출하여 훈련 없이 임의 크기의 모델에 적용할 수 있는 새로운 지식 전이 프레임워크인 FRONT 를 제안함으로써, 다양한 시각 및 언어 작업에서 최첨단 성능과 빠른 수렴을 달성함을 보여줍니다.

Jianlu Shen, Fu Feng, Yucheng Xie, Jiaqi Lv, Xin Geng

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: "거인"의 지식을 "난쟁이"에게 어떻게 전달할까?

지금까지 AI 모델을 만들 때는 보통 두 가지 방법이 있었습니다.

  1. 처음부터 다시 배우기 (Scratch): 아무것도 모르는 상태에서부터 데이터를 보고 천천히 공부하게 합니다. (시간과 돈이 많이 듭니다.)
  2. 거인 모델을 그대로 가져오기 (Fine-tuning): 이미 공부한 거대한 AI 모델을 가져와서 조금만 수정합니다. 하지만 이 방법은 모델의 크기가 다르면 (예: 100 층짜리 건물을 10 층짜리로 줄일 때) 적용하기 어렵습니다. 건물의 구조가 완전히 달라지기 때문입니다.

기존 방법들은 거인의 '지식'을 잘게 쪼개서 가져가거나, 복잡한 기계로 새로운 지식을 만들어내려 했지만, 이는 지식을 제대로 전달하지 못하거나 비용이 너무 많이 들었습니다.

2. 핵심 발견: "지식의 DNA"는 저주파수에 숨어 있다

저자들은 AI 모델의 무게 (가중치) 를 분석하다가 놀라운 사실을 발견했습니다.

비유: 거대한 오케스트라 연주를 상상해 보세요.

  • 고주파 (High Frequency): 악기들의 즉흥 연주, 특정 곡의 세부적인 장식음, 그날의 기분 같은 것들입니다. 이는 특정 곡 (작업) 에만 국한된 정보라서 다른 곡을 연주할 때는 쓸모가 없거나 오히려 방해가 됩니다.
  • 저주파 (Low Frequency): 오케스트라의 기본 리듬, 화음의 구조, 악기들이 어떻게 조화를 이루는지에 대한 근본적인 원리입니다. 이는 어떤 곡을 연주하든 공통적으로 필요한 **'지식의 DNA'**입니다.

논문에 따르면, AI 모델이 세상을 배우면서 얻은 **가장 중요하고 보편적인 지식 (Learngene)**은 바로 이 저주파수 성분에 담겨 있었습니다. 반면, 특정 작업에 맞춰진 세부적인 지식은 고주파수 성분에 있었습니다.

3. 해결책: FRONT (주파수 도메인 지식 전달)

이 발견을 바탕으로 저자들은 FRONT라는 방법을 개발했습니다. 이 과정은 마치 음악 파일을 압축하고 재구성하는 것과 같습니다.

단계 1: 지식을 추출하다 (DCT 변환)

기존에 공부한 거대 AI 모델의 모든 데이터를 **DCT(이산 코사인 변환)**라는 수학적 도구를 사용해 '주파수'로 바꿉니다.

  • 이때 **고주파수 (세부 장식음)**는 잘라내 버리고, **저주파수 (기본 원리)**만 남깁니다.
  • 이렇게 추출된 저주파수 덩어리를 **'Learngene(학습 유전자)'**이라고 부릅니다.

단계 2: 크기에 맞춰 변형하다 (Truncation/Padding)

이제 이 'Learngene'을 새로운 모델에 적용합니다.

  • 모델이 더 작아져야 한다면? (예: 100 층 → 10 층)
    • 불필요한 고주파수 부분을 잘라냅니다 (Truncation).
  • 모델이 더 커져야 한다면? (예: 10 층 → 100 층)
    • 빈 공간을 '0'으로 채워 넣습니다 (Padding).
  • 중요한 점: 이 과정은 학습 (Training) 이 전혀 필요 없습니다. CPU 만 있으면 몇 초 만에 끝납니다. 마치 레고 블록을 크기에 맞춰 잘라내거나 빈 공간을 채우는 것처럼 간단합니다.

단계 3: 다시 원래 모습으로 (IDCT 변환)

주파수 영역에서 처리된 데이터를 다시 원래의 AI 모델 형태 (공간 영역) 로 되돌립니다. 이제 이 모델은 처음부터 다시 공부하지 않아도, 거대 모델의 '지혜'를 물려받은 상태가 됩니다.

4. 더 똑똑하게 만들기: FRONT+ (정제 과정)

단순히 잘라내기만 하면 정보가 너무 날카로워질 수 있습니다. 그래서 **FRONT+**라는 방법을 제안합니다.

  • 비유: 거인의 지식을 그대로 가져오되, 약간의 '연마 (Polishing)' 과정을 거치는 것입니다.
  • AI 모델이 아주 짧은 시간 (몇 번의 학습) 동안만 훈련하면서, 고주파수 잡음을 줄이고 저주파수 지식만 더 선명하게 만드는 과정을 거칩니다.
  • 이렇게 하면 더 작은 비용으로 훨씬 더 뛰어난 성능을 얻을 수 있습니다.

5. 실제 성과: 놀라운 효율성

이 방법을 실험해 본 결과:

  • 시각 작업 (이미지 인식): 기존에 150 번의 학습이 필요했던 것을, FRONT 로 초기화하면 10 번의 학습으로도 같은 성능을 냈습니다. (속도 15 배 향상!)
  • 언어 작업 (텍스트 생성): 처음부터 학습할 때보다 40% 이상의 연산 비용 (FLOPs) 을 아꼈습니다.
  • 다양한 모델: 같은 가족 (ViT) 이든, 다른 가족 (ResNet) 이든, 크기가 달라도 상관없이 적용 가능합니다.

요약

이 논문은 **"AI 의 가장 중요한 지식은 복잡한 세부 사항이 아니라, 단순하고 기본적인 원리 (저주파수) 에 있다"**는 것을 발견했습니다.

우리는 이제 거대한 AI 모델의 **'지식 DNA(저주파수)'**만 뽑아내어, 크기가 다른 어떤 AI 모델에도 순간적으로 주입할 수 있게 되었습니다. 이는 마치 거인의 지혜를 담은 '만능 키'를 만들어서, 작은 로봇이든 거대한 기계든 모두 똑똑하게 만들어주는 것과 같습니다.

이 기술은 AI 개발 비용을 획기적으로 줄이고, 더 빠르고 효율적인 AI 시대를 열 것으로 기대됩니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →