Adaptive MLP Pruning for Large Vision Transformers

이 논문은 기존 MLP 가지치기 방법의 한계를 극복하기 위해 레이블 없는 정보 엔트로피 기준과 이진 탐색을 활용한 적응형 MLP 가지치기 (AMP) 를 제안하여, CLIP 및 DINOv2 와 같은 대규모 비전 트랜스포머 모델의 파라미터와 연산량을 약 40% 줄이면서도 성능 저하 없이 효율성을 극대화합니다.

Chengchao Shen

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎒 거대한 배낭을 가볍게 만드는 방법

1. 문제: 너무 무거운 배낭 (대규모 비전 트랜스포머)
지금까지 개발된 최신 인공지능 모델들은 엄청난 성능을 보여주지만, 그 크기가 너무 커서 일반 컴퓨터나 스마트폰에서 실행하기 어렵습니다. 마치 등산객이 너무 무거운 배낭을 메고 있는 것과 같습니다. 이 배낭에는 수많은 물건 (데이터) 이 들어있지만, 실제로 필요한 것만 골라내면 훨씬 가볍고 빠르게 이동할 수 있습니다.

2. 분석: 배낭의 어디가 가장 무거운가?
연구자들은 이 거대한 AI 모델의 구조를 분석해 보니, 전체 무게의 80% 이상을 차지하는 것이 'MLP(다층 퍼셉트론)'라는 부품임을 발견했습니다.

  • 비유: 배낭 속에 들어있는 '무거운 돌멩이'들이 바로 이 MLP 모듈들입니다. 이 돌멩이들을 잘라내면 배낭이 훨씬 가벼워집니다.

3. 해결책 1: "무엇을 버릴지"를 판단하는 새로운 나침반 (정보 엔트로피)
기존에는 어떤 돌멩이를 버릴지 판단할 때, 정답이 있는 문제 (예: "이 사진은 고양이인가?") 에만 집중했습니다. 하지만 이 방법은 AI 가 "고양이일 수도 있고, 강아지일 수도 있고, 토끼일 수도 있다"는 다양한 가능성을 고려하지 못해 중요한 정보를 잃을 수 있었습니다.

  • 새로운 방법: 연구자들은 **'정보 엔트로피 (Information Entropy)'**라는 새로운 나침반을 만들었습니다.
  • 비유: 기존 방법은 "정답이 '고양이'일 때만 점수를 매겼다"면, 새로운 방법은 **"고양이, 강아지, 토끼 등 모든 가능성이 어떻게 분포되어 있는지"**를 모두 살펴봅니다. 마치 모든 방향을 훑어보는 360 도 카메라처럼 AI 가 세상을 어떻게 바라보는지 전체적인 그림을 보고, 가장 덜 중요한 부분 (중복된 정보) 을 정확히 찾아냅니다.
  • 장점: 이 방법은 정답 (라벨) 이 없어도 작동합니다. 그래서 공개된 데이터나 정답이 없는 모델 (예: DINOv2) 도 쉽게 다룰 수 있습니다.

4. 해결책 2: "얼마나 잘라낼지"를 자동으로 정하는 스마트 가위 (이진 탐색)
기존 방법들은 "무조건 50% 를 잘라내자"처럼 미리 정해진 비율로 자르곤 했습니다. 하지만 모델마다 불필요한 부분의 양이 다릅니다.

  • 새로운 방법: 연구자들은 '이진 탐색 (Binary Search)' 알고리즘을 사용했습니다.
  • 비유: 마치 금광에서 금을 캐는 것과 같습니다.
    1. 배낭을 반으로 잘라봅니다. (너무 많이 잘랐나요? 아니면 너무 적게 잘랐나요?)
    2. AI 의 성능 (정보 엔트로피) 이 너무 많이 떨어지지 않는 선에서, 가장 많이 잘라낼 수 있는 최적의 지점을 찾아냅니다.
    3. 이 과정을 반복하며 각 부품마다 "얼마나 redundantly(불필요하게) 많은지"에 맞춰 자동으로 잘라냅니다.
    • 결과: "무조건 50%"가 아니라, "이 부분은 30%, 저 부분은 60%"처럼 각 상황에 맞는 최적의 크기로 조정됩니다.

5. 마무리: 잃어버린 기억을 되찾는 과정 (지식 증류)
무언가를 잘라내면 원래의 성능이 떨어질 수 있습니다. 이때 **원래의 거대한 AI(선생님)**가 **잘라낸 작은 AI(학생)**를 가르쳐 줍니다.

  • 비유: 큰 형님이 동생에게 "이걸 잘라내도 괜찮아, 내가 너를 도와줄게"라고 가르쳐 주는 것입니다. 작은 AI 는 원래 AI 의 생각 방식을 따라 배워서, 크기는 작아졌지만 똑똑함은 거의 잃지 않게 됩니다.

🚀 이 기술이 가져온 놀라운 결과

이 방법을 적용한 결과, 다음과 같은 기적이 일어났습니다:

  1. 반으로 줄어든 크기: 모델의 파라미터 (두뇌 세포) 와 계산량 (FLOPs) 이 약 40% 감소했습니다. 배낭이 반으로 가벼워진 셈입니다.
  2. 거의 손실 없는 성능: 크기가 줄었는데도, 성능은 원래 모델과 거의 똑같아졌습니다. (심지어 일부 경우엔 더 좋아지기도 했습니다!)
  3. 다른 방법보다 훨씬 강력함: 기존에 있던 다른 가지치기 방법들보다 성능이 월등히 좋았습니다. 특히, 추가 학습 (파인튜닝) 을 하지 않아도 다른 방법들보다 훨씬 잘 작동했습니다.
  4. 범용성: CLIP, DINOv2 등 다양한 최신 모델에 적용 가능했습니다.

💡 한 줄 요약

이 논문은 **"AI 의 가장 무거운 부분 (MLP) 을, 정답 없이도 정확하게 찾아내어 (정보 엔트로피), 각 부품에 맞춰 자동으로 최적의 크기로 잘라내고 (이진 탐색), 원래의 지식을 전수받아 (지식 증류) 가볍고 빠른 AI 를 만드는 방법"**을 제안했습니다.

이제 거대한 AI 도 스마트폰이나 개인용 컴퓨터에서 가볍게 돌아갈 수 있는 길이 열렸습니다!