Each language version is independently generated for its own context, not a direct translation.

🍞 토스트 (ToaSt): 거대한 비전 트랜스포머를 위한 '효율적인 샌드위치' 만들기

안녕하세요! 오늘 소개할 논문은 **'ToaSt (Token Channel Selection and Structured Pruning)'**라는 멋진 이름을 가진 연구입니다. 이 기술은 컴퓨터가 이미지를 보는 방식 (비전 트랜스포머, ViT) 을 훨씬 가볍고 빠르게 만들면서도, 오히려 더 똑똑하게 만들어주는 방법입니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.

🏛️ 문제: 거대한 도서관과 지친 사서님들

지금까지 인공지능 (ViT) 은 이미지를 분석할 때 매우 거대한 도서관처럼 작동했습니다.

이미지는 도서관에 들어온 **수천 개의 책 (토큰)**입니다.
AI는 이 책들을 모두 읽고 서로 비교하며 내용을 파악하는 **열정적인 사서님들 (레이어)**입니다.

하지만 큰 문제가 있었습니다.

너무 많은 책: 책이 너무 많아서 사서님들이 모든 책을 다 읽으려면 시간이 너무 오래 걸립니다. (계산 비용이 너무 비쌈)
쓸데없는 책: 책장에는 사실 중복된 내용이나 잡담 같은 책이 엄청나게 쌓여 있었습니다. (불필요한 정보)
재교육 비용: 이 불필요한 책을 치우려면, 사서님들이 처음부터 다시 모든 책을 다시 공부해야 했습니다. (재학습 시간이 너무 김)

기존 방법들은 이 문제를 해결하려 했지만, "책을 덜 읽게 하라"거나 "사서님을 해고하라"는 식이라서, 오히려 사서님이 혼란스러워지거나 다시 훈련시키는 데 너무 많은 시간이 걸렸습니다.

🥪 해결책: ToaSt (토스트) 의 두 가지 전략

이 연구팀은 **"모든 것을 한 번에 고치려 하지 말고, 각 부서 (컴포넌트) 에 맞는 맞춤형 전략을 쓰자"**고 생각했습니다. 마치 거대한 샌드위치를 만들 때, 빵은 바삭하게 구워내고 (MHSA), 속재료는 꼭 필요한 것만 골라 넣는 (FFN) 것처럼요.

1. 전략 A: "함께 움직이는 팀" 다듬기 (MHSA 구조적 가지치기)

비유: 사서님들이 책을 비교할 때, A 팀과 B 팀이 서로 손발을 맞춰야 하는 경우가 있습니다. A 팀이 책을 버리면 B 팀도 그 책을 버려야 합니다.
문제: 기존에는 이 팀워크를 무시하고 무작위로 책을 치우다 보니, 책 내용이 엉망이 되어버렸습니다.
ToaSt 의 해결책: "Q-K 팀"과 "V-프로젝트 팀"처럼 연관된 팀원들은 반드시 함께 책장을 정리합니다.
- 예를 들어, A 팀이 1 번 책을 버리면 B 팀도 1 번 책을 함께 버립니다.
- 이렇게 하면 팀워크는 그대로 유지되면서, 불필요한 책장 (계산량) 만 깔끔하게 줄일 수 있습니다.
- 결과: 사서님들의 업무량은 줄었지만, 책 내용 (정확도) 은 오히려 더 명확해졌습니다.

2. 전략 B: "필요한 재료만 골라 넣기" (FFN 토큰 채널 선택)

비유: 샌드위치의 속재료 (FFN) 는 원래 4 배로 부풀려진 양으로 들어갑니다. 하지만 사실 그중 90% 는 물만 든 허수아비 같은 재료일 뿐입니다.
문제: 이 허수아비들을 다 치우려면 다시 요리사 (AI) 를 훈련시켜야 하는데, 시간이 너무 걸립니다.
ToaSt 의 해결책: **"훈련 없이 바로 골라내는 마법"**을 사용합니다.
- 연구팀은 깊은 층 (나중 단계) 으로 갈수록, 사서님들이 중요한 책만 집중해서 본다는 사실을 발견했습니다. (나중 단계일수록 쓸데없는 잡담은 안 듣는다는 뜻)
- 그래서 실제 중요한 책 (채널) 만 골라내고, 나머지는 바로 치워버립니다.
- 핵심: 이 과정은 재훈련이 전혀 필요 없습니다. 이미 훈련된 AI 가 "아, 이 책은 필요 없네?" 하고 바로 판단해서 치워버리는 것입니다.
- 결과: 샌드위치는 훨씬 작아졌지만, 맛 (정확도) 은 더 좋아졌습니다. (불필요한 소금기/노이즈가 제거되었기 때문)

🚀 놀라운 성과: 더 작아졌는데 더 똑똑해졌다!

이 '토스트' 기술을 적용한 결과는 정말 놀랍습니다.

속도: 컴퓨터가 이미지를 처리하는 속도가 최대 2 배 이상 빨라졌습니다.
정확도: 기존에 사용하던 거대한 모델보다 오히려 정확도가 높아졌습니다.
- 예: 거대한 'ViT-MAE-Huge' 모델은 계산량을 40% 줄였는데, 정확도는 1.64% 오히려 올라갔습니다.
- 마치 거대한 식당을 작은 카페로 줄였는데, 메뉴는 더 맛있고 서비스는 더 빨라진 것과 같습니다.
재훈련 시간: 기존에는 재학습에 300 번 이상의 훈련이 필요했지만, 이 방법은 15 번 정도의 간단한 훈련으로 끝났습니다. (거의 즉시 적용 가능!)
다른 작업에서도 성공: 이미지 분류뿐만 아니라, 물체 감지 (Object Detection) 같은 복잡한 작업에서도 기존 모델보다 더 좋은 결과를 냈습니다.

💡 요약: 왜 이 기술이 중요한가요?

이 연구는 **"무조건 크게 만드는 것 (Big Model)"**에서 **"필요한 것만 깔끔하게 정리하는 것 (Efficient Model)"**으로 패러다임을 바꿉니다.

기존: 거대한 모델을 만들고, 다 잘라내면 망가져서 다시 길게 훈련해야 함.
ToaSt: 각 부분 (주의 집중, 내용 처리) 에 맞는 맞춤형 정리법을 써서, 재훈련 없이도 모델을 가볍고 똑똑하게 만듦.

이제 우리는 스마트폰이나 작은 기기에서도 거대 AI 와 같은 똑똑한 기능을 빠르고 가볍게 사용할 수 있는 길이 열린 셈입니다. 마치 거대한 빵 덩어리를 바삭하고 맛있는 토스트로 변신시킨 것과 같습니다! 🍞✨

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

비전 트랜스포머 (Vision Transformer, ViT) 는 다양한 컴퓨터 비전 작업에서 뛰어난 성능을 보이지만, 모바일 및 엣지 디바이스와 같은 리소스 제약 환경에 배포하기에는 계산 비용이 너무 높다는 한계가 있습니다.

계산 복잡도: ViT 의 계산 복잡도는 주로 두 가지 원천에서 발생합니다.
1. 자기 주의 (Self-Attention): 시퀀스 길이 $N$ 에 대해 이차 복잡도 $O(N^2)$ 를 가집니다.
2. 피드포워드 네트워크 (FFN): 숨겨진 차원 $D$ 와 $D_{mlp}$ 에 비례하는 연산을 수행하며, 전체 FLOPs 의 약 61% 를 차지합니다.
기존 방법의 한계:
- 구조적 가중치 가지치기 (Structured Weight Pruning): 채널이나 헤드를 제거하는 방식이지만, 모델 성능을 회복하기 위해 원본 훈련 시간과 유사한 긴 재훈련 (Retraining) 이 필요하여 비용이 매우 큽니다. 또한, 주로 주의 메커니즘 (MHSA) 에 집중하여 FFN 의 중복성을 해결하지 못합니다.
- 토큰 압축 (Token Compression): 시퀀스 길이 $N$ 을 줄여 주의 복잡도를 낮추지만, FFN 의 차원 복잡도 $O(D^2)$ 는 해결하지 못합니다. 또한, 토큰 삭제/병합 결정이 모든 후속 레이어에 전역적으로 전파 (Global Propagation) 되어 최적화 난이도를 높이고 레이어 간 의존성을 만듭니다.

2. 제안 방법론: ToaSt (Methodology)

저자들은 ToaSt라는 새로운 압축 프레임워크를 제안했습니다. 이는 레이어 독립적 (Layer-Independent) 압축 철학을 기반으로 하며, MHSA 와 FFN 두 가지 구성 요소에 대해 각각 특화된 전략을 적용하여 재훈련 오버헤드를 제거하고 전역 전파 문제를 해결합니다.

A. MHSA: 구조적 결합 가중치 가지치기 (Structured Coupled Weight Pruning)

목표: 각 헤드의 내부 차원 $d_k$ 를 줄여 MHSA 의 계산량을 감소시킵니다.
결합 (Coupling) 전략: MHSA 는 $Q, K, V, Proj$ 행렬이 서로 연결되어 작동합니다. ToaSt 는 $Q-K$ $Q - K$ 쌍과 $V-Proj$ 쌍의 인덱스를 동기화하여 가지치기합니다.
- $W_Q$ 의 $j$ 번째 열을 가지치기하면 $W_K$ 의 $j$ 번째 열도 함께 제거해야 합니다.
- $W_V$ 의 $j$ 번째 열을 가지치기하면 $W_{proj}$ 의 $j$ 번째 행도 함께 제거해야 합니다.
중요도 기준: 사전 훈련된 가중치의 **기하학적 중앙값 (Geometric Median, GM)**을 기반으로 중요도를 산정합니다. 가중치 분포의 중심에 가까운 차원은 다른 차원으로 대체 가능하므로 (중복도가 높음) 가지치기 대상이 됩니다.
전략: 첫 번째 레이어는 패치 임베딩과의 인터페이스를 보호하기 위해 제외하고, 나머지 레이어에는 90% 의 공격적인 가지치기를 적용합니다.

B. FFN: 토큰 채널 선택 (Token Channel Selection, TCS)

목표: FFN 의 확장/축소 차원 ( $D \to 4D \to D$ ) 에서 발생하는 채널 수준의 중복성을 제거합니다.
실증적 분석: 깊은 레이어일수록 다음과 같은 특징을 보임을 발견했습니다.
1. 높은 선형 재구성 신뢰도 ( $R^2$ ): 채널 간 선형 의존성이 매우 높아 소수의 채널로 전체 정보를 추정 가능.
2. 효과적 랭크 (Effective Rank) 붕괴: 고차원 공간의 실질적 차원이 낮음.
3. 활성화 희소성 (Sparsity) 증가: 깊은 레이어에서 많은 뉴런이 거의 활성화되지 않음.
학습 없는 (Training-free) 전략:
- 통계적 샘플링: 모든 토큰을 분석하는 대신, 토큰의 작은 샘플 (2~20%) 만을 무작위 추출하여 채널 중요도를 추정합니다.
- 주의 기반 통합 중요도: CLS 토큰의 활성화와 패치 간의 주의 가중치를 결합하여 채널의 중요도를 산정합니다.
- 레이어 적응형 가지치기:
  - FC1 (확장): 초기 레이어는 보수적으로 가지치기 (특성 다양성 유지).
  - FC2 (축소): 깊은 레이어는 공격적으로 가지치기 (90% 까지) 하여 중복된 노이즈 제거.
효과: 재훈련 없이도 FFN 의 $D^2$ 복잡도를 직접 줄이며, 가지치기 과정에서 불필요한 노이즈를 필터링하여 오히려 정확도를 향상시킵니다.

3. 주요 기여 (Key Contributions)

결합된 MHSA 가지치기: $Q-K$ 및 $V-Proj$ 쌍의 인덱스를 동기화하여 구조적으로 가지치기하는 방법을 제안하여, 레이어 인터페이스를 변경하지 않으면서 레이어 독립적 압축을 가능하게 함.
학습 없는 FFN 채널 선택 (TCS): FFN 의 활성화 패턴 (희소성, 랭크, 재구성 오차) 을 분석하여 레이어 적응형 비율로 채널을 선택하는 전략을 도입. 재훈련 오버헤드를 제거하고 노이즈를 필터링함.
우수한 성능 - 효율성 트레이드오프: DeiT, ViT-MAE, Swin Transformer 등 9 가지 다양한 모델과 COCO 객체 검출 작업에서 기존 방법 (ToMe, DiffRate 등) 을 능가하는 성능을 입증. 특히 대규모 모델일수록 미세 조정 (Fine-tuning) 에 필요한 에포크 수가 적어짐을 발견.

4. 실험 결과 (Results)

ImageNet-1K 분류 및 COCO 객체 검출 실험을 통해 다음과 같은 결과를 도출했습니다.

ImageNet-1K 분류:
- ViT-MAE-Huge: 39.4% 의 FLOPs 감소 (약 101.4 GFLOPs) 로 88.52% Top-1 정확도를 달성 (기반 모델 대비 +1.64% 향상).
- DeiT-Small: 45.7% FLOPs 감소로 83.40% 정확도 (기반 대비 +3.58% 향상) 를 기록하며, H100 GPU 에서 2.07 배의 처리량 (Throughput) 향상을 보임.
- 재훈련 효율: ViT-MAE-Huge 는 가지치기 후 약 15 에포크의 미세 조정만으로 기반 모델 성능을 회복 및 초과함 (DeiT-Base 는 약 290 에포크 필요). 이는 대규모 모델이 더 많은 내재적 중복성을 가지고 있음을 시사.
COCO 객체 검출:
- Swin-Base 기반의 압축 모델이 Cascade Mask R-CNN 에서 52.2 mAP를 기록하여 가지치기 전 기반 모델 (51.9 mAP) 보다 성능이 향상됨. 이는 ToaSt 가 작업에 필수적인 특징이 아닌 중복된 노이즈를 제거했음을 의미.
비교 분석:
- 기존 토큰 압축 방법 (ToMe, DiffRate) 과 유사한 FLOPs 예산에서 ToaSt 는 1~4% 높은 정확도를 기록하며, 하드웨어 친화적인 구조적 가지치기 덕분에 실제 처리 속도도 우수함.

5. 의의 및 결론 (Significance)

ToaSt 는 ViT 의 효율성 문제를 해결하기 위해 **MHSA 와 FFN 을 분리 (Decoupled)**하여 최적화하는 새로운 패러다임을 제시합니다.

재훈련 비용 제거: FFN 채널 선택을 학습 없이 수행함으로써 대규모 모델의 압축 비용을 획기적으로 줄였습니다.
노이즈 필터링: 가지치기 과정이 단순한 연산 감소가 아니라, 모델의 일반화 능력을 향상시키는 정규화 (Regularization) 효과로 작용함을 증명했습니다.
확장성: 다양한 아키텍처 (DeiT, MAE, Swin) 와 다운스트림 작업 (객체 검출) 에서 일관된 성능 향상을 보여주어, 실제 배포 환경에서의 ViT 적용 가능성을 크게 높였습니다.

이 연구는 대규모 비전 트랜스포머 모델을 리소스 제약이 있는 환경에서도 고품질로 배포할 수 있는 실용적인 솔루션을 제공한다는 점에서 중요한 의의를 가집니다.

ToaSt: Token Channel Selection and Structured Pruning for Efficient ViT