ToaSt: Token Channel Selection and Structured Pruning for Efficient ViT

이 논문은 ViT 의 계산 비용 문제를 해결하기 위해 Multi-Head Self-Attention 에는 결합된 헤드 단위 구조적 가지치기를, Feed-Forward Network 에는 토큰 채널 선택 (TCS) 기법을 적용한 ToaSt 라는 프레임워크를 제안하여, 다양한 모델에서 기존 방법들보다 뛰어난 정확도와 효율성 균형을 달성함을 보여줍니다.

Hyunchan Moon, Cheonjun Park, Steven L. Waslander

게시일 2026-02-19
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍞 토스트 (ToaSt): 거대한 비전 트랜스포머를 위한 '효율적인 샌드위치' 만들기

안녕하세요! 오늘 소개할 논문은 **'ToaSt (Token Channel Selection and Structured Pruning)'**라는 멋진 이름을 가진 연구입니다. 이 기술은 컴퓨터가 이미지를 보는 방식 (비전 트랜스포머, ViT) 을 훨씬 가볍고 빠르게 만들면서도, 오히려 더 똑똑하게 만들어주는 방법입니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.


🏛️ 문제: 거대한 도서관과 지친 사서님들

지금까지 인공지능 (ViT) 은 이미지를 분석할 때 매우 거대한 도서관처럼 작동했습니다.

  • 이미지는 도서관에 들어온 **수천 개의 책 (토큰)**입니다.
  • AI는 이 책들을 모두 읽고 서로 비교하며 내용을 파악하는 **열정적인 사서님들 (레이어)**입니다.

하지만 큰 문제가 있었습니다.

  1. 너무 많은 책: 책이 너무 많아서 사서님들이 모든 책을 다 읽으려면 시간이 너무 오래 걸립니다. (계산 비용이 너무 비쌈)
  2. 쓸데없는 책: 책장에는 사실 중복된 내용이나 잡담 같은 책이 엄청나게 쌓여 있었습니다. (불필요한 정보)
  3. 재교육 비용: 이 불필요한 책을 치우려면, 사서님들이 처음부터 다시 모든 책을 다시 공부해야 했습니다. (재학습 시간이 너무 김)

기존 방법들은 이 문제를 해결하려 했지만, "책을 덜 읽게 하라"거나 "사서님을 해고하라"는 식이라서, 오히려 사서님이 혼란스러워지거나 다시 훈련시키는 데 너무 많은 시간이 걸렸습니다.


🥪 해결책: ToaSt (토스트) 의 두 가지 전략

이 연구팀은 **"모든 것을 한 번에 고치려 하지 말고, 각 부서 (컴포넌트) 에 맞는 맞춤형 전략을 쓰자"**고 생각했습니다. 마치 거대한 샌드위치를 만들 때, 빵은 바삭하게 구워내고 (MHSA), 속재료는 꼭 필요한 것만 골라 넣는 (FFN) 것처럼요.

1. 전략 A: "함께 움직이는 팀" 다듬기 (MHSA 구조적 가지치기)

  • 비유: 사서님들이 책을 비교할 때, A 팀과 B 팀이 서로 손발을 맞춰야 하는 경우가 있습니다. A 팀이 책을 버리면 B 팀도 그 책을 버려야 합니다.
  • 문제: 기존에는 이 팀워크를 무시하고 무작위로 책을 치우다 보니, 책 내용이 엉망이 되어버렸습니다.
  • ToaSt 의 해결책: "Q-K 팀"과 "V-프로젝트 팀"처럼 연관된 팀원들은 반드시 함께 책장을 정리합니다.
    • 예를 들어, A 팀이 1 번 책을 버리면 B 팀도 1 번 책을 함께 버립니다.
    • 이렇게 하면 팀워크는 그대로 유지되면서, 불필요한 책장 (계산량) 만 깔끔하게 줄일 수 있습니다.
    • 결과: 사서님들의 업무량은 줄었지만, 책 내용 (정확도) 은 오히려 더 명확해졌습니다.

2. 전략 B: "필요한 재료만 골라 넣기" (FFN 토큰 채널 선택)

  • 비유: 샌드위치의 속재료 (FFN) 는 원래 4 배로 부풀려진 양으로 들어갑니다. 하지만 사실 그중 90% 는 물만 든 허수아비 같은 재료일 뿐입니다.
  • 문제: 이 허수아비들을 다 치우려면 다시 요리사 (AI) 를 훈련시켜야 하는데, 시간이 너무 걸립니다.
  • ToaSt 의 해결책: **"훈련 없이 바로 골라내는 마법"**을 사용합니다.
    • 연구팀은 깊은 층 (나중 단계) 으로 갈수록, 사서님들이 중요한 책만 집중해서 본다는 사실을 발견했습니다. (나중 단계일수록 쓸데없는 잡담은 안 듣는다는 뜻)
    • 그래서 실제 중요한 책 (채널) 만 골라내고, 나머지는 바로 치워버립니다.
    • 핵심: 이 과정은 재훈련이 전혀 필요 없습니다. 이미 훈련된 AI 가 "아, 이 책은 필요 없네?" 하고 바로 판단해서 치워버리는 것입니다.
    • 결과: 샌드위치는 훨씬 작아졌지만, 맛 (정확도) 은 더 좋아졌습니다. (불필요한 소금기/노이즈가 제거되었기 때문)

🚀 놀라운 성과: 더 작아졌는데 더 똑똑해졌다!

이 '토스트' 기술을 적용한 결과는 정말 놀랍습니다.

  1. 속도: 컴퓨터가 이미지를 처리하는 속도가 최대 2 배 이상 빨라졌습니다.
  2. 정확도: 기존에 사용하던 거대한 모델보다 오히려 정확도가 높아졌습니다.
    • 예: 거대한 'ViT-MAE-Huge' 모델은 계산량을 40% 줄였는데, 정확도는 1.64% 오히려 올라갔습니다.
    • 마치 거대한 식당을 작은 카페로 줄였는데, 메뉴는 더 맛있고 서비스는 더 빨라진 것과 같습니다.
  3. 재훈련 시간: 기존에는 재학습에 300 번 이상의 훈련이 필요했지만, 이 방법은 15 번 정도의 간단한 훈련으로 끝났습니다. (거의 즉시 적용 가능!)
  4. 다른 작업에서도 성공: 이미지 분류뿐만 아니라, 물체 감지 (Object Detection) 같은 복잡한 작업에서도 기존 모델보다 더 좋은 결과를 냈습니다.

💡 요약: 왜 이 기술이 중요한가요?

이 연구는 **"무조건 크게 만드는 것 (Big Model)"**에서 **"필요한 것만 깔끔하게 정리하는 것 (Efficient Model)"**으로 패러다임을 바꿉니다.

  • 기존: 거대한 모델을 만들고, 다 잘라내면 망가져서 다시 길게 훈련해야 함.
  • ToaSt: 각 부분 (주의 집중, 내용 처리) 에 맞는 맞춤형 정리법을 써서, 재훈련 없이도 모델을 가볍고 똑똑하게 만듦.

이제 우리는 스마트폰이나 작은 기기에서도 거대 AI 와 같은 똑똑한 기능을 빠르고 가볍게 사용할 수 있는 길이 열린 셈입니다. 마치 거대한 빵 덩어리를 바삭하고 맛있는 토스트로 변신시킨 것과 같습니다! 🍞✨

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →