Sparsity Forcing: Reinforcing Token Sparsity of MLLMs

이 논문은 효율성과 정확도를 공동 보상으로 활용하는 강화학습 기반의 'Sparsity Forcing' 프레임워크를 제안하여, 멀티모달 대규모 언어 모델의 토큰 양을 정확도 저하 없이 최대 75% 까지 줄이고 추론 속도와 메모리 효율을 획기적으로 개선합니다.

Feng Chen, Yefei He, Lequan Lin, Chenhui Gou, Jing Liu, Bohan Zhuang, Qi Wu

게시일 2026-03-02
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎒 "스파서티 포싱 (Sparsity Forcing)": AI 의 '가방 정리'를 도와주는 새로운 방법

이 논문은 멀티모달 대형 언어 모델 (MLLM, 이미지와 비디오를 보고 대답하는 AI) 이 너무 무거워서 느리고 비싸다는 문제를 해결하는 방법을 소개합니다. 핵심 아이디어는 **"AI 가 불필요한 정보를 버리고, 정말 중요한 것만 챙겨서 대답하게 만드는 것"**입니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 문제: "AI 는 왜 이렇게 무겁고 느릴까요?"

상상해 보세요. AI 가 고해상도 사진을 보거나 긴 동영상을 분석할 때, 마치 수만 개의 조각난 퍼즐 조각을 한 번에 모두 손에 쥐고 있는 것과 같습니다.

  • 기존 AI 는 이 퍼즐 조각들 중 90% 가 실제로는 쓸모없는 '빈 조각'인데도, 모두 다 챙겨서 계산합니다.
  • 그래서 AI 는 가방 (메모리) 이 너무 무거워져서 움직이느라 지치고, 답을 내는 속도가 매우 느려집니다.

기존 방법들은 AI 가 "아, 이 조각은 쓸모없네"라고 스스로 알아서 버리게 하려고 했지만, AI 는 너무 조심스러워서 여전히 50% 이상의 조각을 들고 다닙니다. 더 많이 버리면 (예: 90% 버리기) 정답을 못 맞추는 경우가 생깁니다.

2. 해결책: "스파서티 포싱 (Sparsity Forcing)"이란 무엇인가요?

이 논문은 **"강제적인 정리 (Forcing)"**를 통해 AI 를 훈련시키는 새로운 방법을 제안합니다.

🎒 비유: "여행 가방 정리 대회"

이 방법은 AI 를 여행 가방을 정리하는 학생으로 상상해 보세요.

  1. 상황: 학생 (AI) 이 여행 (질문) 에 나갑니다. 가방에는 100 개의 물건 (토큰/정보) 이 들어있습니다.

  2. 기존 방식: 학생은 "아마 이거 필요할 거야"라고 생각하며 50 개만 버립니다. 하지만 가방은 여전히 무겁습니다.

  3. 새로운 방식 (스파서티 포싱):

    • 선생님은 학생에게 **"10 번의 시뮬레이션"**을 시킵니다.
    • 1 번 시뮬레이션: 90% 만 버리고 가세요. (정답이 나옴)
    • 2 번 시뮬레이션: 50% 만 버리고 가세요. (정답이 나옴)
    • 3 번 시뮬레이션: 95% 를 버리고 가세요. (정답이 안 나옴)
    • 4 번 시뮬레이션: 80% 를 버리고 가세요. (정답이 나옴)
  4. 학습 과정 (보상 시스템):

    • 선생님은 학생에게 **"가방이 가장 가볍으면서도 정답을 맞춘 시나리오"**를 칭찬합니다 (보상).
    • 반면, "가방이 무거운데 정답을 맞췄거나", "가방은 가볍지만 정답을 틀린 시나리오"는 꾸짖습니다 (패널티).
    • 이 과정을 반복하면 학생은 **"어떤 물건은 정말 필요 없고, 어떤 건 꼭 챙겨야 한다"**는 것을 스스로 깨닫게 됩니다.

이것이 바로 **강화 학습 (RL)**을 이용한 '스파서티 포싱'입니다. AI 가 스스로 가장 효율적인 '가방 정리법'을 찾아내도록 훈련시키는 것입니다.

3. 이 방법의 놀라운 성과

이 방법을 적용한 결과, AI 의 변화는 다음과 같습니다.

  • 📉 가방 무게 75% 감소: AI 가 들고 다니는 정보 (토큰) 를 기존 20% 수준에서 75% 까지 줄여도 정답률은 거의 떨어지지 않습니다.
    • 비유: 100 개의 물건 중 75 개를 버려도, 여행에 필요한 핵심 물건만 딱 챙겨서 오히려 더 가볍고 빠르게 이동합니다.
  • ⚡ 속도 3.3 배 빨라짐: 불필요한 계산이 사라져서 답변 속도가 3 배 이상 빨라졌습니다.
  • 💾 메모리 3 배 절약: 긴 동영상을 분석할 때 필요한 메모리 공간이 3 배나 줄어듭니다.

4. 왜 이 방법이 특별한가요?

  • 기존 방법 (SFT): 교사가 정답을 알려주며 "이건 버려, 이건 챙겨"라고 일일이 가르치는 방식입니다. 하지만 실제 상황 (시험) 과는 달라서 효과가 제한적입니다.
  • 이 방법 (RL): AI 가 스스로 여러 번 시도해보고, "어떤 조합이 가장 효율적인가?"를 스스로 경험하며 배웁니다. 마치 시험을 치기 전에 모의고사를 여러 번 치고 실력을 키우는 것과 같습니다.

5. 결론: "더 가볍게, 더 똑똑하게"

이 논문은 AI 가 불필요한 정보에 시간을 낭비하지 않고, 핵심 정보에만 집중하도록 훈련시키는 방법을 제시합니다.

마치 명품 가방을 정리할 때, 쓸모없는 잡동사니는 과감히 버리고 가장 중요한 명품 아이템들만 깔끔하게 정리하는 것과 같습니다. 그 결과 AI 는 더 가볍게, 더 빠르게, 그리고 똑똑하게 작동하게 됩니다.

이 기술이 상용화되면, 우리가 스마트폰이나 태블릿에서 고화질 영상을 실시간으로 분석하거나 복잡한 질문을 할 때, 배터리도 덜 소모되고 훨씬 빠르게 응답받을 수 있게 될 것입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →