SoLA: Leveraging Soft Activation Sparsity and Low-Rank Decomposition for Large Language Model Compression

이 논문은 현대 LLM 의 활성화 패턴 분석을 기반으로 훈련 없이 FFN 의 주요 구성 요소를 유지하고 나머지를 저랭크 분해하여 압축하는 'SoLA'라는 새로운 방법을 제안하며, LLaMA-2 및 Mistral 모델에서 후속 학습 없이도 기존 최첨단 방법보다 현저히 낮은 퍼플렉시티와 높은 다운스트림 작업 정확도를 달성함을 보여줍니다.

Xinhao Huang, You-Liang Huang, Zeyi Wen

게시일 2026-04-07
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

SoLA: 거대한 AI 를 '가볍고 똑똑하게' 만드는 새로운 비법

이 논문은 최근 화제가 되는 거대 언어 모델 (LLM, 예: LLaMA) 을 더 작고 빠르면서도, 성능은 그대로 유지하는 새로운 방법인 **'SoLA'**를 소개합니다.

기존의 방법들은 모델을 줄이려면 고가의 하드웨어가 필요하거나, 모델을 다시 학습시키는 (Fine-tuning) 번거로운 과정이 필요했습니다. 하지만 SoLA 는 학습 없이도 모델을 압축할 수 있는 혁신적인 기술을 제안합니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 문제: 거대한 AI 의 '무거운 짐'

거대 언어 모델은 수백억 개의 파라미터 (지식 조각들) 를 가지고 있어 매우 똑똑하지만, 그 무게 때문에 스마트폰이나 일반 컴퓨터에 넣기 어렵습니다. 마치 수백 권의 두꺼운 백과사전을 들고 다니는 것과 같습니다.

기존의 압축 방법들은 이 백과사전을 줄이려 할 때 다음과 같은 문제가 있었습니다:

  • 잘라내기 (Pruning): 중요한 페이지를 실수로 잘라내거나, 하드웨어가 읽지 못하는 이상한 형태로 자르는 경우.
  • 재학습 (Fine-tuning): 잘라낸 후 다시 공부시켜야 해서 시간이 너무 오래 걸림.

2. SoLA 의 핵심 아이디어: "가벼운 옷, 똑똑한 두뇌"

SoLA 는 두 가지 핵심 전략을 사용합니다.

전략 1: '소프트 활성화 희소성' (Soft Activation Sparsity) - "실제 쓰는 사람만 남기기"

현대 AI 는 'ReLU'라는 기능을 쓰지 않고 'SiLU'나 'GeLU'라는 부드러운 기능을 씁니다. 이 때문에 모든 신경 세포 (뉴런) 가 항상 켜져 있는 것처럼 보이지만, 실제로는 매우 적은 수의 뉴런만 활발하게 작동하고 나머지는 거의 잠들어 있습니다.

  • 비유: 거대한 오피스 빌딩을 생각해 보세요. 10,000 명을 고용했지만, 실제로 매일 출근해서 중요한 일을 하는 사람은 **1,500 명 (약 15%)**뿐입니다. 나머지 8,500 명은 거의 일하지 않거나 아주 단순한 일만 합니다.
  • SoLA 의 행동: SoLA 는 이 빌딩을 분석해서, **가장 중요한 15% (Prime Neurons)**는 그대로 두고, 나머지 **비활성화된 85% (Marginal Neurons)**만 처리합니다. 중요한 사람들은 건드리지 않고, 나머지만 다룹니다.

전략 2: '저랭크 분해' (Low-Rank Decomposition) - "핵심 요약본 만들기"

나머지 85% 의 뉴런들을 어떻게 줄일까요? 여기서 '저랭크 분해'라는 기술을 사용합니다.

  • 비유: 100 페이지짜리 긴 보고서 (무거운 데이터) 가 있다고 칩시다. 이 보고서를 핵심 내용만 담은 10 페이지 요약본으로 바꾸는 것입니다. 원래의 모든 세부 사항은 아니지만, 전체적인 의미와 흐름은 그대로 유지하면서 크기는 확 줄어듭니다.
  • SoLA 의 행동: SoLA 는 중요한 뉴런을 제외한 나머지 부분의 데이터들을 이 '요약본' 기술로 압축합니다.

3. 더 똑똑한 압축: "상황에 맞는 크기 조절" (Adaptive Allocation)

단순히 무작위로 요약본을 만드는 게 아니라, 각 부서마다 다른 크기의 요약본을 줍니다.

  • 비유: 회사에서 '영업부'는 중요한 계약서가 많으니 요약본도 조금 더 두껍게 (정밀하게) 주고, '행정부'는 단순한 업무라 아주 얇은 요약본으로 줄여도 됩니다.
  • SoLA 의 행동: 모델의 각 부분 (Attention 모듈, FFN 모듈 등) 이 압축에 얼마나 민감한지 분석해서, **중요한 부분은 조금 더 많이 남기고, 덜 중요한 부분은 더 많이 줄이는 '적응형 전략'**을 사용합니다.

4. 결과: 놀라운 성과

이 방법을 적용한 결과, 놀라운 일이 일어났습니다.

  • 학습 불필요: 모델을 다시 공부시킬 필요가 없습니다. (학습 없이 바로 사용 가능)
  • 성능 유지: 모델을 30% 정도 줄였음에도, 원래 모델과 거의 비슷한 성능을 냅니다.
  • 실제 예시: 거대한 'LLaMA-2-70B' 모델을 30% 압축했을 때, 기존 최고 기술보다 혼란도 (Perplexity) 가 6.95 에서 4.44 로 크게 개선되었고, 다양한 문제 해결 능력도 10% 더 좋아졌습니다.

5. 요약: SoLA 가 가져온 변화

SoLA 는 거대한 AI 모델을 다듬는 새로운 방식을 제시합니다.

  1. 중요한 사람 (뉴런) 은 보호한다: 실제로 가장 많이 쓰는 15% 는 건드리지 않는다.
  2. 덜 중요한 부분은 요약한다: 나머지 85% 는 핵심만 남긴 요약본으로 바꾼다.
  3. 부서별로 다르게 처리한다: 각 부분의 특성에 맞춰 압축 정도를 조절한다.

이 덕분에 우리는 고가의 장비나 긴 학습 시간 없이도, 가볍고 빠른 AI 모델을 손쉽게 만들 수 있게 되었습니다. 마치 거대한 백과사전을 들고 다니는 대신, 가볍고 핵심만 담은 스마트한 전자책을 들고 다니는 것과 같습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →