Deterministic Differentiable Structured Pruning for Large Language Models

이 논문은 확률적 요소를 제거하고 결정론적 부드러운 대상을 직접 최적화하여 훈련 - 테스트 불일치를 줄이고 수렴 속도를 높이며 대규모 언어 모델의 구조적 가지치기 성능을 향상시킨 '결정론적 미분 가능 가지치기 (DDP)' 방법을 제안합니다.

Weiyu Huang, Pengle Zhang, Xiaolu Zhang, Jun Zhou, Jun Zhu, Jianfei Chen

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

거대한 언어 모델의 '필요 없는 짐'을 덜어주는 새로운 방법: DDP

이 논문은 거대한 인공지능 (LLM) 을 더 가볍고 빠르게 만들 수 있는 새로운 pruning(가지치기) 기술을 소개합니다. 마치 거대한 도서관에서 읽지 않는 책을 버려서 공간을 확보하는 것과 비슷하지만, 기존 방법들보다 훨씬 똑똑하고 정확하게 작동합니다.

이 기술의 핵심을 일상적인 비유로 설명해 드리겠습니다.


1. 문제: 거대한 AI 는 너무 무겁고 비쌉니다

현재의 거대 언어 모델 (LLM) 은 엄청난 양의 지식과 능력을 가지고 있지만, 그 크기가 너무 커서 실행하려면 슈퍼컴퓨터 같은 고가의 장비와 전기가 필요합니다.

  • 비유: 마치 거대한 10 층짜리 빌딩을 운영하는 것과 같습니다. 모든 층 (레이어) 과 모든 방 (뉴런) 을 다 유지하려면 관리 비용이 천문학적으로 듭니다. 우리는 "어떤 층이나 방은 실제로 거의 쓰이지 않으니 없애도 되지 않을까?"라고 생각합니다.

2. 기존 방법의 한계: "주사위를 굴리는" 방식

기존의 가지치기 기술들은 AI 의 각 부분을 '유지'할지 '삭제'할지 결정할 때 **주사위 (무작위성)**를 사용했습니다.

  • 비유: 빌딩 관리자가 "이 방은 쓸모없을 것 같아"라고 생각할 때, 동전 던지기로 결정합니다.
    • 문제 1 (훈련과 실제의 불일치): 훈련할 때는 동전 던지기를 하지만, 실제 빌딩을 운영할 때는 동전을 던질 수 없습니다. 그래서 "아, 훈련할 때는 50% 확률로 썼는데, 실제론 100% 쓰거나 0% 쓰게 하니까 결과가 달라지네?"라는 혼란이 생깁니다.
    • 문제 2 (정밀도 부족): 동전 던지기는 '유지'와 '삭제'만 0 과 1 로 딱딱하게 나눕니다. 하지만 "이 방은 아주 조금만 쓰면 되는데?"라는 미묘한 조절이 불가능합니다.

3. 이 논문의 해결책: DDP (결정론적 미분 가능한 가지치기)

이 논문이 제안한 **DDP(Deterministic Differentiable Pruning)**는 주사위나 동전을 버리고, 정확한 계산과 점진적인 조절을 사용합니다.

핵심 아이디어 3 가지

① 주사위 없이, 확실한 계산으로 (Deterministic)

  • 비유: 이제 동전 던지기를 하지 않습니다. 대신 **"이 방의 사용 빈도를 0.01 씩씩 정밀하게 계산"**합니다.
  • 훈련할 때나 실제 사용할 때나 동일한 기준을 적용하므로, 훈련 결과와 실제 성능이 딱 맞아떨어집니다.

② 점진적인 '스무스' 조절 (Soft Surrogate)

  • 비유: 방을 갑자기 '폐쇄'하거나 '개방'하는 게 아니라, 커튼을 서서히 내리는 방식입니다.
    • 처음에는 커튼을 살짝 (10%) 내리고, 훈련이 진행될수록 더 많이 (50%, 90%) 내립니다.
    • AI 는 이 과정에서 "어떤 방이 정말 필요 없는지"를 스스로 학습하게 됩니다. 마지막에 커튼이 완전히 닫히면 (0%) 그 방은 완전히 사라집니다.
  • 이 방식은 AI 가 "아, 이 부분은 아주 조금만 쓰면 되겠구나"라고 미묘한 차이를 이해하게 해줍니다.

③ '이중 역할'을 하는 스마트한 관리자

  • 비유: AI 는 두 가지 역할을 동시에 합니다.
    1. 실제 운영자: 현재는 모든 방을 열어두고 일을 시킵니다 (학습 중).
    2. 평가자: "이 방은 실제로는 거의 쓰이지 않으니, 나중에 치울 준비를 해라"라고 점수를 매깁니다.
  • 이 두 가지 정보를 분리해서 처리하기 때문에, AI 는 학습을 방해받지 않으면서도 불필요한 부분을 찾아낼 수 있습니다.

4. 결과: 더 가볍고, 더 똑똑해짐

이 방법을 적용한 결과, 다음과 같은 놀라운 성과가 나왔습니다.

  • 성능 유지: 빌딩의 20%~50% 를 없애도, AI 의 지능 (정답률) 은 거의 떨어지지 않았습니다. (기존 방법들은 20% 만 잘라내도 성능이 뚝 떨어졌습니다.)
  • 속도 향상: 불필요한 층과 방을 없애니, 빌딩을 돌아다니는 시간이 훨씬 빨라졌습니다. 실제 서버에서 실행했을 때 속도가 1.5 배에서 2 배까지 빨라졌습니다.
  • 적용 범위: 작은 모델부터 수십 조 개의 파라미터를 가진 초대형 모델 (Qwen3 등) 까지 모두 잘 작동했습니다.

5. 요약: 왜 이것이 중요한가요?

이 기술은 **"AI 를 더 가볍게 만드는 것"**이 단순히 '삭제'하는 게 아니라, **"어떤 부분이 진짜 중요한지 AI 스스로가 정밀하게 찾아내게 하는 과정"**임을 보여줍니다.

  • 과거: "동전 던져서 불필요한 것 버리기" (성능 떨어짐, 불안정함)
  • 현재 (DDP): "정밀한 저울로 무게를 재서, 정말 가벼운 것만 골라내기" (성능 유지, 안정적, 빠름)

이제 우리는 고가의 장비 없이도, 일반 스마트폰이나 개인용 컴퓨터에서도 거대하고 똑똑한 AI 를 더 빠르게 구동할 수 있는 길이 열렸습니다. 마치 거대한 도서관에서 불필요한 책만 깔끔하게 정리해서, 필요한 책만 빠르게 찾아볼 수 있게 만든 것과 같습니다.