EntroLLM: Entropy Encoded Weight Compression for Efficient Large Language Model Inference on Edge Devices

EntroLLM 는 재학습 없이 엣지 장치에서 대규모 언어 모델의 저장 공간 요구 사항을 크게 줄이고 추론 속도를 가속화하기 위해 혼합 양자화와 엔트로피 코딩을 결합한 사후 학습 압축 프레임워크입니다.

원저자: Arnab Sanyal, Gourav Datta, Prithwish Mukherjee, Sandeep P. Chinchali, Michael Orshansky

게시일 2026-05-05✓ Author reviewed
📖 3 분 읽기☕ 가벼운 읽기

원저자: Arnab Sanyal, Gourav Datta, Prithwish Mukherjee, Sandeep P. Chinchali, Michael Orshansky

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

당신이 등산할 때 읽기 위해 배낭에 넣고 싶은 거대한 도서관 (대규모 언어 모델) 이 있다고 상상해 보세요. 문제는 이 도서관이 너무 무겁고 커서 배낭에 들어가지 않으며, 설령 들어간다고 해도 책들을 하나씩 꺼내 읽으려고만 해도 팔이 지칠 정도로 힘들다는 것입니다.

이 논문은 이를 해결하기 위해 EntroLLM이라는 새로운 방법을 소개합니다. 이는 도서관 내부의 이야기들을 잃지 않으면서 더 작고 휴대하기 쉽게 만드는 3 단계의 마술과도 같습니다.

1. "뾰족한" 정렬 (혼합 양자화)

보통 사람들이 이러한 도서관을 축소하려 할 때, 책 속의 숫자들을 단순화하기 위해 반올림합니다 (예: 3.14159 를 3.14 로 반올림). 이를 **양자화 (quantization)**라고 합니다. 그러나 표준 방법들은 종종 숫자들을 너무 "평평하고" 무작위적으로 만들어 추가 압축을 어렵게 만듭니다.

저자들의 트릭은 책의 각 장 (또는 "레이어") 을 개별적으로 살펴보는 것입니다. 해당 장의 숫자들이 어떻게 분포되어 있는지에 따라 반올림하는 특별한 방식을 선택합니다:

  • 부호 없는 양자화 (Unsigned Quantization): 양의 단계만 세는 것과 같습니다.
  • 비대칭 양자화 (Asymmetric Quantization): 숫자에 더 잘 맞도록 영점을 이동시키는 것과 같습니다.

이렇게 함으로써 도서관의 숫자들은 "뾰족한" 형태가 됩니다. 대부분의 봉우리가 중앙에 빽빽하게 모여 있고 극단적인 이상치가 거의 없는 산맥을 상상해 보세요. 이러한 "뾰족한" 형태는 평평하고 무작위적인 지형보다 훨씬 압축하기 쉽습니다.

2. "약어" 사전 (허프만 코딩)

숫자들이 이 "뾰족한" 패턴으로 정렬되면, 저자들은 **허프만 코딩 (Huffman coding)**이라는 기법을 사용합니다.

이는 도서관을 위한 비밀 코드를 작성하는 것과 같습니다. 영어에서 문자 "E"는 매우 자주 등장하므로 "E"를 점 하나 (•) 로 나타내고, "Z"처럼 드문 문자는 긴 코드 (•••••) 로 나타내기로 결정할 수 있습니다.

  • "뾰족한" 정렬로 인해 특정 숫자 값들이 매우 자주 나타나게 되므로, 코드는 이러한 흔한 숫자들에게 매우 짧고 작은 레이블을 부여합니다.
  • 드문 숫자들은 더 긴 레이블을 받습니다.

이로써 도서관의 전체 크기가 크게 줄어듭니다. 논문은 이 단계가 기존 최상위 방법들보다 압축률을 7 배에서 11 배까지 향상시킨다고 주장합니다. 이는 이야기를 바꾸지 않고 100 페이지짜리 책을 10 페이지짜리 팜플렛으로 만드는 것과 같습니다.

3. "팀 독서" 전략 (병렬 디코딩)

여기가 까다로운 부분입니다: 보통 비밀 코드를 읽으려면 처음부터 끝까지 한 글자씩 읽어야 합니다. 거대한 도서관이 있다면 이는 영원히 걸리며, 배낭 (장치) 은 기다리는 동안 멈춰 서게 됩니다.

저자들은 코드가 짧아졌더라도 책들은 여전히 큰 덩어리 (텐서) 로 조직되어 있음을 깨달았습니다. 따라서 그들은 도서관을 여러 개의 독립적인 섹션으로 나눕니다.

  • 한 사람이 코드를 순차적으로 읽는 대신, **독자 팀 (병렬 스레드)**을 고용합니다.
  • 각 독자는 도서관의 다른 덩어리를 잡고 동시에 자신의 섹션을 디코딩합니다.
  • 덩어리들이 독립적이기 때문에 서로 기다릴 필요가 없습니다.

이는 도서관이 작고 압축되어 있더라도 장치가 필요할 때 거의 즉시 책들을 "풀어낼" 수 있음을 의미하며, 읽기 속도를 매우 빠르게 만듭니다.

결과: 더 가볍고 빠른 배낭

저자들은 작은 장치 (NVIDIA JETSON, 강력하지만 작은 컴퓨터와 유사) 에서 다양한 크기의 세 가지 다른 "도서관" (AI 모델) 을 테스트했습니다.

  • 저장 공간: 표준 8 비트 모델 대비 최대 30% 더 많은 공간을 절약했고, 4 비트 모델 대비 65% 더 많은 공간을 절약했습니다.
  • 속도: 이동해야 할 데이터가 적어졌기 때문에 장치가 생각 (추론) 할 수 있는 속도가 30% 에서 146% 까지 빨라졌습니다.
  • 정확도: "이야기들" (AI 의 답변) 은 원래 축소되지 않은 도서관만큼 정확했습니다.

요약하자면: EntroLLM 은 데이터를 "뾰족한" 형태로 조직화하고, 초효율적인 약어로 작성하며, 작업자 팀이 한꺼번에 모두 풀어내도록 함으로써 거대한 AI 두뇌를 작은 배낭에 포장하는 방법입니다. 이는 슈퍼컴퓨터 없이도 배터리로 작동하는 작은 장치에서 똑똑한 AI 를 실행할 수 있게 해줍니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →