Addition is almost all you need: Compressing large language models with double binary factorization

Each language version is independently generated for its own context, not a direct translation.

🧩 핵심 아이디어: "거대한 벽돌을 두 개의 작은 벽돌로 나누다"

지금까지 AI 모델을 압축하는 방법은 주로 **"숫자를 줄이는 것"**이었습니다. 예를 들어, 정교한 16 자리 숫자 (고급 벽돌) 를 1 비트 (0 또는 1, 아주 단순한 벽돌) 로 바꾸는 거죠. 하지만 이렇게 너무 단순하게 만들면 AI 의 지능 (정확도) 이 떨어지는 문제가 생깁니다.

이 논문은 **"단순한 벽돌 하나를 쓰는 대신, 두 개의 단순한 벽돌을 clever하게 조합해서 원래의 정교한 벽돌을 흉내 내자"**고 제안합니다.

1. 기존 방식의 한계 (단일 벽돌)

기존의 '이진화 (Binary Quantization)' 방식은 AI 의 모든 숫자를 +1 또는 -1로만 바꾸려 했습니다.

비유: 거대한 아파트를 짓기 위해 오직 '검은 벽돌'과 '흰 벽돌'만 사용하려다 보니, 건물의 모양이 뭉개져서 예쁘지 않게 되었습니다. 계산은 빨라졌지만 (곱셈 대신 덧셈만 하니까), 성능이 떨어집니다.

2. 이 논문의 해결책: 이중 이진 분해 (DBF)

저자들은 "그럼 두 개의 벽돌을 겹쳐서 쓰면 어떨까?"라고 생각했습니다.

방법: 원래의 복잡한 숫자 행렬을 **두 개의 이진 행렬 (±1 만 있는 행렬)**과 몇 개의 **보정 숫자 (스케일링 벡터)**로 나눕니다.
비유:
- 원래의 정교한 벽돌 (W) 을 만들려면, A 벽돌과 B 벽돌을 쌓고, 그 사이에 **접착제 (보정 숫자)**를 바르면 됩니다.
- A 와 B 는 여전히 단순한 검은/흰 벽돌이지만, 두 개를 적절히 섞고 접착제로 보정하면 원래의 정교한 모양과 거의 똑같은 효과를 낼 수 있습니다.
- 핵심: "곱셈"이라는 무거운 작업을 "덧셈"이라는 가벼운 작업으로 대체하면서도, 두 개의 단순한 요소를 조합해 정밀도를 유지합니다.

🚀 이 방법이 왜 특별한가요?

1. "원하는 크기로 자유롭게 자를 수 있다" (유연성)

기존 압축 기술은 "1 비트", "2 비트"처럼 정해진 크기만 쓸 수 있었습니다. 마치 옷을 사는데 'S, M, L' 사이즈만 있는 것과 같습니다.

DBF 의 장점: 이 방법은 중간에 끼우는 벽돌의 수 (중간 차원) 를 조절해서 0.1 비트 단위로도 압축률을 조절할 수 있습니다. "내 옷장에 딱 맞는 사이즈"를 만들 수 있는 셈입니다.

2. "중요한 부분에는 더 신경 쓰자" (중요도 기반 압축)

AI 모델의 모든 부분이 똑같이 중요한 것은 아닙니다.

비유: AI 가 글을 쓸 때, '사과'라는 단어와 '공기'라는 단어의 중요도는 다릅니다.
DBF 의 전략: 이 방법은 AI 가 어떤 부분이 더 중요한지 (입력과 출력의 중요도) 분석합니다. 중요한 부분은 더 정밀하게, 덜 중요한 부분은 더 강하게 압축합니다. 마치 고급 레스토랑에서 비싼 재료는 아끼지 않고, 흔한 재료는 적게 쓰는 것과 같습니다.

3. "속도도 2~3 배 빨라졌다" (실제 성능)

이론적으로만 좋은 게 아닙니다. 실제로 실행해 보니:

속도: 기존 방식보다 2 배에서 3.5 배 더 빨라졌습니다.
에너지: 곱셈 (무거운 작업) 을 덧셈 (가벼운 작업) 으로 바꿨기 때문에 전기도 훨씬 적게 먹습니다. 스마트폰이나 개인용 컴퓨터에서도 AI 를 더 부드럽게 돌릴 수 있게 됩니다.

📊 실제 실험 결과 (Llama 모델로 테스트)

저자들은 유명한 AI 모델인 'Llama'를 이 방법으로 압축해 보았습니다.

1 비트 압축 (가장 극단적): 기존 방식은 성능이 뚝 떨어졌지만, DBF 는 훨씬 잘 유지했습니다.
2 비트 압축: 최신 기술 (QuIP#, QTIP 등) 과 경쟁할 정도로 성능이 좋았습니다.
비유: "기존 방식은 1 비트로 줄이면 AI 가 멍청해져서 '안녕하세요'도 못 말렸다면, DBF 는 1 비트로 줄여도 '안녕하세요, 오늘 날씨가 좋네요'까지 자연스럽게 말합니다."

💡 한 줄 요약

이 논문은 **"AI 의 거대한 두뇌를 단순한 0 과 1 로만 압축하려다 지능을 잃는 대신, 두 개의 단순한 0/1 블록을 clever하게 조합하고 보정해서, 성능은 유지하면서 크기와 계산 비용을 획기적으로 줄이는 새로운 방법"**을 제시했습니다.

이 기술이 상용화되면, 우리가 스마트폰에서도 무거운 AI 모델을 빠르고 저렴하게 사용할 수 있는 날이 더 가까워질 것입니다.

Each language version is independently generated for its own context, not a direct translation.

논문 요약: 이중 이진 분해 (Double Binary Factorization, DBF) 를 통한 대규모 언어 모델 압축

1. 문제 제기 (Problem)

대규모 언어 모델 (LLM) 의 급격한 성장으로 인해 추론 시 필요한 계산 자원과 저장 공간이 기하급수적으로 증가하고 있습니다. 이를 해결하기 위해 양자화 (Quantization) 와 가지치기 (Pruning) 와 같은 압축 기술이 활발히 연구되고 있습니다. 특히, 가중치를 이진수 (±1) 로 변환하여 곱셈 연산을 덧셈으로 대체하는 이진 양자화 (Binary Quantization) 는 에너지 효율성과 계산 속도 측면에서 매우 매력적입니다.

그러나 기존 단일 이진 행렬을 사용하는 방법 (예: OneBit, BitNet 등) 은 심각한 양자화 제약 (±1 만 사용) 으로 인해 모델의 정확도가 크게 저하되는 문제가 있습니다. 또한, 기존 고도화된 양자화 방법들 (QuIP#, QTIP 등) 은 가중치를 다시 고정 소수점 (Full Precision) 으로 해독해야 하므로 하드웨어 가속의 이점을 온전히 누리지 못하거나, 비트당 비트 수 (bits-per-weight) 조절에 유연성이 부족하다는 한계가 있습니다.

2. 방법론 (Methodology)

저자들은 이중 이진 분해 (Double Binary Factorization, DBF) 라는 새로운 압축 기법을 제안합니다. 이는 밀집된 가중치 행렬 $W$ 를 두 개의 이진 (부호) 행렬과 스케일링 벡터들의 곱으로 근사하는 방식입니다.

수식적 정의:
$W \approx (a \odot A_{\pm 1} \odot m^T)(B_{\pm 1} \odot b^T)$
- $A_{\pm 1}, B_{\pm 1}$ : 원소 값이 $\{-1, 1\}$ 인 이진 행렬.
- $a, m, b$ : 16 비트 부동 소수점 (FP16) 스케일링 벡터.
- $\odot$ : 요소별 곱 (Hadamard product).
- 중간 차원 $k$ 를 조절하여 압축 비율을 유연하게 제어할 수 있습니다.
계산 과정:
기존 곱셈 대신 행렬 곱셈 시 이진 행렬과의 연산을 덧셈으로 대체하여 수행합니다.
$XW^T \approx ((((X \odot b^T)B_{\pm 1}^T) \odot m^T)A_{\pm 1}^T) \odot a^T$
최적화 알고리즘:
최적의 DBF 를 찾는 문제는 NP-hard 일 수 있으므로, 저자들은 교대 최소화 (Alternating Minimization) 와 ADMM (Alternating Direction Method of Multipliers) 기반의 휴리스틱 알고리즘을 제안합니다.
- 중요도 기반 스케일링: 입력 활성화 노름 (입력 중요도) 과 그래디언트 노름 (출력 중요도) 을 고려하여 행렬의 행과 열에 다른 가중치를 부여합니다. 이는 Fisher 정보 행렬의 근사치로 작용하여 중요한 가중치의 오차를 줄입니다.
- 미세 조정 (Fine-tuning): QuIP# 및 QTIP 방식과 유사하게 압축 전후로 미세 조정을 수행하며, PV-tuning (이산 파라미터 미세 조정) 을 부분적으로 적용하여 성능을 향상시킵니다.
비균일 계층 압축 (Non-uniform Layer Compression):
DBF 의 중간 차원 ( $k$ ) 을 채널로 간주하여, 기존 채널 가지치기 기준 (기울기 기반 중요도) 을 적용합니다. 이를 통해 계층별로 다른 압축 비율을 동적으로 할당하는 반복적 알고리즘을 제안합니다.

3. 주요 기여 (Key Contributions)

DBF 알고리즘 제안: 밀집 가중치 행렬을 두 개의 이진 행렬과 스케일링 벡터의 곱으로 분해하는 실용적인 알고리즘을 개발했습니다.
성능 및 효율성 균형: 단일 이진 행렬 방식보다 압축률이 우수하며, 2 비트 구간에서는 QuIP#, QTIP 등 최첨단 양자화 방법과 경쟁 가능한 정확도를 달성했습니다. 특히 1 비트 구간에서는 기존 이진화 방법보다 월등히 우수한 성능을 보입니다.
유연한 압축 비율 제어: 대부분의 양자화 방법이 정수 비트 수 (예: 1bit, 2bit) 로 제한되는 반면, DBF 는 중간 차원 조절을 통해 연속적이고 세밀한 압축 비율을 지원합니다.
하드웨어 가속 및 에너지 효율: 곱셈을 덧셈으로 대체하여 에너지 소모를 줄이고, 현재 GPU 환경에서 밀집 모델 대비 2~3.5 배의 추론 속도 향상을 입증했습니다.

4. 실험 결과 (Results)

모델: Llama2-7B, Llama3-8B 모델에 대해 평가 수행.
평가 지표: WikiText-2 perplexity, ARC, PiQA, Winogrande, MMLU, GSM8k 등.
성능 비교:
- 2.3 비트 구간: AQLM + PV 튜닝과 유사한 성능을 보였습니다.
- 2 비트 구간: QTIP보다 약간 낮지만 QuIP#보다 우수한 성능을 기록했습니다.
- 1~1.5 비트 구간: OneBit, BiLLM 등 기존 이진화 방법보다 압도적으로 우수한 성능을 보였습니다 (예: Llama2-7B 1 비트에서 DBF 는 Perplexity 8.76, OneBit 는 9.73).
- 비균일 압축: 계층별 중요도에 따라 압축 비율을 다르게 적용하여 Llama3-8B 의 Perplexity 를 7.30 에서 7.26 으로 추가 개선했습니다.
속도 향상:
- 행렬 - 벡터 곱셈: 2 비트 기준 2.14~~3.25 배, 1 비트 기준 3.01~~6.52 배 속도 향상.
- LLM 디코딩 (Batch size 1): FP16 기준 대비 약 2.0~2.9 배의 처리량 (Throughput) 향상.

5. 의의 및 결론 (Significance)

이 논문은 이진 연산 (덧셈) 만으로도 곱셈 기반의 정밀한 모델 압축이 가능함을 입증했습니다. DBF 는 기존 이진 양자화의 정확도 한계를 분해 (Factorization) 기법으로 극복하면서도, 하드웨어 친화적인 구조를 유지합니다.

기술적 의의: "곱셈은 거의 필요 없다 (Addition is almost all you need)"는 명제를 통해, 에너지 효율적인 LLM 추론을 위한 새로운 패러다임을 제시했습니다.
실용성: 현재 상용 GPU 에서 즉시 적용 가능한 속도 향상을 제공하며, 메모리 대역폭 병목 현상을 완화합니다.
미래 전망: DBF 는 미세 조정 중 이진 행렬의 동적 분해나, 미세 조정과 결합된 반복적 가지치기 기법 등을 통해 더욱 발전할 수 있는 잠재력을 가지고 있습니다.

결론적으로, DBF 는 LLM 의 배포 장벽을 낮추기 위한 압축률, 정확도, 추론 속도라는 세 마리 토끼를 모두 잡을 수 있는 강력한 솔루션으로 평가됩니다.