Addition is almost all you need: Compressing large language models with double binary factorization

이 논문은 이진 행렬과 스케일링 벡터의 곱으로 가중치를 분해하여 대규모 언어 모델의 압축률과 정확도를 동시에 개선하고, 레이어별 비균일 압축 비율을 정밀하게 제어할 수 있는 '더블 이진 분해 (DBF)' 방법을 제안합니다.

Vladimír Boža, Vladimír Macko

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧩 핵심 아이디어: "거대한 벽돌을 두 개의 작은 벽돌로 나누다"

지금까지 AI 모델을 압축하는 방법은 주로 **"숫자를 줄이는 것"**이었습니다. 예를 들어, 정교한 16 자리 숫자 (고급 벽돌) 를 1 비트 (0 또는 1, 아주 단순한 벽돌) 로 바꾸는 거죠. 하지만 이렇게 너무 단순하게 만들면 AI 의 지능 (정확도) 이 떨어지는 문제가 생깁니다.

이 논문은 **"단순한 벽돌 하나를 쓰는 대신, 두 개의 단순한 벽돌을 clever하게 조합해서 원래의 정교한 벽돌을 흉내 내자"**고 제안합니다.

1. 기존 방식의 한계 (단일 벽돌)

기존의 '이진화 (Binary Quantization)' 방식은 AI 의 모든 숫자를 +1 또는 -1로만 바꾸려 했습니다.

  • 비유: 거대한 아파트를 짓기 위해 오직 '검은 벽돌'과 '흰 벽돌'만 사용하려다 보니, 건물의 모양이 뭉개져서 예쁘지 않게 되었습니다. 계산은 빨라졌지만 (곱셈 대신 덧셈만 하니까), 성능이 떨어집니다.

2. 이 논문의 해결책: 이중 이진 분해 (DBF)

저자들은 "그럼 두 개의 벽돌을 겹쳐서 쓰면 어떨까?"라고 생각했습니다.

  • 방법: 원래의 복잡한 숫자 행렬을 **두 개의 이진 행렬 (±1 만 있는 행렬)**과 몇 개의 **보정 숫자 (스케일링 벡터)**로 나눕니다.
  • 비유:
    • 원래의 정교한 벽돌 (W) 을 만들려면, A 벽돌B 벽돌을 쌓고, 그 사이에 **접착제 (보정 숫자)**를 바르면 됩니다.
    • A 와 B 는 여전히 단순한 검은/흰 벽돌이지만, 두 개를 적절히 섞고 접착제로 보정하면 원래의 정교한 모양과 거의 똑같은 효과를 낼 수 있습니다.
    • 핵심: "곱셈"이라는 무거운 작업을 "덧셈"이라는 가벼운 작업으로 대체하면서도, 두 개의 단순한 요소를 조합해 정밀도를 유지합니다.

🚀 이 방법이 왜 특별한가요?

1. "원하는 크기로 자유롭게 자를 수 있다" (유연성)

기존 압축 기술은 "1 비트", "2 비트"처럼 정해진 크기만 쓸 수 있었습니다. 마치 옷을 사는데 'S, M, L' 사이즈만 있는 것과 같습니다.

  • DBF 의 장점: 이 방법은 중간에 끼우는 벽돌의 수 (중간 차원) 를 조절해서 0.1 비트 단위로도 압축률을 조절할 수 있습니다. "내 옷장에 딱 맞는 사이즈"를 만들 수 있는 셈입니다.

2. "중요한 부분에는 더 신경 쓰자" (중요도 기반 압축)

AI 모델의 모든 부분이 똑같이 중요한 것은 아닙니다.

  • 비유: AI 가 글을 쓸 때, '사과'라는 단어와 '공기'라는 단어의 중요도는 다릅니다.
  • DBF 의 전략: 이 방법은 AI 가 어떤 부분이 더 중요한지 (입력과 출력의 중요도) 분석합니다. 중요한 부분은 더 정밀하게, 덜 중요한 부분은 더 강하게 압축합니다. 마치 고급 레스토랑에서 비싼 재료는 아끼지 않고, 흔한 재료는 적게 쓰는 것과 같습니다.

3. "속도도 2~3 배 빨라졌다" (실제 성능)

이론적으로만 좋은 게 아닙니다. 실제로 실행해 보니:

  • 속도: 기존 방식보다 2 배에서 3.5 배 더 빨라졌습니다.
  • 에너지: 곱셈 (무거운 작업) 을 덧셈 (가벼운 작업) 으로 바꿨기 때문에 전기도 훨씬 적게 먹습니다. 스마트폰이나 개인용 컴퓨터에서도 AI 를 더 부드럽게 돌릴 수 있게 됩니다.

📊 실제 실험 결과 (Llama 모델로 테스트)

저자들은 유명한 AI 모델인 'Llama'를 이 방법으로 압축해 보았습니다.

  • 1 비트 압축 (가장 극단적): 기존 방식은 성능이 뚝 떨어졌지만, DBF 는 훨씬 잘 유지했습니다.
  • 2 비트 압축: 최신 기술 (QuIP#, QTIP 등) 과 경쟁할 정도로 성능이 좋았습니다.
  • 비유: "기존 방식은 1 비트로 줄이면 AI 가 멍청해져서 '안녕하세요'도 못 말렸다면, DBF 는 1 비트로 줄여도 '안녕하세요, 오늘 날씨가 좋네요'까지 자연스럽게 말합니다."

💡 한 줄 요약

이 논문은 **"AI 의 거대한 두뇌를 단순한 0 과 1 로만 압축하려다 지능을 잃는 대신, 두 개의 단순한 0/1 블록을 clever하게 조합하고 보정해서, 성능은 유지하면서 크기와 계산 비용을 획기적으로 줄이는 새로운 방법"**을 제시했습니다.

이 기술이 상용화되면, 우리가 스마트폰에서도 무거운 AI 모델을 빠르고 저렴하게 사용할 수 있는 날이 더 가까워질 것입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →