FreeAct: Freeing Activations for LLM Quantization

Each language version is independently generated for its own context, not a direct translation.

1. 문제 상황: "무거운 요리를 가볍게 하려면?"

거대한 인공지능 모델 (LLM) 은 방대한 양의 **식재료 (데이터)**와 **레시피 (모델 가중치)**를 가지고 있습니다. 하지만 이걸 그대로 쓰려면 컴퓨터가 너무 무겁고 비쌉니다. 그래서 사람들은 이 식재료를 작게 자르거나 (Quantization, 양자화) 단순화해서 저장하려 합니다.

하지만 여기서 큰 문제가 생깁니다.

기존 방식의 한계: 기존의 기술들은 "모든 식재료를 똑같은 방식으로 자르자"라고 생각했습니다. 예를 들어, 고기든 야채든 똑같은 크기로 자르는 것입니다.
현실의 문제: 하지만 최근의 인공지능들은 다양한 종류의 입력을 받습니다.
- 확산 모델 (dLLM): 문장을 만들 때, 일부는 이미 정해져 있고 일부는 아직 비어있는 (마스크된) 상태입니다. (예: "오늘 날씨는 [MASK] 입니다" vs "오늘 날씨는 맑습니다")
- 멀티모달 모델 (MLLM): 글자 (텍스트) 와 그림 (이미지) 이 섞여 들어옵니다.

이렇게 **서로 성격이 다른 식재료 (활성화값)**를 모두 똑같은 칼로 자르면, 중요한 맛 (정보) 이 날아가버려서 인공지능이 멍청해지거나 엉뚱한 말을 하게 됩니다.

2. FreeAct 의 아이디어: "상황에 맞는 칼을 쓰자"

FreeAct 는 **"하나의 칼로 모든 것을 자르지 말자"**라고 제안합니다.

기존 방식 (One-to-One): 레시피 (가중치) 에 칼을 하나만 대고, 그 칼의 반대편에 들어오는 식재료 (활성화) 도 무조건 그 칼에 맞춰야 한다고 생각했습니다. "칼 A 가 있으면, 반드시 그 칼의 반대편인 A' 가 있어야 한다"는 식의 ** rigid(경직된) 규칙**이었습니다.
FreeAct 의 방식 (Freeing Activations):
- 레시피 (가중치) 는 그대로: 주방의 기본 도구인 칼 (가중치) 은 고정된 채로 둡니다.
- 식재료 (활성화) 는 유연하게: 들어오는 식재료의 종류에 따라 다른 칼을 사용합니다.
  - **글자 (텍스트)**가 들어오면? 글자에 맞는 칼로 다듬습니다.
  - **그림 (이미지)**가 들어오면? 그림에 맞는 다른 칼로 다듬습니다.
  - **비어있는 부분 (마스크)**이 들어오면? 그 부분에 맞는 칼로 다듬습니다.

이렇게 하면, 서로 다른 성질의 식재료를 각각 가장 잘게 다듬을 수 있어서, 양자화 (간소화) 를 해도 원래의 맛 (정확도) 이 거의 사라지지 않습니다.

3. 어떻게 가능할까? "빈 공간의 비밀"

"칼을 여러 개 쓰면 레시피가 꼬이지 않나요?"라는 의문이 들 수 있습니다. 여기서 FreeAct 는 수학적 비밀을 이용합니다.

비유: 인공지능의 데이터는 사실 꽉 찬 공간이 아니라, 빈 공간이 많은 공간입니다. (수학적으로 '랭크 결손'이라고 합니다.)
해결책: 빈 공간이 많기 때문에, 우리는 여러 개의 칼을 쓰더라도 레시피 (출력) 는 원래대로 유지할 수 있습니다.
- 마치 **주방장 (가중치)**은 한 명이지만, **조리 보조 (활성화 변환)**는 상황에 따라 여러 명을 투입할 수 있는 것과 같습니다.
- 보조 요리사들이 각자 다른 방식으로 식재료를 다듬어도, 최종 요리는 주방장의 레시피대로 완벽하게 나옵니다.

4. 실제 효과: "기존보다 훨씬 맛있다!"

논문에서는 이 기술을 **확산 모델 (dLLM)**과 **멀티모달 모델 (MLLM)**에 적용해 보았습니다.

결과: 기존에 가장 잘하던 기술들보다 최대 5.3% 더 높은 정확도를 보여주었습니다.
비유: 보통 4 비트 (매우 작은 용량) 로 줄이면 인공지능이 "아무 말이나 지껄이는" 경우가 많았는데, FreeAct 를 쓰면 16 비트 (원본) 에 가까운 성능을 유지하면서도 용량은 작게 유지할 수 있게 되었습니다.

5. 요약

FreeAct는 거대한 인공지능을 가볍게 만들 때, **"모든 것을 똑같이 처리하지 말고, 들어오는 데이터의 종류 (글자, 그림, 비어있는 부분) 에 따라 유연하게 다듬어라"**는 새로운 철학을 제시합니다.

기존에는 "하나의 규칙에 모든 것을 맞추려다" 실패했던 것을, **"상황에 맞는 유연한 도구"**를 써서 해결함으로써, 인공지능을 더 작고 빠르면서도 똑똑하게 만드는 혁신적인 기술입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem)

대규모 언어 모델 (LLM) 의 배포 효율성을 높이기 위해 양자화 (Quantization) 가 필수적이지만, 기존 방법론에는 다음과 같은 한계가 존재합니다.

정적 1:1 변환의 제약: 최근 등장한 변환 기반 (Transformation-based) 양자화 방법들 (QuaRot, FlatQuant 등) 은 직교 행렬을 사용하여 특징 공간을 매끄러운 다양체로 투영함으로써 양자화 오차를 줄입니다. 그러나 이 방법들은 **가중치 (Weights) 와 활성화 (Activations) 사이에 엄격한 1:1 대응 관계 (역행렬 관계)**를 강제합니다. 즉, $P \times P^{-1} = I$ 를 만족해야 하므로, 가중치에 하나의 변환 행렬이 적용되면 활성화에도 그 역행렬이 고정적으로 적용됩니다.
동적 활성화 패턴의 무시: 실제 추론 과정에서 입력 활성화는 정적이지 않습니다. 특히 **확산 LLM(dLLMs)**에서는 마스킹된 토큰과 마스킹되지 않은 토큰 간의 활성화 분포가 시간 단계에 따라 크게 달라지며, **다중 모달 LLM(MLLMs)**에서는 텍스트 토큰과 비전 (Vision) 토큰 간의 분포 차이가 뚜렷합니다.
기존 방법의 실패: 이러한 동적인 활성화 패턴을 가진 모델에 정적인 1:1 변환을 적용하면, 다양한 토큰 유형을 동시에 처리하기 어렵고 양자화 오차가 급격히 증가하여 모델 성능이 저하됩니다.

2. 방법론 (Methodology: FreeAct)

저자들은 활성화 측의 정적 1:1 제약을 완화하여 동적 활성화 차이를 수용하는 새로운 프레임워크 FreeAct를 제안합니다.

핵심 아이디어: 활성화와 가중치의 변환 해리 (Decoupling)

이론적 기반: 활성화 행렬이 랭크 결손 (Rank-deficient) 성질을 가진다는 사실에 착안합니다. 활성화의 랭크가 전체 차원보다 낮기 때문에, $XP\tilde{P}W^T = XW^T$ 를 만족하는 해 공간이 단순히 역행렬 ( $P\tilde{P}=I$ ) 만이 아닌 더 넓은 범위를 가질 수 있음을 수학적으로 증명합니다 (Proposition 1).
동적 할당 (Dynamic Allocation):
- 가중치 측: 모든 토큰 유형에 대해 공유되는 단일 정적 변환 행렬 $\tilde{P}$ 를 유지합니다.
- 활성화 측: 토큰 유형 (예: 마스킹/언마스킹, 텍스트/비전) 에 따라 서로 다른 변환 행렬 $P$ 와 $P'$ 를 할당합니다.
- 구현 방식: 공유 부분 ( $U$ ) 과 고유 부분 ( $U_X, U_{X'}$ ) 으로 구성된 행렬을 설계합니다. 고유 부분은 해당 토큰 유형에만 적용되고, 나머지 부분은 0 으로 패딩하여 정보 간섭을 방지합니다. 이를 통해 가중치 행렬 $\tilde{P}$ 는 $[U, U_X, U_{X'}]^T$ 형태로 통합되어 모든 활성화 유형을 처리할 수 있게 됩니다.

학습 및 최적화

토큰 인덱싱: 토큰 ID(예: [MASK], <IMG>) 를 기반으로 활성화 데이터를 유형별로 분류합니다.
오차 최소화: 각 토큰 유형에 대해 양자화 오차 (Ground Truth 출력과 양자화 후 출력 간의 MSE) 를 최소화하도록 변환 행렬과 클리핑 임계값을 학습합니다.
구현 용이성: 기존 1:1 변환 방식과 호환되며, 메모리 오버헤드가 거의 없습니다 (공유 행렬 기반).

3. 주요 기여 (Key Contributions)

변환 제약의 혁신적 완화: LLM 양자화 분야에서 정적 1:1 변환 제약을 최초로 완화하여, 활성화 측에 유연하고 동적인 변환을 허용하는 새로운 패러다임을 제시했습니다.
통합 양자화 프레임워크 제안: dLLMs(확산 모델) 과 MLLMs(다중 모달 모델) 이라는 두 가지 첨단 LLM 패러다임을 하나의 공통 원리로 통합하여 양자화 문제를 해결했습니다.
이론적 증명 및 실용적 설계: 활성화의 랭크 결손 특성을 활용한 수학적 해 공간을 도출하고, 서브스페이스 (Subspace) 기반 구성 및 제로 패딩 전략을 통해 이론적 동등성 (Equivalence) 을 보장하면서도 구현이 간단한 FreeAct 를 개발했습니다.

4. 실험 결과 (Results)

다양한 벤치마크 (HumanEval, GSM8K, Math500, MMMU, MMBench 등) 에서 dLLMs (LLaDA, Dream) 와 MLLMs (Qwen2.5-VL, InternVL2.5) 모델을 대상으로 실험을 수행했습니다.

성능 향상: FreeAct 는 기존 최첨단 (SOTA) 방법론 (FlatQuant, QuaRot, SmoothQuant 등) 보다 최대 5.3% 까지 성능을 개선했습니다.
저비트 양자화 효율성: W4A4(가중치 4 비트, 활성화 4 비트) 설정에서 기존 방법론이 거의 무너지는 (0 점대) 상황에서도 FreeAct 는 16 비트 베이스라인과 유사한 성능을 회복하거나, W8A8 수준에 근접하는 결과를 보여주었습니다.
비교 분석:
- 단순 채널별 스케일링 (SmoothQuant) 보다 변환 기반 접근법의 우월성을 입증했습니다.
- 1:1 변환 (FlatQuant) 보다 유연한 다대일 (Many-to-one) 변환이 다양한 활성화 분포를 처리하는 데 필수적임을 확인했습니다.
- 랭크 결손 설정 (Rank-deficient settings) 을 통해 FreeAct 의 핵심 동기가 유효함을 검증했습니다.

5. 의의 및 시사점 (Significance)

차세대 양자화 패러다임: 고정된 변환 행렬에 의존하던 기존 접근법의 한계를 극복하고, 모델의 동적 특성 (토큰 유형, 모달리티, 시간 단계 등) 에 적응하는 유연한 양자화의 가능성을 열었습니다.
다중 모달 및 확산 모델 지원: 텍스트뿐만 아니라 이미지, 오디오 등 다양한 모달리티와 확산 기반 생성 모델을 효율적으로 양자화할 수 있는 기반을 마련하여, 에지 디바이스에서의 고성능 MLLM/dLLM 배포를 가능하게 합니다.
확장성: 제안된 프레임워크는 향후 더 많은 모달리티나 하이브리드 아키텍처로 확장 가능하며, 하드웨어 커널과의 공동 설계 (Co-design) 를 통한 최적화의 여지를 제공합니다.

결론적으로, FreeAct 는 LLM 양자화 분야에서 활성화의 동적 특성을 정적 가중치와 해리하여 처리함으로써, 극저비트 (Ultra-low bit) 환경에서도 모델의 성능을 유지하는 획기적인 솔루션을 제시했습니다.

FreeAct: Freeing Activations for LLM Quantization

1. 문제 상황: "무거운 요리를 가볍게 하려면?"

2. FreeAct 의 아이디어: "상황에 맞는 칼을 쓰자"

3. 어떻게 가능할까? "빈 공간의 비밀"

4. 실제 효과: "기존보다 훨씬 맛있다!"

5. 요약

1. 문제 제기 (Problem)

2. 방법론 (Methodology: FreeAct)

핵심 아이디어: 활성화와 가중치의 변환 해리 (Decoupling)

학습 및 최적화

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 시사점 (Significance)

유사한 논문

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers