FreeAct: Freeing Activations for LLM Quantization

이 논문은 LLM 양자화 시 정적인 변환 제약에서 벗어나 토큰별 동적 특성을 반영한 변환 행렬을 도입하여 확산 및 멀티모달 LLM 의 성능을 획기적으로 개선하는 'FreeAct' 프레임워크를 제안합니다.

Xiaohao Liu, Xiaobo Xia, Manyi Zhang, Ji-Fu Li, Xianzhi Yu, Fei Shen, Xiu Su, See-Kiong Ng, Tat-Seng Chua

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제 상황: "무거운 요리를 가볍게 하려면?"

거대한 인공지능 모델 (LLM) 은 방대한 양의 **식재료 (데이터)**와 **레시피 (모델 가중치)**를 가지고 있습니다. 하지만 이걸 그대로 쓰려면 컴퓨터가 너무 무겁고 비쌉니다. 그래서 사람들은 이 식재료를 작게 자르거나 (Quantization, 양자화) 단순화해서 저장하려 합니다.

하지만 여기서 큰 문제가 생깁니다.

  • 기존 방식의 한계: 기존의 기술들은 "모든 식재료를 똑같은 방식으로 자르자"라고 생각했습니다. 예를 들어, 고기든 야채든 똑같은 크기로 자르는 것입니다.
  • 현실의 문제: 하지만 최근의 인공지능들은 다양한 종류의 입력을 받습니다.
    • 확산 모델 (dLLM): 문장을 만들 때, 일부는 이미 정해져 있고 일부는 아직 비어있는 (마스크된) 상태입니다. (예: "오늘 날씨는 [MASK] 입니다" vs "오늘 날씨는 맑습니다")
    • 멀티모달 모델 (MLLM): 글자 (텍스트) 와 그림 (이미지) 이 섞여 들어옵니다.

이렇게 **서로 성격이 다른 식재료 (활성화값)**를 모두 똑같은 칼로 자르면, 중요한 맛 (정보) 이 날아가버려서 인공지능이 멍청해지거나 엉뚱한 말을 하게 됩니다.

2. FreeAct 의 아이디어: "상황에 맞는 칼을 쓰자"

FreeAct 는 **"하나의 칼로 모든 것을 자르지 말자"**라고 제안합니다.

  • 기존 방식 (One-to-One): 레시피 (가중치) 에 칼을 하나만 대고, 그 칼의 반대편에 들어오는 식재료 (활성화) 도 무조건 그 칼에 맞춰야 한다고 생각했습니다. "칼 A 가 있으면, 반드시 그 칼의 반대편인 A' 가 있어야 한다"는 식의 ** rigid(경직된) 규칙**이었습니다.
  • FreeAct 의 방식 (Freeing Activations):
    • 레시피 (가중치) 는 그대로: 주방의 기본 도구인 칼 (가중치) 은 고정된 채로 둡니다.
    • 식재료 (활성화) 는 유연하게: 들어오는 식재료의 종류에 따라 다른 칼을 사용합니다.
      • **글자 (텍스트)**가 들어오면? 글자에 맞는 칼로 다듬습니다.
      • **그림 (이미지)**가 들어오면? 그림에 맞는 다른 칼로 다듬습니다.
      • **비어있는 부분 (마스크)**이 들어오면? 그 부분에 맞는 칼로 다듬습니다.

이렇게 하면, 서로 다른 성질의 식재료를 각각 가장 잘게 다듬을 수 있어서, 양자화 (간소화) 를 해도 원래의 맛 (정확도) 이 거의 사라지지 않습니다.

3. 어떻게 가능할까? "빈 공간의 비밀"

"칼을 여러 개 쓰면 레시피가 꼬이지 않나요?"라는 의문이 들 수 있습니다. 여기서 FreeAct 는 수학적 비밀을 이용합니다.

  • 비유: 인공지능의 데이터는 사실 꽉 찬 공간이 아니라, 빈 공간이 많은 공간입니다. (수학적으로 '랭크 결손'이라고 합니다.)
  • 해결책: 빈 공간이 많기 때문에, 우리는 여러 개의 칼을 쓰더라도 레시피 (출력) 는 원래대로 유지할 수 있습니다.
    • 마치 **주방장 (가중치)**은 한 명이지만, **조리 보조 (활성화 변환)**는 상황에 따라 여러 명을 투입할 수 있는 것과 같습니다.
    • 보조 요리사들이 각자 다른 방식으로 식재료를 다듬어도, 최종 요리는 주방장의 레시피대로 완벽하게 나옵니다.

4. 실제 효과: "기존보다 훨씬 맛있다!"

논문에서는 이 기술을 **확산 모델 (dLLM)**과 **멀티모달 모델 (MLLM)**에 적용해 보았습니다.

  • 결과: 기존에 가장 잘하던 기술들보다 최대 5.3% 더 높은 정확도를 보여주었습니다.
  • 비유: 보통 4 비트 (매우 작은 용량) 로 줄이면 인공지능이 "아무 말이나 지껄이는" 경우가 많았는데, FreeAct 를 쓰면 16 비트 (원본) 에 가까운 성능을 유지하면서도 용량은 작게 유지할 수 있게 되었습니다.

5. 요약

FreeAct는 거대한 인공지능을 가볍게 만들 때, **"모든 것을 똑같이 처리하지 말고, 들어오는 데이터의 종류 (글자, 그림, 비어있는 부분) 에 따라 유연하게 다듬어라"**는 새로운 철학을 제시합니다.

기존에는 "하나의 규칙에 모든 것을 맞추려다" 실패했던 것을, **"상황에 맞는 유연한 도구"**를 써서 해결함으로써, 인공지능을 더 작고 빠르면서도 똑똑하게 만드는 혁신적인 기술입니다.