Each language version is independently generated for its own context, not a direct translation.

🧠 거대한 뇌를 가볍게 만드는 마법: PAMM 이란 무엇인가?

이 논문은 인공지능 (LLM) 을 훈련시킬 때 가장 큰 문제인 **'메모리 부족'**을 해결하는 새로운 방법을 소개합니다. 마치 거대한 도서관을 운영할 때, 모든 책을 한 번에 다 펼쳐 놓지 않고, 가장 중요한 책 몇 권만 뽑아두고 나머지는 '요약본'으로 대체하는 것과 같은 원리입니다.

이 기술의 이름은 PAMM(Point-Approximate Matrix Multiplication, 점 근사 행렬 곱셈)입니다.

1. 문제: 왜 AI 훈련은 메모리를 잡아먹을까?

AI 가 글을 배우는 과정 (훈련) 은 거대한 수학 공식을 반복해서 계산하는 일입니다. 이때 AI 는 **'질문 (Q)', '키 (K)', '값 (V)'**이라는 세 가지 중요한 정보를 만들어냅니다.

비유: AI 가 새로운 이야기를 읽을 때, "이 문장이 무슨 뜻일까?"라고 질문을 던지고 (Q), 책에서 관련 내용을 찾아보고 (K), 그 내용을 기억합니다 (V).
문제점: 이 과정에서 AI 는 모든 단어 (토큰) 의 정보를 메모리에 그대로 저장해 둡니다. 마치 100 페이지짜리 책을 읽을 때, 한 글자 한 글자 모두를 복사해서 책상 위에 펼쳐 놓는 것과 같습니다.
결과: 책상 (메모리) 이 너무 작아져서, 책 (데이터) 이 많으면 AI 가 멈춰버립니다. 특히 이 '질문/키/값'을 만드는 과정에서 쓰이는 메모리가 전체의 20% 를 차지할 정도로 큽니다.

2. 해결책: PAMM 의 마법 (핵심 아이디어)

연구자들은 **"아, 사실 모든 단어가 다 중요하지는 않구나!"**라는 사실을 발견했습니다.

관찰: AI 가 읽는 문장 속 단어들은 서로 매우 비슷합니다. 예를 들어 "고양이가", "강아지가", "토끼가"는 모두 '동물이'라는 공통점을 가지고 있습니다. 즉, 수천 개의 단어 중에는 서로 매우 비슷한 '무리'가 존재합니다.
PAMM 의 전략:
1. 대표자 뽑기: 수천 개의 단어 중 아주 적은 수 (예: 512 개 중 1 개) 만을 **'대표자 (Generator)'**로 뽑습니다.
2. 요약: 나머지 단어들은 이 대표자를 기준으로 "너는 이 대표자와 비슷하니까, 대표자의 정보를 살짝 변형해서 쓰자"라고 간소화합니다.
3. 저장: 원래의 두꺼운 책 (전체 데이터) 대신, 대표자 목록과 '누가 누구를 대표하는지'라는 작은 메모지만 저장합니다.

3. 어떻게 작동할까? (창의적인 비유)

이 과정을 대형 콘서트에 비유해 볼까요?

기존 방식 (PAMM 없음):
콘서트에 온 100 만 명의 관객 (데이터) 한 명 한 명에게 마이크를 주고, 각자가 무슨 생각을 하는지 모두 녹음해서 저장합니다. 저장 공간이 터집니다.
PAMM 방식:
1. 대표자 선정: 100 만 명 중 아주 적은 수 (예: 2,000 명) 의 '대표 관객'만 마이크를 줍니다.
2. 그룹화: 나머지 99 만 8 천 명은 이 2,000 명 중 가장 비슷한 사람 (대표자) 을 찾아 그 사람의 생각에 '비율 (Scaling)'만 붙여서 저장합니다.
  - 예: "A 대표자는 '좋아'라고 말했는데, 나는 '조금 좋아'라고 말하고 싶다" → "A 대표자 + 0.8 배"로 저장.
3. 결과: 100 만 명의 소리를 저장할 필요 없이, 2,000 명의 대표자 소리와 간단한 계산식만 저장하면 됩니다.

이렇게 하면 메모리 사용량이 최대 512 배까지 줄어들지만, AI 가 배우는 '핵심 내용'은 거의 잃지 않습니다.

4. 왜 이것이 놀라운가요?

압도적인 효율: 메모리 사용량을 97% 이상 줄입니다. (예: 3GB 가 필요했던 것이 24MB 로 줄어듦)
성능 유지: 메모리를 줄였다고 해서 AI 의 지능이 떨어지지 않습니다. 오히려 불필요한 잡음 (중복된 정보) 을 제거했기 때문에, 어떤 경우에는 더 잘 학습하기도 합니다.
다른 기술과 함께 사용 가능: 이미 존재하는 빠른 AI 기술 (FlashAttention 등) 과도 완벽하게 함께 작동합니다.

5. 결론: AI 의 미래를 밝히는 기술

이 연구는 **"AI 가 더 똑똑해지기 위해 더 많은 메모리가 필요한 것은 아니다"**라는 것을 증명합니다.

기존에는 AI 를 키우려면 더 큰 컴퓨터 (메모리) 가 필요했지만, PAMM 을 사용하면 기존의 작은 컴퓨터로도 거대한 AI 를 훈련시킬 수 있게 됩니다. 이는 AI 개발 비용을 획기적으로 낮추고, 더 많은 사람이 고성능 AI 를 접근할 수 있게 만드는 게임 체인저가 될 것입니다.

한 줄 요약:

"수천 장의 책을 모두 읽지 않아도, 핵심적인 몇 권의 요약본만 읽으면 책 전체의 내용을 이해할 수 있다. PAMM 은 AI 가 이렇게 '효율적으로' 학습하도록 도와주는 기술입니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

대규모 언어 모델 (LLM) 의 학습 과정에서 메모리 효율성은 주요 병목 현상 중 하나입니다. 기존 연구들은 주로 어텐션 메커니즘의 연산 복잡도나 스케일된 도트 프로덕트 (scaled dot product) 연산을 근사화하는 데 초점을 맞추었습니다 (예: FlashAttention, Linformer 등).

그러나 본 논문은 **선형 프로젝션 레이어 (Linear Projection Layers)**에서 발생하는 메모리 낭비를 지적합니다.

핵심 문제: 어텐션 레이어에서 입력 $x$ 를 $Q, K, V$ 텐서로 변환하는 선형 레이어의 **활성화 (Activations)**는 순전파 (Forward Pass) 중 저장되어야 하며, 역전파 (Backward Pass) 시 그래디언트 계산에 필수적입니다.
영향: 이 활성화 텐서들은 배치 크기 (Batch Size) 와 시퀀스 길이 (Sequence Length) 에 비례하여 증가하며, 어텐션 블록이 필요로 하는 전체 피크 GPU 메모리의 **최대 20%**까지 차지할 수 있습니다.
기존 방법의 한계: 최근의 메모리 최적화 기법들 (옵티마이저 상태 압축 등) 은 주로 임베딩 차원 (Hidden Dimension) 의 중복성을 활용하지만, 본 논문은 **시퀀스 차원 (Sequence Dimension)**에서 훨씬 더 큰 중복성이 존재함을 발견했습니다. 즉, 배치 내의 토큰들 간에 반복되는 패턴이나 국소적 문맥 유사성으로 인해 많은 토큰 표현이 사실상 중복됩니다.

2. 방법론: 포인트-근사 행렬 곱셈 (PAMM)

저자들은 **Point-Approximate Matrix Multiplication (PAMM)**이라는 새로운 텐서 압축 기법을 제안합니다. 이는 $Q, K, V$ 프로젝션의 활성화 메모리를 획기적으로 줄이기 위해 설계되었습니다.

핵심 아이디어

중복성 활용: 배치 내 토큰 수 ( $b$ ) 가 임베딩 차원 ( $n$ ) 보다 훨씬 크다는 점 ( $b \gg n$ ) 을 이용합니다. 행렬 $X$ 의 행 (각 토큰) 은 낮은 차원의 부분 공간에 존재하므로, 소수의 대표 토큰 (Generators) 만으로 전체를 근사할 수 있습니다.
두 단계 프로세스:
1. 압축 (Compress): 입력 행렬 $A$ $A$ 의 행들을 대표하는 소수의 생성자 (Generators, $C$ $C$ ) 집합을 선택합니다. 각 토큰 $A_i$ $A_{i}$ 는 가장 유사한 생성자 $C_j$ $C_{j}$ 위에 투영된 점으로 근사됩니다. 이때, 각 토큰에 할당된 생성자 인덱스 ( $f$ $f$ ) 와 스케일링 계수 ( $\alpha$ $α$ ) 만 저장합니다.
  - 주목할 점: 복잡한 클러스터링 알고리즘 대신 무작위 샘플링으로 생성자를 선택해도 충분한 성능을 낸다는 것을 발견했습니다.
  - 근사 조건: 특정 오차 허용치 ( $\epsilon$ ) 를 만족하지 못하는 토큰은 0 으로 처리 (드롭) 되며, 이는 메모리 절감을 극대화합니다.
2. 근사 행렬 곱셈 (Approximate MatMul): 역전파 시 $\nabla W = X^\top \nabla Z$ $\nabla W = X^{⊤} \nabla Z$ 를 계산할 때, 전체 $X$ $X$ 대신 압축된 표현 ( $C, f, \alpha$ $C, f, α$ ) 을 사용합니다.
  - 먼저 $B$ 행렬을 생성자 인덱스에 따라 합산하여 $\tilde{B}$ 를 만듭니다.
  - 이후 $C^\top \tilde{B}$ 를 계산하여 최종 그래디언트를 근사합니다.
  - 이 과정은 원래 행렬 곱셈보다 계산량이 훨씬 적습니다.

수학적 보장

생성자 수 $k$ 가 전체 토큰 수 $b$ 에 비해 매우 작더라도 (예: $1/512$ ), 데이터 분포가 밀집되어 있으면 로그 스케일로만 $k$ 를 증가시켜도 모든 토큰을 효과적으로 커버할 수 있음을 이론적으로 증명했습니다.

3. 주요 기여 (Key Contributions)

새로운 메모리 병목 발견: LLM 학습 중 어텐션 레이어의 선형 프로젝션 활성화가 주요 메모리 소비원임을 규명하고, 이를 해결하기 위한 새로운 접근법을 제시했습니다.
PAMM 알고리즘 제안: 시퀀스 차원의 중복성을 활용하여 활성화 메모리를 최대 512 배까지 압축하면서도 모델 성능을 유지하는 효율적인 알고리즘을 개발했습니다.
실용성과 호환성: PAMM 은 FlashAttention, 그라디언트 체크포인트, LoRA 등 기존 효율적 학습 기법들과 **완전히 호환 (Composable)**되며, 모델 가중치나 추론 동작을 변경하지 않습니다.
광범위한 실험 검증: 사전 학습 (Pretraining) 과 파인튜닝 (Finetuning) 모두에서 다양한 모델 크기 (60M ~ 7B) 와 멀티모달 모델 (Pixtral-12B) 에서의 유효성을 입증했습니다.

4. 실험 결과 (Results)

메모리 감소

압축률: $Q, K, V$ 활성화 메모리를 최대 512 배 (97% 이상) 감소시켰습니다.
예시: LLaMA-1B 모델의 경우, 어텐션 활성화 메모리가 3GB 에서 24MB 로 감소했습니다.

모델 성능 (Perplexity 및 정확도)

사전 학습 (Pretraining): LLaMA-60M, 350M, 1B, 7B 모델에서 PAMM 을 적용했을 때, 베이스라인과 비교하여 퍼플렉시티 (Perplexity) 가 거의 변하지 않거나 오히려 약간 개선되는 결과를 보였습니다. 이는 불필요한 중복 토큰이 학습을 방해할 수 있음을 시사합니다.
파인튜닝 (Finetuning): GLUE 벤치마크 (RoBERTa-base) 에서 PAMM 을 적용한 경우, 메모리 사용량이 97% 이상 줄어든 반면, F1 점수나 정확도 등 모든 태스크에서 베이스라인과 경쟁력 있는 성능을 유지했습니다.
멀티모달: Pixtral-12B (VLM) 에서 LoRA 와 결합하여 적용했을 때도 성능 저하 없이 메모리 효율성을 입증했습니다.

처리량 (Throughput)

오버헤드: PAMM 도입으로 인한 추가 연산 오버헤드는 매우 미미했습니다.
- LLaMA-1B 기준: 처리량 감소 2.7% 미만.
- 모델 크기가 커질수록 오버헤드 비율은 더욱 감소했습니다.
실시간성: Forward Pass 와 Backward Pass 모두에서 실행 시간 증가가 전체 학습 시간 대비 무시할 수준 (약 3~5%) 이었습니다.

비교 실험

기존 압축 기법 (CompAct, Uniform-CRS 등) 과 비교했을 때, PAMM 은 동일한 메모리 감소율에서 훨씬 더 낮은 퍼플렉시티 손실을 보여주며 압도적인 성능 우위를 입증했습니다. 특히 $\epsilon = \infty$ (모든 토큰을 대표 토큰으로 근사) 설정이 최적의 성능을 보였습니다.

5. 의의 및 결론 (Significance)

이 논문은 LLM 학습의 메모리 효율성을 높이는 데 있어 선형 프로젝션 레이어의 활성화라는 간과되었던 영역을 해결했습니다. PAMM 은 다음과 같은 의의를 가집니다:

실용적 도입 용이성: 복잡한 구조 변경 없이 플러그인 형태로 적용 가능하여, 기존 모델 아키텍처를 유지하면서 대규모 배치나 긴 시퀀스 학습이 가능해집니다.
이론적 통찰: 토큰 표현의 시퀀스 차원 중복성이 임베딩 차원 중복성보다 훨씬 크다는 점을 규명하여, 향후 압축 연구의 방향성을 제시했습니다.
확장성: 7B 모델뿐만 아니라 12B 이상의 멀티모달 모델에서도 효과적이므로, 차세대 초대규모 모델 학습의 핵심 기술로 자리 잡을 가능성이 높습니다.

결론적으로, PAMM 은 "계산 비용은 거의 들지 않으면서 메모리 사용량을 극적으로 줄이는" 이상적인 솔루션을 제시하여, 제한된 하드웨어 자원으로도 고품질 LLM 학습을 가능하게 하는 중요한 기여를 했습니다.

QKV Projections Require a Fraction of Their Memory