QFT: Quantized Full-parameter Tuning of LLMs with Affordable Resources

Each language version is independently generated for its own context, not a direct translation.

1. 문제 상황: 너무 무거운 짐 (기존의 문제)
지금까지 거대한 인공지능 (예: LLaMA-7B) 을 학습시키려면, 마치 수백 권의 두꺼운 백과사전을 한 번에 들고 다니는 것과 같습니다.

기존 방식 (FP32): 모든 책 (가중치), 메모장 (기울기), 계산 도구 (옵티마이저 상태) 를 금으로 만든 두꺼운 책으로 저장합니다. 이걸 학습시키려면 거대한 창고 (고가의 GPU) 가 필요하고, 돈도 천문학적으로 듭니다.
기존의 대안 (PEFT/LoRA): "전부 다 옮길 필요 없죠! 중요한 페이지 몇 장만 떼어내서 학습하면 되잖아요?"라고 말합니다. 하지만 이 방법은 책의 전체 내용을 이해하지 못해 성능이 떨어질 수 있습니다.

2. QFT 의 해결책: "모든 것을 종이로 바꾸자"
QFT 는 **"전부 다 학습하되, 재료를 종이로 바꾸자"**는 아이디어입니다.

INT8 양자화 (Quantization): 금으로 된 두꺼운 책을 **가볍고 얇은 종이 (INT8)**로 바꿉니다. 책의 내용은 그대로지만 무게는 1/4 로 줄어듭니다. 이제 작은 방 (일반적인 GPU) 에도 모든 책을 넣을 수 있게 됩니다.

3. 종이로 바꾸면 내용이 망가질까? (핵심 기술 2 가지)
종이로 바꾸면 글씨가 흐릿해져서 내용이 왜곡될까 봐 걱정되죠? QFT 는 두 가지 마법 같은 기술로 이를 해결했습니다.

① '리온 (Lion)'이라는 똑똑한 나침반 (옵티마이저)
- 학습할 때 방향을 잡는 나침반 (옵티마이저) 이 있는데, 기존 방식은 나침반이 너무 민감해서 종이로 만들면 흔들립니다.
- QFT 는 **'리온'**이라는 나침반을 사용합니다. 이 나침반은 "왼쪽/오른쪽"만 보고 방향을 잡습니다. 숫자의 정밀함 (정확한 각도) 에 덜 의존하기 때문에, 종이로 만들어도 방향을 잃지 않고 똑바로 갑니다. (이론적으로 증명됨)
② '희귀한 보석'만 따로 보관하는 방법 (하이브리드 특징 양자화)
- 책 내용 중에는 99% 는 평범한 글자지만, **1% 는 매우 중요한 '보석 같은 단어 (Outliers)'**가 있습니다. 이 보석들을 종이로 바꾸면 내용이 망가집니다.
- QFT 는 이 1% 의 보석만 따로 유리상자에 넣어두고 (FP32 유지), 나머지 99% 의 평범한 글자만 종이에 적습니다.
- 이렇게 하면 보석의 가치는 그대로 유지되면서도 전체 무게는 획기적으로 줄어듭니다. (기존 방식은 보석까지 금으로 만들어야 해서 무거웠습니다.)

4. 계산하는 방법도 바꿨다 (스택 기반 흐름)

종이를 계산기에 넣으려면 한 번에 꺼내서 쓰고 다시 넣어야 합니다. QFT 는 **스택 (Stack)**이라는 원리를 써서, 계산할 때 필요한 종이 조각을 순서대로 꺼내 쓰고 다시 쌓아두는 방식을 개발했습니다. 덕분에 컴퓨터가 종이로 계산해도 속도가 느려지지 않습니다.

메모리 사용량: 기존 방식이 100GB 의 메모리를 썼다면, QFT 는 **21GB(약 21%)**만 사용합니다.
- 비유: 거대한 물류 창고 대신, 일반적인 아파트 한 칸만 있으면 거대한 도서관을 학습시킬 수 있게 된 것입니다.
성능: 메모리는 줄였지만, 학습된 모델의 지능은 기존의 고사양 방식과 거의 똑같습니다.
실제 적용: 이제 비싼 GPU 가 없는 연구자나 회사도, **일반적인 그래픽카드 (예: A6000 한 장)**로 최신 AI 모델을 학습시킬 수 있게 되었습니다.

"거대한 AI 를 학습시키려면 비싼 슈퍼컴퓨터가 필요하다는 고정관념을 깨고, '종이'로 된 가벼운 데이터와 '보석'만 따로 챙기는 똑똑한 방법으로, 일반 컴퓨터에서도 AI 를 완벽하게 학습시키는 기술을 개발했습니다."

이 기술은 AI 의 민주화를 앞당겨, 더 많은 사람이 고성능 AI 를 개발하고 사용할 수 있는 시대를 열어줍니다.

유사한 논문