POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation

이 논문은 기존 POET 프레임워크의 높은 메모리 소모와 연산 오버헤드를 해결하여 단일 GPU 에서도 수십억 파라미터 규모의 LLM 을 안정적으로 학습할 수 있게 해주는 메모리 효율적이고 확장 가능한 POET-X 를 제안합니다.

Zeju Qiu, Lixin Liu, Adrian Weller, Han Shi, Weiyang Liu

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: 거대한 도서관을 재배치하는 고된 일

인공지능 (LLM) 을 훈련한다는 것은 거대한 도서관의 책 (지식) 을 다시 정리하고 분류하는 작업과 같습니다.

  • 기존 방식 (AdamW 등): 도서관 전체를 한 번에 옮기려면 트럭이 수십 대 필요합니다. 메모리 (트럭) 가 부족해서 도서관을 다 옮기지 못하고 "차고 (메모리) 가 꽉 찼다"며 작업이 중단되는 경우가 많았습니다.
  • 기존 POET 기술: 이전 연구팀 (POET) 은 "책장을 회전시켜서 (Orthogonal Transformation) 책을 정리하면 더 안정적이다"라고 제안했습니다. 하지만 이 방법은 책장 하나하나를 직접 들어 올리고 회전시키는 데 너무 많은 힘 (계산 자원) 과 공간 (메모리) 을 써서 실제로는 큰 도서관에 적용하기 어려웠습니다.

2. 해결책: POET-X 의 마법 같은 전략

POET-X 는 이 비효율적인 방식을 세 가지 창의적인 방법으로 바꿨습니다.

① "무거운 책장" 대신 "가벼운 지시" (Input-centric)

  • 비유: 예전에는 책장 (가중치) 을 직접 들어 옮기느라 힘이 빠졌습니다. 하지만 POET-X 는 **"책장을 옮기지 말고, 책을 읽는 사람 (입력 데이터) 에게만 '이쪽으로 가세요'라고 지시만 내리는 방식"**으로 바꿨습니다.
  • 효과: 무거운 책장을 들고 다니지 않아도 되니, 트럭 (메모리) 이 훨씬 작아져도 됩니다.

② "한 번에 다 정리" vs "조각조각 나누어 정리" (Batch Parallel)

  • 비유: 책장이 1000 칸으로 나뉘어 있는데, 한 번에 1000 칸을 다 정리하려고 하면 공간이 부족합니다. POET-X 는 **"한 번에 10 칸씩만 떼어내서 정리하고, 그다음 10 칸을 정리하는 방식"**을 썼습니다.
  • 효과: 한 번에 처리할 물건이 줄어들어 작업 공간이 훨씬 넓어지고 속도도 빨라졌습니다.

③ "불필요한 메모" 버리기 (Cayley-Neumann 최적화)

  • 비유: 책을 정리할 때, "왼쪽 페이지만 적고 오른쪽은 뒤집어서 같은 걸로 간주하자"라고 생각하면 메모할 양이 반으로 줄어듭니다. POET-X 는 수학적으로 필요한 정보만 반으로 줄여서 저장하는 기술을 썼습니다.
  • 효과: 메모리 사용량을 획기적으로 줄였습니다.

3. 놀라운 결과: "한 대의 트럭"으로 전 세계 도서관 옮기기

이 기술의 가장 큰 성과는 실제 성능입니다.

  • 기존의 한계: 보통 80 억 개 (8B) 이상의 파라미터를 가진 거대 모델을 훈련시키려면 수십 대의 고가 GPU(그래픽카드) 가 필요했습니다.
  • POET-X 의 성과: NVIDIA H100 GPU 한 대만 있으면 80 억 개 (8B) 는 물론, 130 억 개 (13B) 에 달하는 거대 모델을 훈련시킬 수 있게 되었습니다.
  • 비유: "전 세계 도서관을 옮기는 데 100 대의 트럭이 필요했는데, POET-X 를 쓰니 한 대의 트럭으로도 가능해졌다"는 뜻입니다.

4. 요약: 왜 이것이 중요한가요?

  1. 비용 절감: 고가의 GPU 를 수십 대 살 필요가 없어져서 누구나 거대 모델을 훈련시킬 수 있습니다.
  2. 속도 향상: 메모리 부족으로 멈추는 일이 줄어들어 훈련 속도가 빨라졌습니다.
  3. 안정성: 기존 방식보다 학습이 더 안정적으로 이루어져서 더 똑똑한 AI 를 만들 수 있습니다.

한 줄 요약:

"POET-X 는 거대한 AI 를 훈련시킬 때 필요한 '메모리'와 '시간'을 획기적으로 줄여주어, 이제 개인이나 작은 팀도 거대 모델을 직접 키울 수 있게 만든 혁신적인 기술입니다."