FAST: An Efficient Scheduler for All-to-All GPU Communication

이 논문은 MoE 워크로드의 트래픽 편향과 혼잡 문제를 해결하고 합성 시간을 획기적으로 단축하여 NVIDIA H200 및 AMD MI300X 클러스터에서 기존 솔루션보다 우수한 성능을 보이는 효율적인 All-to-All(v) 스케줄러 'FAST'를 제안합니다.

Yiran Lei, Dongjoo Lee, Liangyu Zhao, Daniar Kurniawan, Chanmyeong Kim, Heetaek Jeong, Changsu Kim, Hyeonseong Choi, Liangcheng Yu, Arvind Krishnamurthy, Justine Sherry, Eriko Nurvitadhi

게시일 Mon, 09 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎬 배경: 거대한 파티와 혼란스러운 통신실

현대 AI 모델 (특히 '전문가 혼합 모델'이라고 불리는 MoE) 은 학습을 위해 수천 개의 GPU 가 서로 끊임없이 데이터를 주고받아야 합니다. 이를 'All-to-All(모두에게 모두)' 통신이라고 합니다.

이 상황을 다음과 같이 상상해 보세요:

  • 상황: 수천 명의 손님 (GPU) 이 초대된 거대한 파티가 열렸습니다.
  • 문제: 각 손님은 다른 모든 손님에게 고유한 편지 (데이터) 를 보내야 합니다.
  • 현실:
    1. 편향된 수요: 어떤 손님은 편지를 100 통 받아야 하지만, 어떤 손님은 1 통만 받습니다. (데이터 불균형)
    2. 동적인 변화: 파티가 진행되면서 누가 누구에게 편지를 보내야 할지가 매 0.1 초마다 바뀝니다.
    3. 길고 좁은 도로: 파티장 안 (서버 내부) 은 초고속 도로지만, 건물 밖 (서버 간) 으로 나가는 길은 좁고 막힙니다.
    4. 혼잡 (Incast): 한 명의 수신자가 너무 많은 편지를 한꺼번에 받으면, 우체국 (네트워크) 이 마비됩니다.

기존의 시스템들은 이 복잡한 상황을 해결하려고 너무 많은 시간을 계산하는 데 써버리거나 (수 분~수 시간), 그냥 무작위로 보내다가 병목 현상이 발생해 전체 파티가 멈추는 경우가 많았습니다.


🚀 해결책: FAST (빠르고 똑똑한 스케줄러)

이 논문에서 제안한 FAST는 이 문제를 해결하기 위해 두 가지 핵심 아이디어를 사용합니다.

1. "서로 돕는 팀워크" (서버 내부 재분배)

  • 비유: 건물 안의 팀원들이 서로 편지를 나누어 갖는 상황입니다.
  • 설명: 어떤 GPU 는 너무 많은 편지를 보내야 하고, 어떤 GPU 는 거의 보내지 않아도 됩니다. FAST 는 **서버 내부의 초고속 도로 (Scale-up)**를 이용해, 편지가 많은 GPU 가 편지가 적은 GPU 에게 일부 편지를 넘겨줍니다.
  • 효과: 서버를 나가기 전에 모든 GPU 가 똑같은 양의 편지를 가지게 됩니다. 이렇게 하면 좁은 건물 밖 도로 (Scale-out) 로 나설 때 누구도 뒤처지지 않게 됩니다.

2. "정해진 순서대로 한 명씩" (균형 잡힌 1:1 매칭)

  • 비유: 우체국 창구에서 한 번에 한 명씩만 서비스를 받는 상황입니다.
  • 설명: 건물 밖으로 나가는 데이터는 '수신자 혼잡 (Incast)'을 피하기 위해, 한 번에 한 명씩만 주고받도록 엄격하게 순서를 정합니다.
  • 기법: 수학의 '베르슈트-데코포지션 (Birkhoff's decomposition)'이라는 원리를 사용해서, 누가 누구에게 언제 편지를 보낼지 순서대로 짝을 지어줍니다.
  • 효과: 한 번에 여러 명이 한 사람에게 몰려서 우체국을 마비시키는 일이 사라집니다. 가장 바쁜 사람도 쉬지 않고 일할 수 있어 전체 처리 속도가 빨라집니다.

🏆 왜 FAST 가 특별한가요?

  1. 속도: 기존 시스템들은 "누가 누구에게 편지를 보내야 할지" 계산하는 데 수 분에서 수 시간이 걸렸습니다. 하지만 FAST 는 0.0002 초 (221 마이크로초) 만에 계획을 세웁니다. AI 가 데이터를 바꿀 때마다 (매 0.1 초) 계획을 다시 세울 수 있을 정도로 빠릅니다.
  2. 효율: 기존 방식은 편지 양이 불균형할 때 속도가 10 배 이상 느려지기도 했습니다. 하지만 FAST 는 편지 양이 불균형해도 최고의 속도를 유지합니다.
  3. 실제 성과: 실제 NVIDIA 와 AMD 의 최신 GPU 클러스터에서 테스트한 결과, 기존 최고 성능 기술보다 최대 4.5 배 더 빠른 AI 학습 속도를 보여주었습니다.

💡 요약

FAST는 AI 학습을 위한 데이터 통신에서 발생하는 '불균형'과 '혼잡'을 해결하는 초고속 교통 관리 시스템입니다.

  • 기존 방식: "모두가 동시에 보내라!" → 도로가 막히고, 일부 차는 너무 늦게 도착함.
  • FAST 방식: "서로 도와서 양을 맞추고, 한 번에 한 명씩 정해진 순서로 지나가라!" → 도로는 항상 원활하고, 모든 차가 동시에 도착함.

이 기술은 앞으로 더 크고 똑똑한 AI 모델을 만드는 데 필수적인 역할을 할 것으로 기대됩니다.