Resource Heterogeneity-Aware and Utilization-Enhanced Scheduling for Deep Learning Clusters

이 논문은 딥러닝 클러스터의 자원 이질성을 고려하고 활용도를 극대화하기 위해 제안된 'Hadar' 스케줄러와 이를 다중 복사본 실행으로 고도화한 'HadarE'를 통해, 기존 최첨단 기법 대비 훈련 시간을 단축하고 추론 품질을 향상시키는 성능을 입증했습니다.

Abeda Sultana, Nabin Pakka, Fei Xu, Xu Yuan, Li Chen, Nian-Feng Tzeng

게시일 2026-03-17
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 딥러닝 (AI) 을 훈련시킬 때 사용하는 컴퓨터 클러스터 (여러 대의 서버가 연결된 시스템) 의 자원 관리에 대한 연구입니다.

쉽게 말해, **"서로 다른 성능을 가진 여러 대의 컴퓨터를 어떻게 조율해야 AI 를 가장 빠르고 효율적으로 가르칠 수 있을까?"**에 대한 해답을 제시한 논문입니다.

주요 내용을 일상적인 비유로 설명해 드릴게요.


1. 문제 상황: "모두가 같은 능력을 가진 팀이 아니다"

딥러닝 모델을 훈련시키려면 GPU(그래픽 카드) 같은 강력한 장치가 필요합니다. 하지만 실제 데이터센터에는 최신형 고성능 GPU도 있고, 오래된 저성능 GPU도 섞여 있습니다.

  • 기존 방식 (Gavel 등): "이 작업은 고성능 컴퓨터 4 대가 필요해. 그런데 지금 고성능 컴퓨터 3 대만 남았네? 그럼 기다려!"라고 합니다. 저성능 컴퓨터는 비워두고, 고성능 컴퓨터가 나올 때까지 일을 안 시킵니다.
  • 문제점: 고성능 컴퓨터가 부족하면 작업이 멈추고, 저성능 컴퓨터는 놀고 있게 되어 자원 낭비가 심해집니다.

2. 첫 번째 해결책: '하다르 (Hadar)' - "맞춤형 할당자"

연구진은 **'하다르 (Hadar)'**라는 새로운 스케줄러를 만들었습니다.

  • 비유: 마치 정교한 요리사 같습니다.
    • 기존 방식은 "이 요리는 고급 식재료가 4 개 필요하니까, 고급 식재료가 4 개 모일 때까지 기다려"라고 했습니다.
    • 하다르는 "고급 식재료가 3 개밖에 없네? 그럼 3 개는 고급 식재료를 쓰고, 나머지 1 개는 조금 덜 좋은 식재료를 써서 요리를 진행해. 그리고 그 덜 좋은 식재료에서도 요리가 잘 되는지 확인해서 적절히 배분해!"라고 합니다.
  • 핵심: 각 작업 (Job) 을 **작은 단위 (Task)**로 쪼개서, 어떤 컴퓨터든 가능한 한 많이 활용합니다. 고성능 컴퓨터는 많은 일을, 저성능 컴퓨터는 조금 덜 하지만 중요한 일을 시킵니다.
  • 결과: 기존 방식보다 작업 완료 시간이 1.2 배 빨라지고, 컴퓨터들이 놀지 않고 일하는 비율 (자원 활용도) 이 크게 향상되었습니다.

3. 두 번째 해결책: '하다르 E (HadarE)' - "일꾼을 복제해서 동시에 일시키기"

하다르도 좋았지만, 여전히 "작업이 하나만 남았는데 컴퓨터가 5 대나 있는데, 그중 1 대만 쓰고 나머지 4 대는 놀게 하네?"라는 문제가 있었습니다.

  • 비유: 건축 현장에 비유해 볼까요?
    • 하다르: 벽돌 하나를 쌓는 일을 한 명의 일꾼에게 맡깁니다. 다른 일꾼들은 비워둡니다.
    • 하다르 E: "벽돌 쌓는 일을 5 명으로 복제해서, 5 대의 컴퓨터 (일꾼) 가 동시에 각자 맡은 부분을 쌓게 해!"라고 합니다.
    • 주의할 점: 5 명이 각자 쌓은 벽돌을 나중에 하나로 합쳐서 (모델 통합) 다시 다듬어야 합니다. 하지만 이렇게 하면 전체 공사 기간이 훨씬 짧아집니다.
  • 핵심: 하나의 AI 훈련 작업을 여러 개로 **복제 (Forking)**해서, 사용 가능한 모든 컴퓨터에 동시에 분배합니다. 마지막에 결과를 합쳐서 하나의 완성된 AI 모델을 만듭니다.
  • 결과:
    • 컴퓨터들이 거의 100% 활용됩니다 (놀고 있는 컴퓨터가 거의 없음).
    • 전체 훈련 시간이 50%~80% 단축됩니다.
    • 재미있는 사실: 단순히 빨리 끝난 게 아니라, 여러 컴퓨터가 함께 훈련해서 더 정확한 AI 모델이 만들어졌습니다. (여러 관점에서 학습했기 때문)

4. 요약: 왜 이 연구가 중요한가요?

  1. 낭비 제거: 값비싼 고성능 컴퓨터와 상대적으로 저렴한 저성능 컴퓨터를 모두 골고루 활용합니다.
  2. 속도 향상: AI 모델을 가르치는 시간을 획기적으로 줄여줍니다.
  3. 품질 향상: 여러 컴퓨터가 협력하여 훈련하면, 결과물이 더 좋아지기도 합니다.

한 줄 요약:

"서로 다른 성능의 컴퓨터들을 하나의 팀으로 묶어, 누구도 놀지 않게 하고 작업은 복제해서 동시에 처리함으로써, AI 를 더 빠르고 더 똑똑하게 만드는 새로운 방법"을 제안했습니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →