AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning

이 논문은 생성과 학습을 완전히 비동기화하고 시스템 최적화 및 데이터 노후화 관리 기법을 도입하여 대규모 언어 모델의 강화 학습 속도를 동기식 시스템 대비 최대 2.77 배까지 향상시킨 AReaL 시스템을 제안합니다.

Wei Fu, Jiaxuan Gao, Xujie Shen, Chen Zhu, Zhiyu Mei, Chuyi He, Shusheng Xu, Guo Wei, Jun Mei, Jiashu Wang, Tongkai Yang, Binhang Yuan, Yi Wu

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: 왜 기존 방식은 느릴까요? (동기식 시스템)

기존의 AI 훈련 방식은 **'동기식 (Synchronous)'**이라고 불립니다. 이를 **'한 번에 다 완성해야만 다음 단계로 넘어가는 식당'**에 비유할 수 있습니다.

  • 상황: 식당에는 요리사 (생성 모델) 들이 여러 명 있습니다. 손님 (학습 데이터) 들이 주문을 넣으면, 요리사들은 각자 요리를 시작합니다.
  • 문제: 어떤 요리는 5 분 걸리고, 어떤 요리는 50 분이 걸립니다.
  • 비효율: 식당 주인 (훈련 시스템) 은 "모든 요리가 다 완성될 때까지 기다려야만" 다음 단계인 '맛보기 (학습)'를 시작할 수 있습니다.
    • 5 분 만에 요리를 끝낸 요리사들은 45 분 동안 손을 놓고 기다려야 합니다.
    • 가장 느린 요리사가 끝날 때까지 모든 요리사들이 멈춰 서 있는 셈입니다.
    • 결과적으로 비싼 장비 (GPU) 가 놀고 있는 시간이 너무 많아, 훈련 속도가 매우 느립니다.

2. 해결책: AReaL 의 새로운 방식 (비동기식 시스템)

AReaL 은 이 문제를 **'완벽하게 분리된 주방과 맛보기 팀'**으로 해결합니다.

  • 생성 팀 (Rollout Workers): 이들은 멈추지 않고 계속 요리를 만듭니다.
    • 요리가 50 분 걸리든 5 분 걸리든, 한 요리가 끝나면 바로 다음 주문을 받아 계속 만듭니다.
    • 요리사가 기다리는 시간이 전혀 없습니다.
  • 훈련 팀 (Trainer Workers): 이들은 요리가 쌓이면 바로 맛보기를 시작합니다.
    • 모든 요리가 다 완성될 때까지 기다리지 않고, 요리가 10 접시만 쌓여도 바로 맛을 보고 레시피를 수정합니다.
  • 핵심: 요리 (생성) 와 맛보기 (학습) 가 동시에 일어나기 때문에, 비싼 장비가 쉬는 시간이 거의 없습니다.

3. 새로운 방식의 위험과 AReaL 의 지혜

하지만 이렇게 하면 **'레시피가 섞이는 문제'**가 생깁니다.

  • 문제: 요리사 A 는 '구식 레시피'로 요리를 만들고, 요리사 B 는 '최신 레시피'로 요리를 만듭니다. 훈련 팀은 이 섞인 요리를 한꺼번에 맛보게 됩니다.
    • "어? 이 요리는 옛날 레시피로 만든 건데, 최신 레시피로 고치라고 하면 혼란이 오지 않을까?"
    • AI 가 엉뚱한 방향으로 학습할 수 있습니다 (데이터가 낡아지는 문제, Staleness).

AReaL 의 해결책 (두 가지 지혜):

  1. 낡은 레시피 관리 (Staleness Control):

    • 너무 오래된 레시피로 만든 요리만 모아서 학습하지 않도록, 최신 레시피와 너무 멀지 않은 요리들만 학습 데이터로 골라냅니다.
    • 하지만 너무 엄격하게 걸러내면 요리가 쌓이는 속도가 느려지므로, 적당한 수준으로 허용합니다.
  2. 지능적인 맛보기 (Decoupled PPO):

    • 기존 방식은 "모든 요리는 같은 레시피로 만들어져야 한다"고 강요했습니다.
    • AReaL 은 **"요리가 어떤 레시피로 만들어졌든, 맛을 보고 '최신 레시피'에 맞춰 고쳐라"**는 새로운 방식을 도입했습니다.
    • 마치 "이 요리는 옛날 레시피로 만들었지만, 지금의 최신 맛에 맞게 고쳐보자"라고 유연하게 접근하여, 낡은 데이터로도 학습을 안정적으로 시킵니다.

4. 결과는 어떨까요?

이 시스템을 적용한 결과:

  • 속도: 같은 양의 장비로 훈련할 때, 기존 방식보다 최대 2.77 배 더 빠릅니다. (약 3 배 빠름)
  • 성능: 속도가 빨라졌다고 해서 AI 의 실력이 떨어지지 않았습니다. 오히려 수학 문제나 코딩 실력이 더 좋아지거나 유지되었습니다.
  • 확장성: 컴퓨터 (GPU) 를 더 많이 추가할수록 속도가 비례해서 빨라지는 '선형 확장'이 잘 일어납니다.

요약

AReaL은 AI 가 '생각하는 능력'을 기르는 훈련 과정을, **"가장 느린 사람이 끝날 때까지 기다리는 구식 방식"**에서 **"모든 사람이 멈추지 않고 일하고, 쌓인 결과물을 실시간으로 반영하는 현대적 방식"**으로 바꾼 혁신적인 시스템입니다.

이 덕분에 AI 는 더 적은 시간과 비용으로 더 똑똑해질 수 있게 되었습니다. 마치 식당에서 요리사들이 쉬지 않고 요리를 만들고, 셰프가 그 요리를 실시간으로 맛보며 레시피를 고쳐나가는 상황과 같습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →