AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um grupo de gênios (os modelos de Inteligência Artificial) a resolver problemas de matemática complexa ou a escrever códigos de computador perfeitos. Para isso, você usa uma técnica chamada Aprendizado por Reforço (RL). É como um treinador de futebol: o jogador tenta uma jogada, o treinador diz "bom gol" ou "errou", e o jogador tenta de novo, aprendendo com o erro.

O problema é que, quando você tem milhares de jogadores e problemas super difíceis, o método tradicional de treinar é muito lento e desperdiça energia. É como se o treinador tivesse que esperar todos os jogadores terminarem de chutar a bola antes de dar o próximo comando. Se um jogador é lento, todos os outros ficam parados esperando, ociosos.

Aqui entra o AReaL, o sistema apresentado neste artigo. Vamos explicar como ele funciona usando analogias do dia a dia:

1. O Problema: A Linha de Montagem Travada

Nos sistemas antigos (síncronos), imagine uma linha de montagem de carros.

O carro 1 entra na pintura.
O carro 2 entra na pintura.
...
O carro 100 entra na pintura.

O problema é que a linha só avança para a próxima etapa (o "treinamento" ou ajuste do motor) quando o último carro (o mais lento) sair da pintura. Se um carro tiver uma mancha difícil e demorar o dobro do tempo, os outros 99 carros ficam parados esperando. Isso é um desperdício enorme de tempo e dinheiro (no caso, energia das placas de vídeo/GPUs).

2. A Solução: O Sistema AReaL (Assíncrono)

O AReaL muda completamente essa lógica. Em vez de uma linha de montagem rígida, imagine um restaurante de buffet muito eficiente.

Os Cozinheiros (Geradores): Eles não esperam ninguém. Eles cozinham pratos (geram respostas) o tempo todo, um após o outro, sem parar. Se um prato demora mais (uma resposta longa), eles continuam cozinhando o próximo imediatamente.
Os Garçons (Treinadores): Eles ficam pegando os pratos que já estão prontos e levando para a mesa de degustação (o treinamento do modelo). Eles não esperam o cozinheiro terminar todos os pratos. Assim que têm uma bandeja cheia, eles vão treinar.
O Chef (Sincronização): O Chef atualiza o cardápio (o modelo) de vez em quando. Quando ele atualiza, ele avisa aos cozinheiros: "Agora usem a nova receita!". Mas os cozinheiros não param o que estão fazendo; eles apenas ajustam o que está no meio do caminho.

Resultado: Ninguém fica parado. A cozinha (o sistema) está sempre em movimento total, usando 100% da capacidade dos fogões (GPUs).

3. O Desafio: Pratos "Velhos" vs. Novos

Aqui surge um problema interessante. Como os cozinheiros trabalham rápido e os garçons pegam os pratos, às vezes o garçom leva um prato que foi feito com a "receita antiga" (o modelo antigo) para o Chef, que já tem a "receita nova".

Se o Chef tentar ensinar o modelo usando apenas receitas antigas, ele pode confundir o aluno. O modelo pode ficar instável.

Como o AReaL resolve isso?
Eles criaram uma "Receita Inteligente" (um algoritmo matemático chamado PPO Desacoplado).

Imagine que o Chef diz: "Ok, esse prato foi feito com a receita de ontem, mas vou ajustar o tempero para combinar com a receita de hoje".
O sistema permite usar dados um pouco "velhos" (atrasados) sem estragar o aprendizado. Ele sabe que o prato é um pouco diferente, mas ainda é útil.
Eles também têm um "Contador de Validade": se um prato estiver muito velho (como uma comida estragada), o sistema descarta ou prioriza os mais frescos, garantindo que o aprendizado não fique confuso.

4. Os Resultados: Mais Rápido e Melhor

O papel mostra que, ao usar esse sistema de "buffet contínuo":

Velocidade: O treinamento ficou até 2,77 vezes mais rápido do que os métodos antigos. É como se você conseguisse cozinhar o jantar de uma semana em apenas dois dias.
Qualidade: Surpreendentemente, o modelo final ficou tão bom ou até melhor do que os treinados de forma lenta. A velocidade não sacrificou a qualidade; pelo contrário, a prática constante (mais dados sendo gerados) ajudou o modelo a aprender melhor.
Escalabilidade: O sistema funciona bem mesmo quando você aumenta o número de cozinheiros (placas de vídeo) de 64 para 512, mantendo a eficiência.

Resumo em uma frase

O AReaL é como transformar uma fila de espera chata e lenta em uma esteira rolante super rápida e inteligente, onde ninguém fica parado, os dados "velhos" são aproveitados com inteligência e o resultado final é um cérebro de IA muito mais esperto, treinado em menos da metade do tempo.

É uma vitória da engenharia de sistemas: fazer o computador trabalhar como um time de elite, onde cada segundo é aproveitado, sem deixar ninguém esperando o colega terminar a tarefa.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

O treinamento de Modelos de Raciocínio de Grande Escala (LRMs) usando Aprendizado por Reforço (RL) tornou-se essencial para melhorar capacidades em matemática, codificação e lógica. No entanto, os sistemas existentes de RL em grande escala enfrentam ineficiências críticas de sistema:

Arquitetura Síncrona: A maioria dos sistemas atuais opera de forma síncrona, alternando estritamente entre fases de geração (rollout) e treinamento. O treinamento só começa após a conclusão da geração de todos os exemplos no lote.
Subutilização de GPU: Como os LRMs geram sequências de tokens de comprimentos variáveis (alguns prompts geram respostas curtas, outros longas), a fase de geração é bloqueada até que a sequência mais longa termine. Isso deixa as GPUs de inferência ociosas enquanto esperam, desperdiçando recursos computacionais.
Escalabilidade Limitada: A necessidade de sincronização impede que o sistema escale linearmente com o aumento de GPUs, pois o gargalo da geração variável domina o tempo total.
Exigência de Dados On-Policy: Algoritmos como PPO exigem dados gerados pelo modelo mais recente. Sistemas síncronos garantem isso, mas à custa da eficiência. Sistemas assíncronos anteriores sofrem com a "desatualização" (staleness) dos dados, onde dados antigos podem degradar o desempenho do modelo.

2. Metodologia: O Sistema AREAL

O AREAL é um sistema de RL totalmente assíncrono projetado para desacoplar completamente a geração de dados do treinamento do modelo, mantendo a estabilidade e o desempenho.

Arquitetura do Sistema

O sistema é composto por quatro componentes principais que operam em paralelo:

Trabalhadores de Rollout (Geração): Geram respostas continuamente sem esperar pelo treinamento. Eles suportam geração interrompível: quando um novo modelo é atualizado, a geração atual é interrompida, o cache KV é descartado, os pesos são atualizados e a geração continua com os novos pesos. Isso permite que um único trajeto seja composto por segmentos de diferentes versões do modelo.
Serviço de Recompensa: Avalia as respostas geradas (ex: executando testes unitários para código ou verificando a resposta final em matemática) de forma assíncrona.
Buffer de Replay: Armazena os trajetos e recompensas.
Trabalhadores de Treinamento: Consomem dados do buffer e atualizam o modelo.

Desafios Algorítmicos e Soluções

A desacoplamento introduz dois desafios principais que o AREAL resolve:

Desatualização de Dados (Data Staleness): Como o treinamento usa dados gerados por versões anteriores do modelo, a distribuição dos dados pode divergir da política atual.
- Solução: O sistema implementa um controle de desatualização máxima ( $\eta$ ). O controlador de rollout limita a quantidade de dados antigos que podem entrar em um lote de treinamento, rejeitando novas solicitações de geração se o limite for atingido, garantindo que o lote não contenha dados excessivamente obsoletos.
Versões de Política Inconsistentes: Em um trajeto interrompido, diferentes tokens podem ter sido gerados por políticas diferentes ( $\pi_{\theta}, \pi_{\theta+1}, \dots$ ), violando a premissa padrão do PPO de que todos os dados vêm de uma única política antiga ( $\pi_{old}$ ).
- Solução: O AREAL propõe um Objetivo PPO Desacoplado (Decoupled PPO Objective).
  - Introduz uma política de comportamento ( $\pi_{behav}$ ) que representa a mistura de todas as políticas usadas na geração.
  - Introduz uma política proximal ( $\pi_{prox}$ ) que atua como o centro da região de confiança (geralmente a política imediatamente anterior à atualização).
  - A função de perda é reformulada para regularizar a atualização em relação a $\pi_{prox}$ , permitindo que o modelo aprenda de dados gerados por versões mais antigas sem instabilizar o treinamento.

Otimizações de Sistema

Alocação Dinâmica de Micro-lotes: Para lidar com sequências de comprimento variável sem desperdício de memória (padding), o sistema usa um algoritmo de "packing" dinâmico que equilibra o número de tokens em cada micro-lote.
Geração Interrompível: Permite atualizar pesos "on-the-fly" sem reiniciar a geração do zero, maximizando a utilização da GPU.
Serviço de Recompensa Paralelo: Executa a computação de recompensa em threads separadas para não bloquear a geração.

3. Contribuições Principais

Sistema Assíncrono Completo: Primeiro sistema de RL em grande escala para LRMs que desacopla totalmente geração e treinamento, eliminando tempos de espera ociosos.
Objetivo PPO Adaptado: Uma nova formulação matemática (PPO Desacoplado) que permite treinamento estável com dados de múltiplas versões de políticas, resolvendo o problema de inconsistência em gerações interrompidas.
Controle de Desatualização: Um mecanismo prático e eficaz para limitar a idade dos dados no treinamento, equilibrando throughput e estabilidade.
Otimizações de Hardware: Implementação de técnicas como geração interrompível e packing dinâmico que aumentam significativamente a eficiência de uso de GPU.

4. Resultados Experimentais

Os autores avaliaram o AREAL em tarefas de raciocínio matemático (benchmarks AIME24, MATH) e geração de código (LiveCodeBench) usando modelos de 1.5B a 32B parâmetros.

Aceleração de Treinamento: O AREAL alcançou um speedup de até 2.77x no tempo de treinamento end-to-end em comparação com sistemas síncronos de última geração (como o verl) usando o mesmo número de GPUs.
Eficiência de Throughput: Em escalas de até 512 GPUs, o AREAL demonstrou escalabilidade linear, enquanto sistemas síncronos falharam em escalar eficientemente devido a gargalos de memória e IO.
Desempenho Final: O sistema não apenas acelerou o treinamento, mas também melhorou ou manteve a precisão final do modelo. Em alguns casos, o modelo treinado com AREAL superou os baselines síncronos, demonstrando que a maior eficiência de amostragem compensa a desatualização dos dados.
Ablação: Estudos mostraram que sem o objetivo PPO desacoplado, o desempenho cai drasticamente com dados desatualizados. Com o novo objetivo, o sistema tolera desatualização moderada ( $\eta \le 8$ ) sem perda de desempenho, acelerando o throughput em mais de 2x.

5. Significado e Impacto

O trabalho AREAL representa um avanço fundamental na infraestrutura de treinamento de IA.

Viabilidade Econômica: Ao reduzir o tempo de treinamento em quase 3x e aumentar a utilização de GPUs, o sistema torna o treinamento de modelos de raciocínio complexos muito mais acessível e sustentável.
Paradigma de Treinamento: Demonstra que a sincronização estrita não é necessária para o sucesso do RL em LLMs, abrindo caminho para arquiteturas mais flexíveis e eficientes.
Escalabilidade: Resolve o problema de escalabilidade de LRMs, permitindo o treinamento eficiente de modelos massivos com contextos longos (até 32k tokens) em clusters grandes.

Em resumo, o AREAL fornece a base de sistema e algoritmo necessária para escalar o treinamento por reforço de modelos de linguagem de forma eficiente, superando as limitações de hardware e algoritmos dos sistemas síncronos atuais. O código do projeto está disponível publicamente.