Not all tokens are needed(NAT): token efficient reinforcement learning

O artigo apresenta o NAT (Not All Tokens Are Needed), um framework de aprendizado por reforço que otimiza o custo computacional ao atualizar a política apenas com um subconjunto de tokens gerados via reponderamento de Horvitz-Thompson, mantendo o desempenho em raciocínio matemático enquanto reduz significativamente o uso de memória e tempo de treinamento.

Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang

Publicado 2026-03-10
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está ensinando um aluno muito inteligente (uma Inteligência Artificial) a resolver problemas de matemática complexos. Para isso, você deixa o aluno tentar resolver o problema sozinho, gera uma resposta longa e cheia de passos (o "raciocínio"), e depois você verifica se a resposta final está correta. Se estiver, você dá um "bom trabalho"; se não, um "tente de novo".

O problema é que, para o computador aprender, ele precisa revisar cada palavra que o aluno escreveu, uma por uma, para entender onde errou ou acertou. Se o aluno escrever um texto gigante com 1.000 palavras, o computador tem que "ler" e "revisar" todas as 1.000 palavras para cada tentativa. Isso consome muita energia, memória e tempo, como se você tivesse que reler um livro inteiro só para corrigir uma única vírgula no final.

Os autores deste artigo (chamado NAT) perguntaram: "Será que precisamos ler e revisar todas as palavras para ensinar o aluno?"

A resposta deles é um sonoro NÃO.

A Ideia Principal: O "Filtro Inteligente"

A equipe criou um método chamado NAT (Not All Tokens Are Needed - "Nem Todos os Tokens São Necessários"). A ideia é simples, mas genial:

  1. O Aluno continua escrevendo tudo: O computador gera a resposta completa, com todos os passos, para garantir que a nota final (a recompensa) seja justa e baseada no resultado completo.
  2. O Professor revisa apenas uma parte: Em vez de revisar as 1.000 palavras, o computador escolhe aleatoriamente apenas 500 palavras (metade) para fazer a correção e o aprendizado.
  3. O Truque Mágico (A Balança): Como o computador está ignorando metade das palavras, ele precisa garantir que a lição aprendida não fique "viciada". Para isso, eles usam uma técnica matemática chamada reponderação de Horvitz-Thompson.

A Analogia da Balança:
Imagine que você está pesando uma sacola de frutas. Você decide pesar apenas 5 maçãs aleatórias em vez de todas as 100. Para saber o peso total da sacola, você não pode simplesmente somar as 5 maçãs. Você precisa multiplicar o peso de cada uma delas por um "fator de ajuste" (como se cada maçã representasse 20 maçãs na sua mente).

O NAT faz exatamente isso: ele pega as palavras que não foram revisadas e "dá peso" extra às palavras que foram revisadas. Assim, matematicamente, o computador aprende exatamente a mesma coisa que aprenderia se tivesse lido tudo, mas gastando metade do tempo e da energia.

Duas Formas de Fazer Isso

O artigo testa duas maneiras de escolher quais palavras revisar:

  1. Amostragem Aleatória (URS): O computador escolhe palavras aleatórias espalhadas pelo texto (como pegar 500 palavras soltas de um livro).

    • Problema: Mesmo escolhendo palavras aleatórias, o computador ainda precisa "ler" o livro inteiro do início até a palavra escolhida para entender o contexto. É como se você lesse todo o livro, mas só anotasse em um caderno metade das páginas. Você ainda gasta o tempo de leitura.
  2. Corte de Prefixo Aleatório (RPC) - O Vencedor: O computador escolhe um ponto aleatório no texto e diz: "Vou revisar apenas os primeiros 500 passos e ignorar o resto".

    • Vantagem: Aqui, o computador realmente para de ler após o ponto de corte. Ele não precisa processar o final da frase. É como se você lesse apenas os primeiros capítulos de um livro para entender a trama principal, sem precisar chegar ao final.
    • Resultado: Isso economiza memória (o computador não precisa guardar o final da frase na memória) e tempo (ele para de processar mais cedo).

Por que isso é importante?

Hoje, os modelos de IA estão ficando cada vez mais "pensadores", gerando raciocínios longos e complexos (como resolver equações de física ou escrever códigos). Isso está ficando tão caro e lento que quase não dá para treinar novos modelos.

O método NAT, especialmente a técnica de Corte de Prefixo (RPC), permite que:

  • O treinamento seja 29% mais rápido.
  • O computador use 18% menos memória (o que evita que ele "trave" por falta de espaço).
  • A qualidade do aprendizado não caia. O aluno continua ficando tão inteligente quanto antes.

Resumo em uma frase

O NAT é como um professor esperto que, em vez de corrigir cada linha de um trabalho longo do aluno, corrige apenas a metade inicial de forma inteligente, ajustando a nota final para garantir que o aluno aprenda tudo o que precisa, mas gastando metade do tempo e da energia do computador.