LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning

O artigo apresenta o LongWriter-Zero, um modelo de linguagem treinado exclusivamente por meio de aprendizado por reforço a partir de um modelo base, que supera métodos tradicionais de ajuste fino supervisionado e modelos maiores na geração de textos ultra-longos de alta qualidade, eliminando a necessidade de dados sintéticos ou anotados.

Yuhao Wu, Yushi Bai, Zhiqiang Hu, Roy Ka-Wei Lee, Juanzi Li

Publicado 2026-03-03
📖 2 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

`) antes de gerar o texto final. Isso ajuda a organizar o pensamento e evita que ela se perca em textos longos.

C. A "Leitura Prévia" (Pré-treinamento Contínuo)

Antes de começar o treinamento com o "treinador" (recompensas), eles deixaram a IA ler milhões de páginas de livros, artigos e relatórios reais.

  • A analogia: É como dar ao aluno um ano de leitura intensiva de clássicos da literatura antes de colocá-lo no campo de treino. Isso dá a ele um vocabulário rico e uma ideia melhor de como o mundo funciona, fazendo o treinamento posterior ser muito mais rápido e eficiente.

4. O Resultado: O "Super-Escritor"

O resultado final, chamado LongWriter-Zero, é impressionante:

  • Ele foi treinado sem usar nenhum exemplo de texto pronto (apenas o modelo base e as regras de pontuação).
  • Ele consegue escrever textos ultra-longos (milhares de palavras) mantendo a coerência, sem se repetir e seguindo o formato pedido.
  • A grande vitória: Ele superou modelos muito maiores (com 100 bilhões de parâmetros ou mais) e até modelos famosos como o DeepSeek R1 e o Qwen3, mesmo tendo apenas 32 bilhões de parâmetros.

Resumo em uma frase

O LongWriter-Zero é como um aluno que, em vez de decorar respostas prontas, foi colocado em um campo de treino onde aprendeu a escrever livros inteiros através de tentativa, erro e um sistema de pontuação inteligente, conseguindo superar gigantes que apenas "decoraram" milhões de textos.

É um passo gigante para que as IAs possam ajudar a escrever romances, relatórios jurídicos, roteiros de filmes e documentos complexos sem perder a qualidade no meio do caminho.