LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning

Yuhao Wu, Yushi Bai, Zhiqiang Hu, Roy Ka-Wei Lee, Juanzi Li

Publicado 2026-03-03

📖 2 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

`) antes de gerar o texto final. Isso ajuda a organizar o pensamento e evita que ela se perca em textos longos.

C. A "Leitura Prévia" (Pré-treinamento Contínuo)

Antes de começar o treinamento com o "treinador" (recompensas), eles deixaram a IA ler milhões de páginas de livros, artigos e relatórios reais.

A analogia: É como dar ao aluno um ano de leitura intensiva de clássicos da literatura antes de colocá-lo no campo de treino. Isso dá a ele um vocabulário rico e uma ideia melhor de como o mundo funciona, fazendo o treinamento posterior ser muito mais rápido e eficiente.

4. O Resultado: O "Super-Escritor"

O resultado final, chamado LongWriter-Zero, é impressionante:

Ele foi treinado sem usar nenhum exemplo de texto pronto (apenas o modelo base e as regras de pontuação).
Ele consegue escrever textos ultra-longos (milhares de palavras) mantendo a coerência, sem se repetir e seguindo o formato pedido.
A grande vitória: Ele superou modelos muito maiores (com 100 bilhões de parâmetros ou mais) e até modelos famosos como o DeepSeek R1 e o Qwen3, mesmo tendo apenas 32 bilhões de parâmetros.

Resumo em uma frase

O LongWriter-Zero é como um aluno que, em vez de decorar respostas prontas, foi colocado em um campo de treino onde aprendeu a escrever livros inteiros através de tentativa, erro e um sistema de pontuação inteligente, conseguindo superar gigantes que apenas "decoraram" milhões de textos.

É um passo gigante para que as IAs possam ajudar a escrever romances, relatórios jurídicos, roteiros de filmes e documentos complexos sem perder a qualidade no meio do caminho.

Each language version is independently generated for its own context, not a direct translation.

e` para planejar a estrutura, tom e conteúdo antes de escrever o texto final.
3. Pré-treinamento Contínuo (Continual Pretraining): Antes do RL, o modelo base passa por um pré-treinamento contínuo em 30 bilhões de tokens de dados de alta qualidade focados em escrita (livros, relatórios, artigos) e uma pequena fração de dados de raciocínio longo (CoT) para alinhar o formato inicial.

3. Contribuições Chave

Paradigma "Zero" para Geração Longa: É a primeira tentativa bem-sucedida de treinar um modelo para geração ultra-longa utilizando apenas RL, sem qualquer etapa de SFT supervisionado com dados sintéticos ou anotados.
Eficácia do "Pensamento" (CoT) em Tarefas Criativas: Demonstra que, assim como em matemática e código, a introdução de uma fase explícita de raciocínio e planejamento (thinking) melhora significativamente a coerência e o controle de estrutura em tarefas de escrita aberta.
Superioridade do RL sobre SFT: Evidencia que o RL, especialmente quando aplicado a modelos base mais fortes (após pré-treinamento contínuo), supera drasticamente o SFT tradicional em tarefas de geração longa, permitindo que o modelo explore um espaço de soluções mais amplo e alinhado aos objetivos globais.
Arquitetura de Recompensa Híbrida: Propõe um sistema robusto de recompensas compostas que equilibra controle de comprimento, qualidade de escrita e formatação, mitigando problemas comuns de RL como "hacking" de recompensa.

4. Resultados

O modelo LongWriter-Zero (baseado em Qwen2.5-32B) foi avaliado em benchmarks rigorosos:

WritingBench: O modelo alcançou a pontuação global mais alta (8.69), superando modelos proprietários de ponta como GPT-4o (8.16), Claude-Sonnet-4 (8.60) e o modelo de raciocínio DeepSeek-R1 (8.55). Foi superior em 5 de 6 domínios (Acadêmico, Finanças, Política, Educação, Marketing).
Arena-Write: O modelo obteve uma pontuação Elo de 1447, superando todos os concorrentes, incluindo DeepSeek-R1 e Qwen3-235B (que empataram em segundo lugar com 1343).
Ablação: A remoção do pré-treinamento contínuo ou da etapa de "pensamento" resultou em quedas drásticas de desempenho, confirmando que ambos os componentes são essenciais.
Comparação SFT vs. RL: Em experimentos controlados, o RL superou consistentemente o SFT, mesmo quando o SFT usava os mesmos dados de pré-treinamento contínuo. O RL conseguiu melhorar significativamente o modelo base, enquanto o SFT teve ganhos marginais.
Escalabilidade: O método também foi validado em modelos menores (14B), mostrando ganhos consistentes, embora o modelo 32B tenha atingido o estado da arte.

5. Significado e Impacto

O trabalho do LongWriter-Zero representa um avanço fundamental na capacidade de LLMs de gerar textos longos e coerentes.

Mudança de Paradigma: Demonstra que a dependência de dados sintéticos massivos para tarefas complexas de geração pode ser substituída por RL puro, reduzindo custos de curadoria de dados e viés de modelos professores.
Generalização do Raciocínio: Estende o conceito de "Chain-of-Thought" (CoT) para além de tarefas lógicas/matemáticas, provando que o planejamento explícito é crucial para a qualidade narrativa e estrutural em escrita criativa e técnica.
Eficiência de Recursos: Um modelo de 32B parâmetros, treinado com essa metodologia, supera modelos proprietários massivos (acima de 100B+), sugerindo que a qualidade do treinamento (RL + Pré-treinamento estratégico) é mais importante do que apenas o aumento de escala de parâmetros.
Aplicabilidade Prática: Oferece uma solução viável para cenários reais que exigem documentos longos, relatórios detalhados e narrativas complexas com alta fidelidade e consistência.

Em resumo, o LongWriter-Zero estabelece um novo padrão para a geração de texto ultra-longo, provando que o Aprendizado por Reforço, quando bem projetado com recompensas compostas e raciocínio explícito, pode desbloquear capacidades de geração que superam as limitações atuais dos métodos supervisionados.

CompartilharTwitter LinkedIn Email

Gostou desta explicação? Receba uma assim todos os dias.

Verifique sua caixa de entrada para confirmar sua inscrição.

Algo deu errado. Tentar novamente?

Sem spam, cancele quando quiser.

Mais como este

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

Este trabalho propõe o uso do Transporte Ótimo como objetivo de alinhamento durante o ajuste fino de representações multilíngues contextualizadas, permitindo um aprendizado de alinhamento de palavras não supervisionado e flexível que melhora a transferência entre línguas em tarefas como XNLI e XQuAD.

Sawsan Alqahtani, Garima Lalwani, Yi Zhang + 2 more2026-03-20💬 cs.CL

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

O artigo apresenta o SQLBench, um novo framework de avaliação que inclui um dataset anti-overfitting e cinco tarefas específicas para analisar as capacidades cognitivas dos Grandes Modelos de Linguagem no processo Text-to-SQL, identificando disparidades de desempenho e propondo soluções otimizadas de aprendizado em contexto.

Bin Zhang, Yuxiao Ye, Guoqing Du + 8 more2026-03-20💬 cs.CL

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

O artigo apresenta o DAVIS, um agente de planejamento para laboratórios científicos que supera as abordagens tradicionais de geração aumentada por recuperação (RAG) ao incorporar memória estruturada e temporal, bem como um sistema de recuperação interativa em múltiplas etapas semelhante a um "monólogo interno", resultando em desempenho superior no benchmark ScienceWorld e competitivo em tarefas de resposta a perguntas multihop.

Minh Pham Dinh, Munira Syed, Michael G Yankoski + 1 more2026-03-20💬 cs.CL

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

O artigo apresenta uma exploração piloto da construção e gestão do corpus multimodal Gest-IT, que utiliza anotações ortográficas, prosódicas e gestuais para investigar padrões de gestos em conversas entre pessoas videntes e com deficiência visual, propondo um formato unificado CoNLL-U e delineando os próximos passos da pesquisa.

Ludovica Pannitto, Lorenzo Albanesi, Laura Marion + 5 more2026-03-20💬 cs.CL

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics

Este estudo demonstra que, ao realizar raciocínio passo a passo em tarefas aritméticas, os grandes modelos de linguagem calculam as respostas de forma iterativa e fiel durante a geração do texto, em vez de já as terem pré-determinado antes de iniciar a explicação.

Keito Kudo, Yoichi Aoki, Tatsuki Kuribayashi + 5 more2026-03-20💬 cs.CL