LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning
O artigo apresenta o LongWriter-Zero, um modelo de linguagem treinado exclusivamente por meio de aprendizado por reforço a partir de um modelo base, que supera métodos tradicionais de ajuste fino supervisionado e modelos maiores na geração de textos ultra-longos de alta qualidade, eliminando a necessidade de dados sintéticos ou anotados.