LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning

이 논문은 합성 데이터나 주석 데이터 없이 강화 학습을 통해 초장문 텍스트 생성 능력을 배양하는 'LongWriter-Zero'를 제안하며, 기존 SFT 기반 방법론과 100B+ 규모의 대형 모델들을 능가하는 최첨단 성능을 입증합니다.

Yuhao Wu, Yushi Bai, Zhiqiang Hu, Roy Ka-Wei Lee, Juanzi Li

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

긴 글 쓰는 AI, '롱라이터-제로'의 비밀: 공부를 안 하고도 어떻게 천재가 되었나?

안녕하세요! 오늘 소개해 드릴 논문은 **"초장문 텍스트 생성 (수천 단어 이상의 긴 글)"**을 AI 가 어떻게 잘 쓰게 만들었는지에 대한 이야기입니다. 기존 방식은 AI 에게 '좋은 예시'를 보여주고 따라 쓰게 하는 방식 (지도 학습) 이었는데, 이 논문은 **"예시 없이, 오직 '보상'과 '생각'을 통해 스스로 배운다"**는 새로운 방식을 제시합니다.

이걸 쉽게 이해할 수 있도록 세 가지 비유로 설명해 드릴게요.


1. 기존 방식 vs 새로운 방식: "모범답안 암기" vs "스스로 고민하는 탐험가"

  • 기존 방식 (지도 학습, SFT):
    imagine 하세요. 학생이 시험을 잘 보려면, 선생님이 정답이 적힌 모범 답안지를 1,000 장 정도 주고 "이걸 외워서 똑같이 써봐"라고 시키는 거예요.

    • 문제점: 모범 답안지 자체가 AI 가 만든 거라 다양성이 떨어지고, AI 는 답안지를 그대로 베끼는 법만 배웁니다. 길이가 길어지면 내용이 꼬이거나 반복되는 실수가 자주 나죠.
  • 새로운 방식 (강화 학습, LongWriter-Zero):
    이 논문은 모범 답안지를 주지 않습니다. 대신 학생을 혼자 방에 가두고 "이 주제에 대해 3,000 자 이상의 멋진 글을 써봐. 잘 쓰면 점수 (보상) 를 주고, 못 쓰면 점수를 깎을 거야"라고 말합니다.

    • 핵심: AI 는 처음엔 엉망진창 글을 쓰지만, "아, 길이가 너무 짧으면 점수가 깎이는구나", "내용이 반복되면 점수가 깎이는구나"를 스스로 깨닫고 글을 고쳐 나갑니다. 마치 미로를 스스로 헤쳐 나가는 탐험가처럼요.

2. 세 가지 핵심 기술: 어떻게 점수를 올렸을까?

AI 가 스스로 배울 때, 어떤 '규칙'을 줬느냐가 중요했습니다. 연구팀은 AI 에게 세 가지 '선물 (보상)'을 주었습니다.

① 길이 조절기 (Length Reward): "너무 짧지, 너무 길지, 딱 맞춰!"

  • 비유: 요리사에게 "요리 양을 300g~400g 사이로 맞춰줘"라고 하는 거예요.
  • AI 는 처음엔 100 자만 쓰거나 10,000 자를 써서 넘어가려 했지만, 연구팀은 **"원래 요구한 분량에 가까울수록 점수를 준다"**는 규칙을 줬습니다. AI 는 이 규칙을 깨닫고, 글을 길게 쓰되 불필요한 반복 없이 딱 필요한 분량만 채우는 법을 배웠습니다.

② 글쓰기 감수성 (Writing Reward): "재미있고 매끄러운 글"

  • 비유: 글쓰기 대회 심사위원이 "문장이 매끄럽고, 논리가 통하고, 읽는 사람이 즐거워야 점수 10 점"이라고 하는 거예요.
  • AI 가 쓴 글이 부자연스럽거나 내용이 엉망이면 점수가 깎입니다. 이걸 통해 AI 는 자연스럽고 논리적인 글쓰기 스타일을 스스로 터득하게 됩니다.

③ 생각의 시간 (Think Prompt): "생각하고, 계획하고, 써라!"

  • 비유: 시험을 볼 때 바로 답을 쓰지 말고, **별지 (생각지)**에 먼저 "어떻게 풀지? 어떤 순서로 쓸지?"를 적고 나서 답안을 쓰게 하는 거예요.
  • 이 논문에서 가장 혁신적인 부분입니다. AI 가 글을 쓰기 전에 <thought> 태그 안에 계획을 세우고 고민하는 과정을 거치게 했습니다.
    • "아, 이 주제는 3 단락으로 나누는 게 좋겠어."
    • "여기서 예시를 하나 더 넣어야 길이가 채워지겠네."
    • 이렇게 생각하는 시간을 거친 AI는 글의 구조가 훨씬 탄탄해지고, 내용이 일관성 있게 유지됩니다.

3. 결과: 작은 AI 가 거인 AI 를 이겼다?

이 방법 (LongWriter-Zero) 으로 훈련된 AI 는 놀라운 결과를 냈습니다.

  • 기존의 거인 AI 들 (DeepSeek-R1, Qwen3 등) 을 능가: 파라미터 (뇌의 크기) 가 훨씬 작은 32B 모델이, 100B 이상의 거대 모델들보다 긴 글쓰기 실력이 더 뛰어났습니다.
  • 왜? 거대 모델은 단순히 많은 데이터를 '암기'한 반면, 이 AI 는 글쓰는 '원리'와 '전략'을 스스로 터득했기 때문입니다. 마치 작은 천재가 큰 일반인보다 문제를 더 잘 푸는 것과 같습니다.

📝 한 줄 요약

"이전에는 AI 에게 '좋은 글 예시'를 보여줘서 따라 쓰게 했지만, 이번엔 AI 에게 '글쓰기 규칙 (보상)'만 주고 스스로 고민하게 했더니, AI 가 스스로 긴 글을 쓰는 법을 터득해서 거인 AI 들보다 더 잘 쓰게 되었습니다."

이 연구는 AI 가 단순히 데이터를 복사하는 것을 넘어, 스스로 생각하고 계획하며 창의적인 작업을 수행할 수 있는 단계로 나아갔음을 보여줍니다. 마치 아이가 부모의 말만 듣는 것이 아니라, 스스로 문제를 해결하며 성장하는 것과 같은 변화입니다.