Rewriting Pre-Training Data Boosts LLM Performance in Math and Code

이 논문은 공개된 데이터를 체계적으로 재작성하여 생성한 오픈 라이선스 데이터셋 (SwallowCode 와 SwallowMath) 을 통해 LLM 의 코드 및 수학 추론 성능을 획기적으로 향상시키는 '변환 및 유지 (transform-and-retain)' 방법론을 제안하고 그 유효성을 입증합니다.

Kazuki Fujii, Yukito Tajima, Sakae Mizuki, Masaki Kawamura, Hinari Shimada, Taihei Shiotani, Koshiro Saito, Masanari Oi, Taishi Nakamura, Takumi Okamoto, Shigeki Ishida, Kakeru Hattori, Youmi Ma, Hiroya Takamura, Rio Yokota, Jun Sakuma, Naoaki Okazaki

게시일 2026-03-03
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"대형 인공지능 (LLM) 이 수학이나 코딩을 잘하려면, 무엇을 배웠느냐가 가장 중요하다"**는 사실을 증명하고, 그 '배움의 재료'를 어떻게 더 훌륭하게 다듬을 수 있는지 보여주는 연구입니다.

기존의 AI 는 인터넷에서 무작위로 긁어온 방대한 양의 데이터로 학습했는데, 이 데이터에는 오류가 많거나, 불필요한 잡음이 섞여 있거나, 설명이 부실한 것들이 많았습니다. 마치 요리사가 식자재 장터에서 낡고 상한 채소를 골라내지 않고 그대로 요리에 섞어 넣은 것과 비슷하죠.

저자들은 이 문제를 해결하기 위해 **SwallowCode(코드용)**와 **SwallowMath(수학용)**라는 두 가지 새로운 '고급 식자재 세트'를 만들었습니다. 핵심 아이디어는 **"나쁜 데이터를 버리는 게 아니라, AI 가 직접 수정하고 다듬어서 더 좋은 데이터로 만드는 것"**입니다.

이 과정을 일상적인 비유로 설명해 드릴게요.


1. SwallowCode: 코딩 실력을 키우는 '명품 요리 교실'

기존의 코드 데이터 (The-Stack-v2) 는 마치 초보 요리사들이 만든 레시피 노트와 같았습니다. 재료가 부족하거나, 계량법이 엉망이거나, 심지어 요리할 수 없는 재료 (오류) 가 섞여 있었죠.

저자들은 이 노트를 다음과 같은 4 단계 과정을 거쳐 '명품 레시피'로 바꿨습니다.

  1. 식중독 검사 (문법 오류 제거): 요리할 수 없는 재료 (문법 오류가 있는 코드) 를 먼저 골라냅니다.
  2. 위생 점검 (스타일 필터링): 재료가 너무 더럽거나 (불필요한 주석), 조리법이 엉망인 것 (pylint 도구로 검사) 을 걸러냅니다.
  3. 요리사 선생님의 첨삭 (스타일 가이드): AI 가 레시피를 다시 써줍니다. "이 재료 이름은 너무 길어요, '양파'라고 적으세요", "이 과정은 설명을 더 자세히 적으세요"라고 Google 의 요리 규칙에 맞게 다듬어 줍니다.
  4. 완벽한 레시피 완성 (자기완결성 최적화): 가장 중요한 단계입니다. "이 요리를 하려면 따로 다른 재료를 사와야 해요"라고 적힌 레시피를, 모든 재료가 한 장에 다 들어있는 완벽한 레시피로 바꿉니다. 또한, 비효율적인 조리법 (예: 100 번 반복해서 끓이기) 을 효율적인 방법 (한 번에 끓이기) 으로 고쳐줍니다.

결과: 이 '다듬어진 레시피'로 학습한 AI 는 기존에 낡은 레시피로 학습한 AI 보다 코딩 테스트 (HumanEval) 에서 17% 이상 더 높은 점수를 받았습니다. 즉, 같은 양의 공부를 해도 훨씬 더 똑똑해진 것입니다.

2. SwallowMath: 수학 문제를 푸는 '명쾌한 해설서'

수학 데이터 (Finemath-4+) 도 비슷했습니다. 문제와 답이 섞여 있고, 불필요한 웹사이트 헤더나 푸터가 붙어 있으며, 해설이 너무 길거나 생략된 경우가 많았습니다.

저자들은 AI 를 '수학 선생님'으로 시켜서 데이터를 다시 썼습니다.

  • 불필요한 잡음 제거: 문제 옆에 붙은 "작성일: 2023 년", "개인정보 보호 정책" 같은 쓸모없는 글들을 지웁니다.
  • 맥락 복원: "왜 이 공식을 썼지?"라고 궁금한 부분이 있으면, 그 이유를 자연스럽게 채워 넣습니다.
  • 명쾌한 해설: "답은 5 입니다"라고만 적힌 것을, **"1 단계, 2 단계, 3 단계로 이렇게 계산했기 때문에 5 가 됩니다"**라고 차근차근 설명하는 형태로 바꿉니다.

결과: 이 '명쾌한 해설서'로 학습한 AI 는 수학 문제 (GSM8K, MATH) 를 풀 때 정확도가 12%~7% 이상 향상되었습니다.

3. 핵심 교훈: "버리지 말고, 다듬어라 (Transform-and-Retain)"

기존 연구들은 "나쁜 데이터는 아예 버려라 (Filtering)"라고 했습니다. 하지만 저자들은 **"나쁜 데이터도 다듬으면 보석이다"**라고 주장합니다.

  • 비유: 쓰레기 더미에서 보석을 찾는 대신, 보석 광부 (AI) 가 직접 돌을 갈아서 보석으로 만드는 과정입니다.
  • 효과: 같은 학습 시간 (500 억 토큰) 을 투자해도, 다듬어진 데이터로 학습한 AI 는 훨씬 더 높은 성과를 냅니다. 이는 마치 비싼 고급 식재료를 써서 같은 시간 동안 요리하면 훨씬 맛있는 요리가 나오는 것과 같습니다.

4. 왜 이 연구가 중요한가요?

지금까지 최고의 AI 모델들은 비공개 데이터를 사용해서 "우리가 무엇을 배웠는지"를 알려주지 않았습니다. 하지만 이 연구는 누구나 무료로 쓸 수 있는 '다듬어진 데이터'와 '다듬는 방법 (코드)'을 공개했습니다.

  • 공정한 경쟁: 누구나 이 '명품 식자재'를 써서 똑똑한 AI 를 만들 수 있게 되었습니다.
  • 재현 가능성: "어떻게 다듬었는지"를 모두 공개했기 때문에, 다른 연구자들도 이 방법을 따라 할 수 있습니다.

요약

이 논문은 **"AI 의 실력은 학습 데이터의 질에 달려 있다"**는 것을 증명하며, 나쁜 데이터를 AI 가 직접 수정하고 다듬어서 '명품 데이터'로 만드는 새로운 방법을 제시했습니다. 이는 코딩과 수학 분야에서 AI 의 능력을 획기적으로 끌어올린, 매우 실용적이고 혁신적인 연구입니다.

마치 낡은 옷을 버리는 대신, 재단사가 와서 옷을 다듬고 수선해서 명품으로 만든 것과 같습니다. 이제 누구나 그 '수선된 옷'을 입고 더 멋진 AI 를 만들 수 있게 된 것입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →