Rewriting Pre-Training Data Boosts LLM Performance in Math and Code

公開データを体系的に書き換えて作成した「SwallowCode」と「SwallowMath」という 2 つのオープンライセンスデータセットにより、Llama-3.1-8B モデルの数学およびコード生成能力が大幅に向上し、その有効性と再現性が実証されました。

Kazuki Fujii, Yukito Tajima, Sakae Mizuki, Masaki Kawamura, Hinari Shimada, Taihei Shiotani, Koshiro Saito, Masanari Oi, Taishi Nakamura, Takumi Okamoto, Shigeki Ishida, Kakeru Hattori, Youmi Ma, Hiroya Takamura, Rio Yokota, Jun Sakuma, Naoaki Okazaki

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI(大規模言語モデル)を賢くするためには、ただ大量のデータを食べさせるだけでなく、そのデータを『高品質な料理』に変えることが重要だ」**というアイデアを提案した研究です。

タイトルにある「SwallowCode(スワロウコード)」と「SwallowMath(スワロウ数学)」は、この研究で作られた**「AI 用の高品質な教材セット」**の名前です。

以下に、専門用語を排して、身近な例え話を使って解説します。


1. 問題:AI は「生ゴミ」を食べている?

これまで、AI を勉強させるためのデータ(テキストやコード)は、インターネットからひたすら集められた「山のようなデータ」でした。
しかし、この山の中には以下のような「ゴミ」が混ざっていました。

  • コードの場合: 文法がおかしい、変な書き方、必要なものが抜けている、無駄なコメントばかり。
  • 数学の場合: 問題文が不完全、答えの途中が飛んでいる、余計な広告やヘッダーが混じっている。

これらをそのまま AI に食べさせると、**「生ゴミを食べているようなもの」**で、AI は混乱したり、間違ったことを学んだりしてしまいます。
これまでの研究では、「ゴミを捨てる(フィルタリング)」ことしかしていませんでした。でも、捨てるだけでは「もったいない」し、残ったものもまだ汚れています。

2. 解決策:「リメイク(リメイク)」という魔法

この研究チームは、**「捨てるのではなく、リメイクして美味しくする」という新しいアプローチを取りました。
彼らは、
「AI 自身(より賢い AI)」**を料理人として雇い、粗悪なデータを高品質な教材に作り変えるプロセスを開発しました。

🍳 SwallowCode(コード料理のシェフ)

Python というプログラミング言語のデータを対象に、4 つの工程で「リメイク」を行いました。

  1. 下処理(文法チェック): 壊れたコード(文法エラー)を排除。
  2. 味付け(スタイルチェック): 「Pylint」という道具で、コードの書き方が整っているかチェック。
  3. リメイク①(スタイル指導): 賢い AI が「変数名を分かりやすく」「関数を整理して」という指示を出し、コードを美しく書き直します。
  4. リメイク②(完全な料理): さらに AI が「外部の道具に依存しないように」「計算を効率化して」「初心者にもわかる例題にする」という指示を出し、**「それ単体で完結し、かつ最高に効率的なコード」**に変えます。

結果:
この「リメイクされたコード」で AI を訓練すると、「人間が書いたテスト問題(HumanEval)」を解く正解率が、従来の方法より 17% も向上しました。
これは、**「粗悪な食材を捨てて、同じ量の食材でも『高級料理』に変えたら、味(性能)が劇的に良くなった」**という現象です。

📐 SwallowMath(数学の家庭教師)

数学の問題集も同様にリメイクしました。

  • 余計な広告や日付を消す。
  • 欠けている問題文を補う。
  • 答えの導き方を「ステップバイステップ」で分かりやすく書き直す。

結果:
これにより、数学のテスト(GSM8K や MATH)の正解率が大幅に向上しました。

3. なぜこれがすごいのか?(重要なポイント)

  • 「捨てる」ではなく「直す」:
    従来の方法は「質の低いデータは捨てて、良いデータだけ残す」でしたが、この方法は「質の低いデータも、AI によって高品質に変えて、すべて有効活用する」ことができます。データの有効利用率が格段に上がります。
  • 誰でも使える「レシピ」:
    この研究チームは、使ったデータ、リメイクの指示(プロンプト)、そして完成した教材セットをすべて無料で公開しました。
    これは、**「美味しい料理のレシピと食材を、世界中の誰にでも配った」**ようなものです。これにより、他の研究者も同じように高性能な AI を作れるようになります。
  • コスト対効果:
    確かに、データをリメイクするには計算コスト(電気代や時間)がかかります。しかし、リメイクしたデータで訓練した AI は、**「同じ学習時間(トークン数)でも、はるかに高い性能」を出します。つまり、「少量の高級食材で、大量の粗食よりも美味しい料理が作れる」**のです。

4. まとめ:AI 教育の新しい常識

この論文が伝えたいことはシンプルです。

「AI を賢くしたいなら、ただ『量』を増やすだけではダメだ。『質』を高めるために、データを丁寧に『リメイク』しよう。」

彼らが作った「SwallowCode」と「SwallowMath」は、AI 教育界に**「高品質な教科書」**を提供したと言えます。これにより、オープンソース(誰でも使える)の AI であっても、最先端の AI に負けない、あるいはそれ以上の能力を持つことができるようになりました。

まるで、**「粗末な材料を、天才シェフ(AI)の手で、世界最高級の料理に変える魔法のレシピ」**を公開したような、画期的な研究なのです。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →