Rewriting Pre-Training Data Boosts LLM Performance in Math and Code

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI（大規模言語モデル）を賢くするためには、ただ大量のデータを食べさせるだけでなく、そのデータを『高品質な料理』に変えることが重要だ」**というアイデアを提案した研究です。

タイトルにある「SwallowCode（スワロウコード）」と「SwallowMath（スワロウ数学）」は、この研究で作られた**「AI 用の高品質な教材セット」**の名前です。

以下に、専門用語を排して、身近な例え話を使って解説します。

1. 問題：AI は「生ゴミ」を食べている？

これまで、AI を勉強させるためのデータ（テキストやコード）は、インターネットからひたすら集められた「山のようなデータ」でした。
しかし、この山の中には以下のような「ゴミ」が混ざっていました。

コードの場合： 文法がおかしい、変な書き方、必要なものが抜けている、無駄なコメントばかり。
数学の場合： 問題文が不完全、答えの途中が飛んでいる、余計な広告やヘッダーが混じっている。

これらをそのまま AI に食べさせると、**「生ゴミを食べているようなもの」**で、AI は混乱したり、間違ったことを学んだりしてしまいます。
これまでの研究では、「ゴミを捨てる（フィルタリング）」ことしかしていませんでした。でも、捨てるだけでは「もったいない」し、残ったものもまだ汚れています。

2. 解決策：「リメイク（リメイク）」という魔法

この研究チームは、**「捨てるのではなく、リメイクして美味しくする」という新しいアプローチを取りました。
彼らは、「AI 自身（より賢い AI）」**を料理人として雇い、粗悪なデータを高品質な教材に作り変えるプロセスを開発しました。

🍳 SwallowCode（コード料理のシェフ）

Python というプログラミング言語のデータを対象に、4 つの工程で「リメイク」を行いました。

下処理（文法チェック）： 壊れたコード（文法エラー）を排除。
味付け（スタイルチェック）： 「Pylint」という道具で、コードの書き方が整っているかチェック。
リメイク①（スタイル指導）： 賢い AI が「変数名を分かりやすく」「関数を整理して」という指示を出し、コードを美しく書き直します。
リメイク②（完全な料理）： さらに AI が「外部の道具に依存しないように」「計算を効率化して」「初心者にもわかる例題にする」という指示を出し、**「それ単体で完結し、かつ最高に効率的なコード」**に変えます。

結果：
この「リメイクされたコード」で AI を訓練すると、「人間が書いたテスト問題（HumanEval）」を解く正解率が、従来の方法より 17% も向上しました。
これは、**「粗悪な食材を捨てて、同じ量の食材でも『高級料理』に変えたら、味（性能）が劇的に良くなった」**という現象です。

📐 SwallowMath（数学の家庭教師）

数学の問題集も同様にリメイクしました。

余計な広告や日付を消す。
欠けている問題文を補う。
答えの導き方を「ステップバイステップ」で分かりやすく書き直す。

結果：
これにより、数学のテスト（GSM8K や MATH）の正解率が大幅に向上しました。

3. なぜこれがすごいのか？（重要なポイント）

「捨てる」ではなく「直す」：
従来の方法は「質の低いデータは捨てて、良いデータだけ残す」でしたが、この方法は「質の低いデータも、AI によって高品質に変えて、すべて有効活用する」ことができます。データの有効利用率が格段に上がります。
誰でも使える「レシピ」：
この研究チームは、使ったデータ、リメイクの指示（プロンプト）、そして完成した教材セットをすべて無料で公開しました。
これは、**「美味しい料理のレシピと食材を、世界中の誰にでも配った」**ようなものです。これにより、他の研究者も同じように高性能な AI を作れるようになります。
コスト対効果：
確かに、データをリメイクするには計算コスト（電気代や時間）がかかります。しかし、リメイクしたデータで訓練した AI は、**「同じ学習時間（トークン数）でも、はるかに高い性能」を出します。つまり、「少量の高級食材で、大量の粗食よりも美味しい料理が作れる」**のです。

4. まとめ：AI 教育の新しい常識

この論文が伝えたいことはシンプルです。

「AI を賢くしたいなら、ただ『量』を増やすだけではダメだ。『質』を高めるために、データを丁寧に『リメイク』しよう。」

彼らが作った「SwallowCode」と「SwallowMath」は、AI 教育界に**「高品質な教科書」**を提供したと言えます。これにより、オープンソース（誰でも使える）の AI であっても、最先端の AI に負けない、あるいはそれ以上の能力を持つことができるようになりました。

まるで、**「粗末な材料を、天才シェフ（AI）の手で、世界最高級の料理に変える魔法のレシピ」**を公開したような、画期的な研究なのです。

Rewriting Pre-Training Data Boosts LLM Performance in Math and Code

1. 問題：AI は「生ゴミ」を食べている？

2. 解決策：「リメイク（リメイク）」という魔法

🍳 SwallowCode（コード料理のシェフ）

📐 SwallowMath（数学の家庭教師）

3. なぜこれがすごいのか？（重要なポイント）

4. まとめ：AI 教育の新しい常識

論文「REWRITING PRE-TRAINING DATA BOOSTS LLM PERFORMANCE IN MATH AND CODE」の技術的サマリー

1. 問題定義

2. 提案手法：Transform-and-Retain（変換と保持）

A. SwallowCode（コード領域）

B. SwallowMath（数学領域）

実験プロトコル

3. 主要な貢献

4. 実験結果

5. 意義と結論

Rewriting Pre-Training Data Boosts LLM Performance in Math and Code

1. 問題：AI は「生ゴミ」を食べている？

2. 解決策：「リメイク（リメイク）」という魔法

🍳 SwallowCode（コード料理のシェフ）

📐 SwallowMath（数学の家庭教師）

3. なぜこれがすごいのか？（重要なポイント）

4. まとめ：AI 教育の新しい常識

論文「REWRITING PRE-TRAINING DATA BOOSTS LLM PERFORMANCE IN MATH AND CODE」の技術的サマリー

1. 問題定義

2. 提案手法：Transform-and-Retain（変換と保持）

A. SwallowCode（コード領域）

B. SwallowMath（数学領域）

実験プロトコル

3. 主要な貢献

4. 実験結果

5. 意義と結論

関連論文

IC3-Evolve: Proof-/Witness-Gated Offline LLM-Driven Heuristic Evolution for IC3 Hardware Model Checking

Structural Segmentation of the Minimum Set Cover Problem: Exploiting Universe Decomposability for Metaheuristic Optimization

To Throw a Stone with Six Birds: On Agents and Agenthood

Position: Science of AI Evaluation Requires Item-level Benchmark Data

Toward Full Autonomous Laboratory Instrumentation Control with Large Language Models