Jian Yang, Wei Zhang, Shawn Guo, Zhengmao Ye, Lin Jing, Shark Liu, Yizhi Li, Jiajun Wu, Cening Liu, X. Ma, Yuyang Song, Siwei Wu, Yuwen Li, L. Liao, T. Zheng, Ziling Huang, Zelong Huang, Che Liu, Yan

公開日 2026-03-18

📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🚀 IQuest-Coder-V1：コードの「天才」を育てる新しい教科書

この技術報告書は、**「IQuest-Coder-V1」**という新しい AI の家族について紹介しています。これは、プログラミング（コード）を書くことに特化した巨大な言語モデル（LLM）のシリーズです。

一言で言えば、**「ただ本を読ませただけの AI」ではなく、「実際に手を動かして失敗し、学び、成長した AI」**を作ろうとした物語です。

以下に、専門用語を避け、身近な例えを使ってこの論文の核心を解説します。

1. 従来の AI との違い：「静止画」vs「動画」

これまでのコード AI は、**「完成された写真集」**を大量に読ませて作られていました。

従来の方法： 「このファイルのコードはこう書かれている」という静的なデータを丸暗記させる。
IQuest-Coder の方法： **「動画」を見せる。つまり、コードがどうやって書き換えられ、バグを修正し、進化してきたかという「プロセス（流れ）」**そのものを学習させます。

🍳 例え話：
従来の AI は「料理の完成写真」だけを見て、「おいしそう」と覚えた状態です。
IQuest-Coder は、**「料理のレシピ本」だけでなく、「シェフが失敗して焦がし、味を調整し、最終的に完璧な料理を作るまでの動画」**を見せられています。だから、何か失敗しても「次はどう直せばいいか」がわかるのです。

2. 4 つの成長ステップ（トレーニングの秘密）

この AI を育てるには、4 つの段階（4 つの柱）を踏む特別な教育プログラムがあります。

① 基礎教育（プレトレーニング）：広大な図書館

まずは、世界中のあらゆるプログラミング言語の「事実」や「コード」を大量に読み込ませます。

工夫： ただ闇雲に読ませるのではなく、**「プロジェクトの進化の過程（古いコード→変更点→新しいコード）」**という「3 つ組」のデータを使います。これにより、コードがどう変化していくかの「流れ」を学ばせます。

② 中級教育（ミッドトレーニング）：シミュレーション実習

ここが最も重要なステップです。AI に**「思考」と「行動」**を同時に学ばせます。

32k 文脈（32,000 文字）： 複雑な論理パズルや、エージェント（自律的な作業員）が試行錯誤する過程を学習。
128k 文脈（128,000 文字）： さらに長い、まるで「一冊の本」や「小さなプロジェクト全体」のような文脈で学習。
効果： これにより、AI は「長い物語の途中からでも、前を思い出して正しく行動できる」ようになります。

③ 分岐教育（ポストトレーニング）：2 つの道

AI を完成させる際、2 つの異なる「性格」を持たせます。

🧠 思考型（Thinking）： 「考える時間を取る」タイプ。難しい問題を解く前に、頭の中で論理的にステップを踏んでから答えます。これは**「自己修復（バグを見つけて直す）」**が得意になります。
💬 指示型（Instruct）： 「指示を素早く実行する」タイプ。ユーザーの「これを作って」という命令に、即座に正確なコードを返すことに特化しています。

④ 効率化（ループ構造）：小さな体で大きな力

「Loop（ループ）」という特別なバージョンもあります。

工夫： 一度に全部処理するのではなく、**「一度読み、一度考え、また読み直す」**というループ構造を取り入れています。
メリット： 大きな AI 並みの頭脳を持ちながら、計算コスト（電気代やメモリ）を抑えて、より手軽に使えるように設計されています。

3. どれくらいすごいのか？（結果）

この AI は、世界中の有名なテストでトップクラスの成績を残しました。

🏆 ソフトウェアエンジニアリング： 実際の企業のコード修正タスク（SWE-bench）で、他のオープンソースモデルを大きく引き離し、トップレベルのクローズドソース（有料）モデルと互角に戦っています。
🎮 コンペティティブプログラミング： 難解なアルゴリズム問題（LiveCodeBench など）でも、非常に高い正解率を叩き出しています。
🛠 ツールの使いこなし： 自分でターミナル（コマンドライン）を操作したり、データベースを検索したりする「自律的な作業」も得意です。

📊 例え話：
他の AI が「教科書の問題」は解けても「実戦」になると動揺するのに対し、IQuest-Coder は**「模擬試験（トレーニング）」で何度も失敗と成功を繰り返してきたベテラン**のようなものです。だから、予期せぬトラブル（バグ）が起きても、冷静に「あ、ここが間違ってるな」と気づいて直せるのです。

4. なぜこれが重要なのか？

この研究の最大の貢献は、「白箱（ホワイトボックス）」として全てを公開していることです。

単に「出来上がった AI」を渡すだけでなく、**「基礎モデルから、中間モデル、最終モデルまでの全ての成長記録（チェックポイント）」**を公開しています。
これにより、世界中の研究者や開発者が「AI がどうやってコードの天才になったのか」を詳しく研究でき、次の世代の AI をより早く、より賢く作れるようになります。

まとめ

IQuest-Coder-V1 は、「コードの進化の歴史」を学習させ、「試行錯誤の経験」を積ませることで作られた、非常に賢いプログラミング助手です。

7B〜40B というサイズ展開で、スマホからクラウドまで対応。
**「考えるタイプ」と「指示するタイプ」**の 2 種類を用意。
ループ構造で、効率と性能のバランスを最適化。

これは、AI が単なる「コード生成ツール」から、**「一緒に開発できるパートナー（エージェント）」**へと進化するための重要な一歩と言えます。

IQuest-Coder-V1 Technical Report

🚀 IQuest-Coder-V1：コードの「天才」を育てる新しい教科書

1. 従来の AI との違い：「静止画」vs「動画」

2. 4 つの成長ステップ（トレーニングの秘密）

① 基礎教育（プレトレーニング）：広大な図書館

② 中級教育（ミッドトレーニング）：シミュレーション実習

③ 分岐教育（ポストトレーニング）：2 つの道

④ 効率化（ループ構造）：小さな体で大きな力

3. どれくらいすごいのか？（結果）

4. なぜこれが重要なのか？

まとめ

IQuest-Coder-V1 技術報告書の要約

1. 背景と課題

2. 手法：Code-Flow マルチステージトレーニングパラダイム

2.1. プレトレーニングと高品質アニーリング

2.2. デュアルフェーズ・ミッドトレーニング

2.3. 分岐したポストトレーニング

2.4. 効率的なアーキテクチャ：LoopCoder

3. 主要な発見（Key Findings）

4. 評価結果

5. 意義と貢献

IQuest-Coder-V1 Technical Report

🚀 IQuest-Coder-V1：コードの「天才」を育てる新しい教科書

1. 従来の AI との違い：「静止画」vs「動画」

2. 4 つの成長ステップ（トレーニングの秘密）

① 基礎教育（プレトレーニング）：広大な図書館

② 中級教育（ミッドトレーニング）：シミュレーション実習

③ 分岐教育（ポストトレーニング）：2 つの道

④ 効率化（ループ構造）：小さな体で大きな力

3. どれくらいすごいのか？（結果）

4. なぜこれが重要なのか？

まとめ

IQuest-Coder-V1 技術報告書の要約

1. 背景と課題

2. 手法：Code-Flow マルチステージトレーニングパラダイム

2.1. プレトレーニングと高品質アニーリング

2.2. デュアルフェーズ・ミッドトレーニング

2.3. 分岐したポストトレーニング

2.4. 効率的なアーキテクチャ：LoopCoder

3. 主要な発見（Key Findings）

4. 評価結果

5. 意義と貢献

関連論文

Exploration and Exploitation Errors Are Measurable for Language Model Agents

SciFi: A Safe, Lightweight, User-Friendly, and Fully Autonomous Agentic AI Workflow for Scientific Applications

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Optimizing Earth Observation Satellite Schedules under Unknown Operational Constraints: An Active Constraint Acquisition Approach

WebXSkill: Skill Learning for Autonomous Web Agents