Each language version is independently generated for its own context, not a direct translation.

この論文は、**「新しい種類のコンピューター（NPU）のために、ゼロから高性能なプログラム（カーネル）を自動で作る AI」**についての研究です。

専門用語を避け、日常の風景に例えて解説します。

🏗️ 物語：「職人不足の新しい街」と「賢い見習い」

1. 問題：誰も知らない「新しい街」

まず、想像してください。
これまで「CUDA（クーダ）」という巨大で成熟した都市があり、そこには何十年も蓄積された「レシピ本（データ）」や「職人の技」が山ほどあります。AI（大規模言語モデル）はこの都市のレシピ本を丸暗記しているので、どんな料理（プログラム）も簡単に作れます。

しかし、最近**「NPU（ニュープロセッサ）」という全く新しい街ができました。ここは未来の街ですが、まだレシピ本がほとんどなく、職人もいません**。
AI がこの新しい街で料理を作ろうとしても、「昔の都市のレシピ」をそのまま使おうとするので、失敗ばかりします。これを論文では**「コールドスタート（寒さからのスタート）」**と呼んでいます。

2. 解決策：「EvoKernel（進化カーネル）」という賢い見習い

そこで登場するのが、この論文が提案する**「EvoKernel」というシステムです。これは、ただの AI ではなく、「失敗と成功を記録して、自分で学び続ける見習い職人」**のような存在です。

この見習いは、以下のような 3 つの魔法を使います。

魔法①：メモ帳（メモリ）の活用
普通の AI は、一度失敗するとその記憶を消してしまいます。でも、EvoKernel は**「失敗したレシピ」と「成功したレシピ」をすべてメモ帳に書き留めます**。
例えるなら、料理を作ろうとして「焦がしちゃった！」と失敗したら、そのメモ帳に「火が強すぎた」と書き留めておくのです。
魔法②：価値判断（バリュー・ドリブン）
ただメモ帳を見るだけでなく、**「今、何が一番役に立つ情報か？」**を AI が自分で判断します。
- 最初の段階（ドラフト）： 「とりあえず火が通ったか（正しく動くか）」を確認するために、過去の「成功した基本レシピ」を探します。
- 次の段階（リファイン）： 「もっと美味しく、短時間で（高速に）」するために、過去の「時短テクニック」を探します。
  これを**「価値に基づいた検索」**と呼びます。
魔法③：教訓の共有（転移学習）
「A という料理（簡単なタスク）」で学んだ「火加減のコツ」を、**「B という料理（難しいタスク）」**に応用できます。
例えるなら、パスタを茹でるコツを覚えた見習いが、その知識を使って、より難しい「ステーキ」の焼き方も上手にできるようになるイメージです。

3. 結果：驚異的な成長

このシステムを使って、新しい街（NPU）で実験した結果は驚異的でした。

正解率の劇的向上：
最初は AI が正解を作れる確率は11%（10 回中 1 回も成功しない状態）でしたが、EvoKernel のメモ帳と学習機能を使うと、**83%**まで跳ね上がりました。
スピードアップ：
最初に作った「とりあえず動く料理」を、メモ帳の教訓を元に何度も改良すると、3.6 倍も速く動くようになりました。

💡 要するにどんなこと？

この論文は、**「データがなくて困っている新しい技術でも、AI が自分で失敗と成功をメモ帳に記録し、それを賢く使いこなせば、人間が教えることなく、一人でプロの職人になれる」**ということを証明しました。

従来の AI： 教科書（データ）がないと勉強できない。
この論文の AI： 教科書がなくても、自分で実験してメモを取り、そのメモから「正解のヒント」を見つけ出して成長する。

これは、今後登場するあらゆる新しいコンピューターやハードウェアに対して、AI が**「データ不足」の壁を乗り越えて、自律的に適応できる**ことを示す大きな一歩です。

Each language version is independently generated for its own context, not a direct translation.

EvoKernel: 価値駆動型メモリアプローチによる NPU カーネル合成の冷間起動と継続的改善

この論文は、データが不足しているドメイン固有のアーキテクチャ（特に NPU）における大規模言語モデル（LLM）のカーネル合成の課題に対処するため、EvoKernel という自己進化型エージェントフレームワークを提案しています。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細にまとめます。

1. 背景と問題定義

冷間起動（Cold-Start）の課題

大規模言語モデル（LLM）は、CUDA などのデータが豊富なプラットフォームでは優れた性能を発揮しますが、NPU（Neural Processing Unit）や TPU などの新興のドメイン固有アーキテクチャ（DSA）では、トレーニングデータが極端に不足しているため、性能が劇的に低下します。

データの壁（Data Wall）: NPU 向けの公開コードやドキュメントは稀であり、コンパイラのフィードバックも不透明です。
既存手法の限界:
- 教師あり微調整（SFT）: 専門家のラベル付きデータが必要であり、ニッチな環境では収集コストが高すぎます。
- 強化学習（RL）: 大量のオンライン試行が必要で、計算コストが高く、汎用能力の忘却（Catastrophic Forgetting）のリスクがあります。
- 従来の RAG: データベースが疎な場合、単なる類似性ベースの検索では効果的ではありません。
二値性の厳格さ: カーネル合成は「正解か不正解か」が明確であり、部分的な正解では機能しないため、エラーからの学習が困難です。

表 1 に示すように、GPT-5.2 などの最先端モデルでさえ、CUDA では 92% の正解率を達成しますが、NPU 向け言語（Ascend C）では 14% まで急落し、難易度の高いタスクでは 0% になります。

2. 手法：EvoKernel

EvoKernel は、カーネル合成を**メモリベースのマルコフ決定過程（M-MDP）**として定式化し、自己進化型のメモリバンクから高有用な経験を検索・再利用することで、モデル重みの更新なしにタスクを習得します。

2.1 フレームワークの概要

EvoKernel は、**「冷間起動ドラフティング（Cold-Start Drafting）」と「継続的改善（Continual Refining）」**の 2 段階パイプラインで動作します。

冷間起動ドラフティング: 機能性のある初期カーネルを生成する段階。
継続的改善: 機能するカーネルのレイテンシ（実行時間）を最適化する段階。

2.2 価値駆動型検索（Value-Driven Retrieval）

従来のセマンティック類似度に基づく検索ではなく、段階固有の Q 値を学習してメモリアイテムの有用性を評価します。

Q 値の学習: 現在のタスク段階（ドラフティングか改善か）に基づき、どの過去の経験（コード、エラー、最適化手法）が目標達成に寄与するかを Q 値 $Q(s, m)$ $Q (s, m)$ で推定します。
- ドラフティング段階 ( $Q_1$ ): 機能的に正しいカーネルを生成する確率を評価。
- 改善段階 ( $Q_2$ ): レイテンシ最適化に寄与する度合いを評価。
統一された更新ルール: モンテカルロ更新を用いて、検証器からの報酬に基づき Q 値をオンラインで更新します。これにより、モデル重みを変更することなく、検索ポリシーが適応的に進化します。

2.3 メモリアーキテクチャ

メモリバンクには以下の情報が蓄積されます。

API テンプレート（バックエンド固有）。
成功・失敗の経験の要約。
生成トレース（ドラフト版と改善版）。
カーネル改善のベストプラクティス。
クロスタスク共有: 単純な演算子から得た知見を複雑な演算子に転移させ、学習を加速します。

2.4 マルチゲート検証（Multi-Gate Verification）

生成されたコードに対して、以下の厳格な検証ゲートを通します。

アンチハッキング: 高レベル API や定数折りたたみによる「抜け道」を防止し、実際に NPU カーネルで計算が行われているかを確認。
コンパイル: バックエンド固有のツールチェーンでのコンパイル成功。
正解性: PyTorch 参照実装との出力一致確認。
レイテンシ: 実際のデバイス上での実行時間計測。

3. 主要な貢献

統一されたドラフティング・改善パイプライン: 共有メモリ上で、実現可能性重視のドラフティングからレイテンシ重視の改善へと移行する 2 段階フレームワークを提案。
進化する価値駆動型検索: 検証フィードバックから Q 値を学習し、モデル重みの更新なしに検索ポリシーを最適化するメカニズムを導入。
包括的な評価と知見: NPU ベンチマークでの性能向上と、クロスタスク転移、創発的なカリキュラム学習、分布外タスクへのスケーラビリティを実証。

4. 実験結果

4.1 主要な成果（Ascend C KernelBench）

正解率の劇的向上: 最先端モデル（GPT-5.2）を用いた場合、初期の正解率 4.0% から 83.0% まで向上しました（他のモデルでも同様の改善が見られました）。
コンパイル率: 98.5% に達し、既存の自律エージェント（Codex）や単純な改善ループを大幅に上回りました。
速度向上: 機能する初期ドラフトに対して、中央値 3.60 倍の速度向上を達成しました。一部の演算子では 200 倍以上の改善も見られました。

4.2 一般化能力

難易度間の転移: 簡単なタスク（L1）で学習したメモリを複雑なタスク（L2）に転用することで、L2 の正解率を 34% から 64% に引き上げました。
モデル間の転移: 強力なモデル（GPT-5.2）で構築したメモリを、より軽量なモデル（DeepSeek-V3.2, Qwen3-Coder）に適用したところ、コンパイル率と正解率が大幅に向上しました。
分布外タスクへの適応: KernelBench 以外の「Attention Set」や最新の DeepSeek アーキテクチャ用カーネル（mHC）に対しても、同様の手法が有効であることを示しました。

4.3 比較

Pass@k（単純サンプリング）: 経験の蓄積がないため性能が頭打ちになります。
単純な改善ループ: 単一タスク内でのみ学習し、タスク間での知識転移が行われません。
EvoKernel: 価値駆動型メモリにより、タスク間での経験共有と効率的な探索を実現し、他手法を凌駕しました。

5. 意義と結論

EvoKernel は、データが不足しているニッチなハードウェア生態系において、汎用 LLM がどのようにして専門的なタスクを習得できるかを示す重要なステップです。

データ不足の解決: 高価な微調整や大量の専門データなしに、価値駆動型の経験蓄積によって「冷間起動」の壁を打破できます。
非パラメトリックアプローチ: モデルの重みを変更せず、メモリと検索戦略の最適化だけで性能を向上させるため、計算コストとリスクを低減します。
将来展望: このアプローチは、他のドメイン固有言語（DSL）や、二値的な検証信号を持つタスクにも適用可能であり、AI システムが最小限のデータで新しいドメインに適応する道を開きます。

結論として、EvoKernel は、最先端 LLM の文脈学習能力と、価値駆動型のメモリ管理を組み合わせることで、データ不足のハードウェア環境におけるカーネル合成という困難な課題を解決し、自動化された高性能プログラミングの実現可能性を実証しました。

Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis