Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 EvoKernel 的聪明系统，它的任务是帮电脑写一种叫“内核（Kernel）”的底层代码。

为了让你轻松理解，我们可以把这件事想象成在一个全新的、没人住过的荒岛上，教一个刚下飞机的“超级大厨”如何做饭。

1. 背景：为什么这是个难题？（荒岛困境）

现状：现在的 AI（大语言模型）就像那些在繁华都市里长大的“超级大厨”。它们在处理常见食材（比如 NVIDIA 的 CUDA 显卡代码）时，因为看过无数菜谱，做得非常完美。
问题：现在出现了一种全新的、很特殊的“荒岛”（比如华为的 NPU 芯片）。这里没有现成的菜谱，没有老厨师带路，甚至没人知道这里的锅具长什么样。
后果：当把那些在都市里很厉害的大厨直接扔到荒岛上，他们完全懵了。他们试图用做“红烧肉”的经验来做“荒岛特色菜”，结果做出来的东西要么根本不能吃（代码跑不通），要么味道极差（速度慢）。这就是论文里说的“冷启动”难题。

2. 核心方案：EvoKernel（带记忆的进化型学徒）

EvoKernel 不是让大厨直接硬写，而是给它配了一个**“超级智能笔记本”和一个“不断进化的策略”**。它的工作流程分为两个阶段：

第一阶段：冷启动草稿（试错与生存）

场景：大厨第一次面对荒岛食材，完全不知道怎么做。
做法：EvoKernel 会让大厨先胡乱尝试写几个菜谱（生成代码）。
关键创新（价值驱动检索）：
- 普通的系统会像翻字典一样，找“长得像”的旧菜谱。但在荒岛上，长得像的菜谱可能完全没用。
- EvoKernel 的笔记本里有一个**“价值评分员”。它会问：“这个旧菜谱里的哪一步，对现在**这个新任务最有用？”
- 比如，它发现虽然“红烧肉”的菜谱没用，但“切肉”的技巧是通用的。于是它只提取“切肉”的经验，忽略“红烧”的调料。
- 通过这种**“只看价值，不看表面”**的检索，大厨能迅速拼凑出一个能勉强吃的“草稿菜”（可运行的代码）。

第二阶段：持续精修（从能吃变成美味）

场景：大厨已经做出了能吃的菜，但味道一般，或者上菜太慢。
做法：现在目标变了，不再是“能不能吃”，而是“怎么更快、更好吃”。
关键创新：
- 笔记本里的“价值评分员”换了个模式。以前它关注“能不能做对”，现在它关注“能不能做快”。
- 它会从过去的失败和成功中，专门挑选那些能优化速度的经验。比如：“上次做那个菜，把火调大一点快了很多，这次也试试。”
- 通过这种不断的“试错 - 反馈 - 优化”，代码的速度被提升了 3.6 倍 甚至更多。

3. 最厉害的地方：举一反三（跨任务学习）

这是 EvoKernel 最像“人类”的地方。

普通方法：大厨做了一道“红烧肉”成功了，下次做“红烧鱼”时，他得重新从头摸索，因为鱼和肉不一样。
EvoKernel：它建立了一个共享的经验库。
- 当它学会了怎么在荒岛上“切肉”（解决了一个简单任务），这个经验会被记下来。
- 当它面对“切鱼”（更复杂的任务）时，它不需要重新学切菜，而是直接调用“切肉”的经验，再结合一点新技巧。
- 结果：它能把解决简单问题的经验，自动迁移到更难的问题上。就像你学会了骑自行车，再学骑摩托车就会快很多一样。

4. 成果：从“完全不会”到“大师级”

论文在华为 NPU 芯片上做了测试，结果非常惊人：

以前：最先进的 AI 模型面对这种新芯片，写对代码的概率只有 11%（几乎全是错的）。
现在：用了 EvoKernel 后，写对代码的概率飙升到了 83%。
速度：不仅写对了，而且经过几轮优化后，运行速度比最初写的版本快了 3.6 倍。

总结

这就好比：
以前，我们要教 AI 做新东西，得给它看几万本教科书（海量数据），或者花大价钱请老师手把手教（微调）。
现在，EvoKernel 让 AI 变成了一个**“聪明的探险家”**：

它有一个智能笔记本，能自动记住哪些经验有用，哪些没用。
它懂得**“先求生存，再求完美”**，先写出能跑通的代码，再慢慢优化速度。
它能**“触类旁通”**，把解决小问题的经验用到解决大问题上。

这个方法让 AI 即使在没有数据、没有老师的新领域（冷启动），也能靠自己摸索出大师级的水平。这对于未来各种新硬件、新领域的开发来说，是一个巨大的突破。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

核心挑战：数据稀缺领域的“冷启动”问题

背景： 随着专用架构（DSA，如 NPU、TPU）的兴起，大语言模型（LLM）被部署到这些领域面临巨大挑战。与成熟的 CUDA 生态不同，新兴的 NPU 编程生态（如华为 Ascend C）面临严重的“数据墙”（Data Wall）：公开代码稀缺、文档晦涩、编译器反馈不透明。
现状： 现有的 SOTA LLM 在数据丰富的 CUDA 平台上表现优异，但在数据稀缺的 NPU 领域性能急剧下降（例如，GPT-5.2 在 CUDA 上的正确率高达 92%，但在 Ascend C 上降至 14%）。
现有方法的局限性：
- 监督微调 (SFT)： 需要大量专家标注数据，成本高昂且难以适应快速变化的领域。
- 参数化强化学习 (RL)： 需要大量在线采样更新权重，样本复杂度高，且容易导致灾难性遗忘。
- 传统 RAG： 在数据库稀疏时失效，且基于语义相似度的检索无法保证在“全有或全无”的编译环境中有效。
具体问题： 如何在不依赖专家演示和昂贵微调的情况下，让智能体从零开始自主掌握 NPU 内核合成这一严格且数据稀缺的任务？

2. 方法论 (Methodology)

作者提出了 EvoKernel，一个基于自进化内存的**价值驱动（Value-Driven）**代理框架。该框架将内核合成建模为基于内存的马尔可夫决策过程（M-MDP）。

核心架构与流程

EvoKernel 包含两个阶段，共享一个动态演化的内存库：

冷启动草稿阶段 (Cold-Start Drafting)：
- 目标： 生成第一个功能正确的内核（可行性优先）。
- 机制： 代理从内存中检索上下文，利用 LLM 生成候选代码。
- 奖励： 二元奖励（+1 表示编译通过且功能正确，-1 表示失败）。
- 更新： 使用蒙特卡洛更新规则更新检索策略的 Q 值，学习哪些历史经验有助于“可行性”。
持续优化阶段 (Continual Refining)：
- 目标： 在获得可行内核后，最小化执行延迟（性能优先）。
- 机制： 基于当前最佳延迟，检索优化起点（Start Points）和相关的优化轨迹/最佳实践。
- 奖励： 相对奖励，基于当前延迟与历史最佳延迟的对比（使用 tanh 函数归一化）。
- 更新： 更新 Q 值，学习哪些经验有助于“延迟优化”。

关键技术组件

价值驱动检索 (Value-Driven Retrieval)：
- 不同于传统的语义相似度检索，EvoKernel 学习阶段特定的 Q 值（ $Q_1$ 用于草稿， $Q_2$ 用于优化）。
- 代理根据当前目标（是求“能跑”还是求“跑得快”）动态评估历史经验的价值，优先检索对当前阶段贡献最大的条目。
- 采用 $\epsilon$ -greedy 策略平衡探索与利用。
多门控验证器 (Multi-Gate Verifier)：
- 提供结构化反馈，包括：反黑客检查（防止绕过 NPU 直接调用 Python）、编译检查、功能正确性检查（与 PyTorch 参考对比）、延迟测量。
- 只有同时通过所有检查才被视为“可行”。
自进化内存 (Self-Evolving Memory)：
- 内存库包含：API 模板、成功/失败经验摘要、生成轨迹（草稿与优化版）、最佳实践。
- 跨任务共享： 内存在不同任务间共享，使得在简单任务上学到的模式可以辅助解决复杂任务（课程学习效应）。
统一的价值更新：
- 使用统一的蒙特卡洛更新规则： $Q(s, m) \leftarrow Q(s, m) + \alpha (r - Q(s, m))$ 。
- 无需更新 LLM 的模型权重，仅通过优化检索策略（非参数化方法）来适应环境。

3. 主要贡献 (Key Contributions)

统一的草稿 - 优化流水线： 提出了一个基于共享内存的两阶段框架，从可行性驱动的草稿平滑过渡到延迟驱动的优化，解决了 NPU 内核合成的冷启动问题。
进化式价值驱动检索： 创新性地引入了阶段特定的 Q 值学习机制，量化历史经验的价值。通过统一的蒙特卡洛更新，使代理无需微调模型权重即可从验证器反馈中自适应调整策略。
全面的评估与洞察：
- 构建了 NPU 变体的 KernelBench 基准。
- 证明了价值引导的经验积累能使通用模型在数据稀缺硬件生态中掌握内核合成任务。
- 揭示了跨任务迁移、涌现的课程学习（Emergent Curricula）以及分布外（OOD）工作负载的扩展能力。

4. 实验结果 (Results)

实验在 Ascend C 平台上进行，对比了 GPT-5.2、DeepSeek-V3.2 和 Qwen3-Coder-30B 等模型。

正确率大幅提升： EvoKernel 将前沿模型（GPT-5.2）在 NPU 基准上的功能正确率从 11.0% 提升至 83.0%。
性能优化显著： 通过迭代优化，相比初始可行草稿，实现了 3.60 倍 的中位加速比。
对比基线：
- 在 GPT-5.2 上，EvoKernel 的编译率（CR）达到 98.5%，正确率（Acc）达到 83.0%，远超 Codex（83.0% CR, 46.0% Acc）和简单的迭代优化基线。
- 即使在较弱的模型（如 DeepSeek-V3.2）上，EvoKernel 也能将 Level 1 任务的正确率翻倍（从 9% 提升至 19%）。
跨任务与跨模型迁移：
- 难度迁移： 在 L1（简单）任务上积累的内存，能显著提升 L2（困难）任务的表现（L1→L2 设置下，L2 正确率从 34% 提升至 64%）。
- 模型迁移： 使用强模型（GPT-5.2）构建的内存库，能显著提升弱模型（DeepSeek, Qwen）的性能（编译率从 26% 提升至 80%）。
泛化能力： 在未见过的 Attention Set 算子和 DeepSeek mHC 内核上，EvoKernel 依然保持了高编译率（100%）和较高的正确率（78.6%），证明其并非死记硬背模板，而是学会了通用的优化策略。

5. 意义与结论 (Significance)

解决冷启动难题： 证明了在缺乏训练数据的专用硬件领域，通过价值引导的经验积累（Value-guided experience accumulation），通用 LLM 可以自主掌握复杂的内核合成任务，无需昂贵的微调。
非参数化学习范式： 提出了一种不依赖更新模型权重的强化学习范式，通过优化检索策略来利用 LLM 的上下文学习能力，降低了计算成本并避免了灾难性遗忘。
** democratization of Expertise：** 该方法有望降低 NPU 等新兴硬件生态的编程门槛，缓解专家短缺问题，使 AI 系统能够以极少的数据适应新的领域。
未来方向： 框架可扩展至其他新兴领域语言（DSL），并可通过知识蒸馏减少对商业大模型的依赖。

总结： EvoKernel 通过构建一个自进化的、价值驱动的内存系统，成功解决了 NPU 内核合成中的数据稀缺和冷启动问题，实现了从“零”到“优”的自动化合成，为专用硬件的 AI 编程开辟了新路径。