Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis

针对数据稀缺的 NPU 内核合成领域,本文提出了名为 EvoKernel 的自进化智能体框架,通过基于价值的记忆检索机制实现从冷启动草稿到持续优化的自动化流程,显著提升了大模型在特定硬件生态中的代码正确率与执行效率。

Yujie Zheng, Zhuo Li, Shengtao Zhang, Hanjing Wang, Junjie Sheng, Jiaqian Wang, Junchi Yan, Weinan Zhang, Ying Wen, Bo Tang, Muning Wen

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 EvoKernel 的聪明系统,它的任务是帮电脑写一种叫“内核(Kernel)”的底层代码。

为了让你轻松理解,我们可以把这件事想象成在一个全新的、没人住过的荒岛上,教一个刚下飞机的“超级大厨”如何做饭

1. 背景:为什么这是个难题?(荒岛困境)

  • 现状:现在的 AI(大语言模型)就像那些在繁华都市里长大的“超级大厨”。它们在处理常见食材(比如 NVIDIA 的 CUDA 显卡代码)时,因为看过无数菜谱,做得非常完美。
  • 问题:现在出现了一种全新的、很特殊的“荒岛”(比如华为的 NPU 芯片)。这里没有现成的菜谱,没有老厨师带路,甚至没人知道这里的锅具长什么样。
  • 后果:当把那些在都市里很厉害的大厨直接扔到荒岛上,他们完全懵了。他们试图用做“红烧肉”的经验来做“荒岛特色菜”,结果做出来的东西要么根本不能吃(代码跑不通),要么味道极差(速度慢)。这就是论文里说的“冷启动”难题。

2. 核心方案:EvoKernel(带记忆的进化型学徒)

EvoKernel 不是让大厨直接硬写,而是给它配了一个**“超级智能笔记本”和一个“不断进化的策略”**。它的工作流程分为两个阶段:

第一阶段:冷启动草稿(试错与生存)

  • 场景:大厨第一次面对荒岛食材,完全不知道怎么做。
  • 做法:EvoKernel 会让大厨先胡乱尝试写几个菜谱(生成代码)。
  • 关键创新(价值驱动检索)
    • 普通的系统会像翻字典一样,找“长得像”的旧菜谱。但在荒岛上,长得像的菜谱可能完全没用。
    • EvoKernel 的笔记本里有一个**“价值评分员”。它会问:“这个旧菜谱里的哪一步,对现在**这个新任务最有用?”
    • 比如,它发现虽然“红烧肉”的菜谱没用,但“切肉”的技巧是通用的。于是它只提取“切肉”的经验,忽略“红烧”的调料。
    • 通过这种**“只看价值,不看表面”**的检索,大厨能迅速拼凑出一个能勉强吃的“草稿菜”(可运行的代码)。

第二阶段:持续精修(从能吃变成美味)

  • 场景:大厨已经做出了能吃的菜,但味道一般,或者上菜太慢。
  • 做法:现在目标变了,不再是“能不能吃”,而是“怎么更快、更好吃”。
  • 关键创新
    • 笔记本里的“价值评分员”换了个模式。以前它关注“能不能做对”,现在它关注“能不能做快”。
    • 它会从过去的失败和成功中,专门挑选那些能优化速度的经验。比如:“上次做那个菜,把火调大一点快了很多,这次也试试。”
    • 通过这种不断的“试错 - 反馈 - 优化”,代码的速度被提升了 3.6 倍 甚至更多。

3. 最厉害的地方:举一反三(跨任务学习)

这是 EvoKernel 最像“人类”的地方。

  • 普通方法:大厨做了一道“红烧肉”成功了,下次做“红烧鱼”时,他得重新从头摸索,因为鱼和肉不一样。
  • EvoKernel:它建立了一个共享的经验库
    • 当它学会了怎么在荒岛上“切肉”(解决了一个简单任务),这个经验会被记下来。
    • 当它面对“切鱼”(更复杂的任务)时,它不需要重新学切菜,而是直接调用“切肉”的经验,再结合一点新技巧。
    • 结果:它能把解决简单问题的经验,自动迁移到更难的问题上。就像你学会了骑自行车,再学骑摩托车就会快很多一样。

4. 成果:从“完全不会”到“大师级”

论文在华为 NPU 芯片上做了测试,结果非常惊人:

  • 以前:最先进的 AI 模型面对这种新芯片,写对代码的概率只有 11%(几乎全是错的)。
  • 现在:用了 EvoKernel 后,写对代码的概率飙升到了 83%
  • 速度:不仅写对了,而且经过几轮优化后,运行速度比最初写的版本快了 3.6 倍

总结

这就好比:
以前,我们要教 AI 做新东西,得给它看几万本教科书(海量数据),或者花大价钱请老师手把手教(微调)。
现在,EvoKernel 让 AI 变成了一个**“聪明的探险家”**:

  1. 它有一个智能笔记本,能自动记住哪些经验有用,哪些没用。
  2. 它懂得**“先求生存,再求完美”**,先写出能跑通的代码,再慢慢优化速度。
  3. 它能**“触类旁通”**,把解决小问题的经验用到解决大问题上。

这个方法让 AI 即使在没有数据、没有老师的新领域(冷启动),也能靠自己摸索出大师级的水平。这对于未来各种新硬件、新领域的开发来说,是一个巨大的突破。