KernelCraft: Benchmarking for Agentic Close-to-Metal Kernel Generation on Emerging Hardware

本文提出了 KernelCraft,这是首个用于评估大语言模型智能体在新兴硬件架构上通过反馈驱动流程自动生成和优化底层内核的基准测试,实验表明该方法能有效降低内核开发成本并生成性能优于传统编译器模板的高质量代码。

Jiayi Nie, Haoran Wu, Yao Lai, Zeyu Cao, Cheng Zhang, Binglei Lou, Erwei Wang, Jianyi Cheng, Timothy M. Jones, Robert Mullins, Rika Antonova, Yiren Zhao

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 KernelCraft 的新工具,它的目标非常宏大:教人工智能(AI)像老练的工匠一样,为全新的、还没人用过的硬件芯片编写最底层的“操作说明书”(汇编代码)。

为了让你轻松理解,我们可以用几个生动的比喻来拆解这项研究:

1. 背景:新硬件的“语言障碍”

想象一下,世界上突然出现了很多新型号的超级跑车(这就是论文里说的“新兴 AI 加速器”)。这些跑车性能极强,但它们的引擎构造非常独特,甚至发明了一种全新的语言(新的指令集架构 ISA)来指挥引擎。

  • 现状:以前,我们给旧车(如 NVIDIA 显卡)写代码,有成熟的翻译软件(编译器)能把高级语言自动翻译成引擎能懂的低级语言。
  • 问题:对于这些新跑车,还没有成熟的翻译软件。工程师们必须手工去写最底层的指令,告诉引擎每一步怎么动。这就像让一个不懂新语言的人去手写出几千行复杂的乐谱,既慢又容易出错,导致这些新跑车造好了却没人会开,只能闲置。

2. KernelCraft 是什么?一位“带工具包”的 AI 学徒

KernelCraft 就是一个智能 AI 学徒系统。它不是简单地让 AI“猜”代码,而是给 AI 配备了一套数字工具箱,让它能像人类专家一样去“试错”和“修正”。

  • 它的任务:拿到一个任务(比如“计算矩阵乘法”),阅读新跑车的说明书(硬件文档),然后写出能跑在上面的汇编代码。
  • 它的绝招(Agent 机制)
    1. 写代码:AI 先写一段代码。
    2. 自己检查:AI 调用工具,像编译器一样检查语法有没有错。
    3. 自己运行:AI 在模拟器里运行这段代码,看看结果对不对。
    4. 自我反思:如果结果错了(比如算出来的数字不对),AI 会看报错信息,分析是哪里出了问题(是内存地址错了?还是指令用错了?),然后自己修改代码,再次运行。
    5. 循环直到完美:这个过程会重复多次,直到代码既正确又高效。

比喻:这就像教一个刚学做菜的新手。以前是让他背菜谱(一次性生成),现在是他做一道菜,尝一口,发现太咸了,自己加糖,再尝一口,直到味道完美。

3. 实验过程:在三个“新赛场”上比武

研究人员找了三种不同的新型硬件平台(PLENA、AMD NPU、Coral NPU),就像三个不同的新赛场。他们让四个顶尖的 AI 模型(如 GPT-5.2, Gemini 等)在这些赛场上进行比赛。

  • 比赛项目
    • 初级题:简单的数学运算(如激活函数)。
    • 中级题:复杂的组合运算(如注意力机制)。
    • 高级题:完整的系统模块(如整个神经网络块)。
  • 比赛结果
    • 好消息:最先进的 AI 模型(如 GPT-5.2)在简单的任务上表现很好,甚至能写出比现有编译器生成的代码更快(提速 10%-20%)的代码。
    • 坏消息:任务越复杂,AI 越容易“晕头转向”。对于最复杂的端到端任务,AI 目前还很难独立完成。
    • 关键发现:如果给 AI 多一点“思考时间”(让它多推理几步)或者给它看一个类似的例子(少样本学习),它的成功率会大幅提升。

4. 亮点:AI 不仅能写代码,还能“设计”硬件

论文里有一个非常酷的案例(Case Study):
当 AI 在写代码时,发现现有的硬件指令根本没法高效完成某个任务(就像发现新跑车缺了一个关键零件)。于是,AI 不仅没有放弃,反而主动提出:“我们需要增加一条新指令,长这样……"

  • 比喻:这就像一位赛车手在试驾新车时,发现刹车不够用,于是直接画了一张新刹车的设计图给工程师,说:“加上这个,车就能跑更快了!”
  • 意义:这意味着 AI 未来可以参与到硬件设计中,帮助人类发现新硬件的缺陷并提出改进方案,实现“软硬协同设计”。

5. 总结:这项研究意味着什么?

KernelCraft 就像是为新兴硬件世界搭建了一座桥梁

  • 以前:新硬件出来,因为没人会写底层代码,只能吃灰,直到人类工程师花几年时间摸索。
  • 现在:有了 KernelCraft,AI 可以充当“翻译官”和“优化师”,快速为新硬件生成可用的代码。
  • 未来:这将大大加速 AI 芯片的迭代速度。以后每出一款新芯片,AI 就能迅速适应,让硬件厂商不再担心“有硬件没软件”的尴尬局面。

一句话总结
KernelCraft 让 AI 学会了像老工匠一样,拿着工具包,通过不断的“尝试 - 检查 - 修改”,为那些还没人懂的新硬件编写出既正确又高效的底层代码,甚至还能帮人类设计更好的硬件。