KernelCraft: Benchmarking for Agentic Close-to-Metal Kernel Generation on Emerging Hardware

Dit paper introduceert KernelCraft, het eerste benchmarkkader dat aantoont dat agentische LLM-systemen via een feedback-gedreven workflow effectief lage-niveau kernels kunnen genereren en optimaliseren voor nieuwe hardware-architecturen, waardoor de ontwikkelingstijd en -kosten voor dergelijke accelerators aanzienlijk worden verlaagd.

Jiayi Nie, Haoran Wu, Yao Lai, Zeyu Cao, Cheng Zhang, Binglei Lou, Erwei Wang, Jianyi Cheng, Timothy M. Jones, Robert Mullins, Rika Antonova, Yiren Zhao

Gepubliceerd Wed, 11 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een nieuwe, superkrachtige robot hebt gebouwd. Deze robot is veel sneller dan een gewone computer, maar hij spreekt een heel eigen, moeilijk dialect. Om hem te laten werken, moet je hem niet in het Nederlands of Engels commanderen, maar in een taal die lijkt op oude, cryptische machinecode.

Vroeger moesten programmeurs deze code handmatig schrijven. Dat was als proberen een kathedraal te bouwen met een lepeltje: het kostte eeuwen, was extreem vermoeiend, en als je één steen verkeerd zette, stortte het hele gebouw in. Dit is precies het probleem met nieuwe AI-chips: ze zijn er, maar er is geen "vertaler" (compiler) die begrijpt hoe je de beste code voor ze schrijft.

KernelCraft is het antwoord op dit probleem. Het is een nieuw experiment dat kijkt of AI-agenten (slimme computerprogramma's die zelf kunnen nadenken en handelen) deze moeilijke code voor ons kunnen schrijven.

Hier is hoe het werkt, vertaald in alledaagse termen:

1. De Agent als een Slimme Leerling

Stel je voor dat je een zeer intelligente leerling (de AI) voor je hebt. Je geeft hem een opdracht: "Bouw een brug van steen A naar steen B."

  • De Opdracht: De AI krijgt een beschrijving van wat er gedaan moet worden (bijvoorbeeld: "Bereken de aandacht in een taalmodel").
  • De Handleiding: Omdat de robot een nieuw dialect spreekt, geeft je de AI de handleiding van die robot (de ISA-specificatie) en de specificaties van de bouwplaats (hardware-configuratie).
  • De Gereedschapskist: De AI heeft een set gereedschappen: een vertaler (om te checken of de code klopt), een testbaan (om te zien of het werkt) en een meetlint (om te zien hoe snel het is).

2. Het Proces: Probeer, Faal, Leer, Herhaal

In het verleden zou een AI één keer code schrijven en hopen dat het goed was. KernelCraft werkt anders, als een echte leerling die leert van zijn fouten:

  1. De Eerste Poging: De AI schrijft de code.
  2. De Check: De AI gebruikt zijn gereedschappen om te kijken: "Klopt de grammatica? Werkt het? Is het snel genoeg?"
  3. De Feedback: Als het fout is (bijvoorbeeld: "De brug stort in bij windkracht 5"), krijgt de AI een duidelijk signaal: "Hier zit een fout in de steenlading."
  4. De Reparatie: De AI denkt na over die fout, past de code aan en probeert het opnieuw.
  5. Herhaling: Dit proces gaat door totdat de brug niet alleen staat, maar ook stevig en snel is.

3. Wat hebben ze ontdekt?

De onderzoekers hebben dit getest op drie verschillende soorten nieuwe robots (hardware) en met vier van de slimste AI-modellen ter wereld.

  • Het goede nieuws: De slimste AI's (zoals GPT-5.2) kunnen inderdaad deze moeilijke code schrijven. Voor simpele taken (zoals een simpele rekensom) lukte het in 55% van de gevallen om een perfect werkende brug te bouwen, zelfs zonder dat ze de robot eerder hadden gezien.
  • Het verrassende nieuws: Soms was de brug die de AI bouwde zelfs sneller dan de brug die door de officiële bouwers (de compiler) was ontworpen. De AI vond slimme trucs om de robot efficiënter te laten werken, iets waar de standaardsoftware nog niet aan dacht.
  • De uitdaging: Hoe complexer de brug (bijvoorbeeld een hele stad in plaats van een klein bruggetje), hoe moeilijker het wordt. Voor de allercomplexste taken faalde de AI nog vaak, vooral als de handleiding van de robot niet duidelijk genoeg was.

4. Waarom is dit belangrijk?

Voor nu is het bouwen van nieuwe AI-chips als het uitvinden van een nieuwe taal. Iedere keer dat een chipbedrijf een nieuwe chip maakt, moeten ze wachten tot programmeurs die taal leren en de code schrijven. Dat duurt te lang.

KernelCraft toont aan dat we in de toekomst AI-agenten kunnen inzetten om die code direct te schrijven.

  • Voor chipmakers: Je hoeft niet meer te wachten op programmeurs. Je kunt zeggen: "Hier is mijn nieuwe chip, hier is wat ik wil dat hij doet," en de AI doet het werk.
  • Voor de wereld: Dit betekent dat nieuwe, snellere en zuinigere AI-chips veel sneller op de markt komen, waardoor onze technologie sneller evolueert.

Kortom: KernelCraft is de eerste "proefplaats" waar we kijken of robots robots kunnen programmeren. Het bewijst dat AI niet alleen tekst kan schrijven, maar ook de fundamentele, moeilijke code kan bouwen die nodig is om de hardware van de toekomst aan te sturen. Het is een eerste stap naar een toekomst waarin het ontwerpen van nieuwe computers net zo makkelijk is als het geven van een opdracht aan een slimme assistent.