MobileKernelBench: Can LLMs Write Efficient Kernels for Mobile Devices?

Deze paper introduceert MobileKernelBench, een evaluatiekader dat aantoont dat huidige LLMs moeite hebben met het genereren van efficiënte kernels voor mobiele apparaten, en stelt MoKA voor, een multi-agent systeem dat de compilatiesuccesrate aanzienlijk verbetert en prestatieverbeteringen mogelijk maakt.

Xingze Zou, Jing Wang, Yuhua Zheng, Xueyi Chen, Haolei Bai, Lingcheng Kong, Syed A. R. Abu-Bakar, Zhaode Wang, Chengfei Lv, Haoji Hu, Huan Wang

Gepubliceerd 2026-03-13
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme, krachtige supercomputer hebt (zoals een AI die code schrijft) en je vraagt die om een heel klein, efficiënt motoronderdeel te ontwerpen voor een slimme telefoon. Dat is precies wat dit onderzoek doet.

Hier is een uitleg van het paper "MobileKernelBench: Can LLMs Write Efficient Kernels for Mobile Devices?" in simpele taal, met een paar creatieve vergelijkingen.

1. Het Probleem: De "Grote Bouwer" en de "Kleine Auto"

Stel je voor dat Large Language Models (LLMs) zoals ChatGPT of Claude supergetalenteerde architecten zijn. Ze kunnen prachtige gebouwen ontwerpen (code voor servers) die enorm groot en krachtig zijn.

Maar nu willen we die architecten vragen om een motor voor een racefiets te ontwerpen (de code die op je telefoon draait, een "kernel").

  • Het probleem: De architecten zijn gewend aan gigantische bouwprojecten. Ze weten niet hoe ze een motor moeten bouwen die past in een fiets, die weinig energie verbruikt en die niet uit elkaar valt als je over een kassei rijdt.
  • De uitkomst: Als je deze AI's gewoon vraagt om code te schrijven voor je telefoon, maken ze veel fouten. Ze "hallucineren" (verzonnen ze regels die niet bestaan) en hun code werkt vaak niet of is veel te traag. Het is alsof ze proberen een vrachtwagenmotor in een fiets te monteren.

2. De Oplossing: Een Nieuwe Testbaan (MobileKernelBench)

Omdat niemand eerder goed had gekeken of AI dit wel kon, hebben de onderzoekers een nieuwe testbaan gebouwd, genaamd MobileKernelBench.

  • De Testbaan: Dit is geen simpele quiz. Het is een compleet laboratorium. Ze hebben 190 verschillende taken verzameld (zoals het verwerken van video, geluid of rekenen) die echt voorkomen op telefoons.
  • De Automatische Test: Ze hebben een robotarm gebouwd die de code van de AI pakt, deze probeert te bouwen, hem op een echte telefoon (een Xiaomi) installeert en kijkt of het werkt en hoe snel het is.
  • De Resultaten: De "gewone" AI's faalden zwaar. Meer dan de helft van hun code kon niet eens worden gebouwd (zoals een auto die niet start). En als het wel werkte, was het vaak niet sneller dan wat er al bestond.

3. De Held: MoKA (De Meester-Bouwer met een Team)

De onderzoekers dachten: "Oké, de AI is slim, maar hij werkt te eenzaam." Dus bedachten ze MoKA (Mobile Kernel Agent).

Stel je voor dat MoKA geen enkele architect is, maar een bouwteam van drie specialisten die samenwerken:

  1. De Coder (De Bouwer): Schrijft de code.
  2. De Debugger (De Kwaliteitscontroleur): Kijkt of de code fouten heeft. Als de motor niet start, zegt hij: "Ah, je hebt de verkeerde bout gebruikt!" en geeft de bouwer een nieuwe instructie.
  3. De Accelerator (De Tuner): Als de motor wel start, zegt hij: "We kunnen hem sneller maken door de buizen anders te leggen." Hij zoekt naar manieren om de telefoon minder energie te laten verbruiken.

Het geheim van MoKA:
In plaats van één keer te proberen en hopen dat het goed is, werkt dit team in rondes.

  • Ronde 1: Bouwen.
  • Ronde 2: Controleren op fouten en repareren.
  • Ronde 3: Verbeteren voor snelheid.
  • En zo gaat het door totdat het perfect is.

Ze gebruiken ook een handboek (de code van de telefoon zelf) om te checken of ze de juiste regels volgen, zodat ze niet meer dingen verzonnen.

4. De Resultaten: Een Revolutie

Toen ze MoKA op de testbaan zetten, gebeurde er magie:

  • Succes: Waar de gewone AI's faalden bij 54% van de taken, slaagde MoKA in 93,7% van de gevallen.
  • Snelheid: 27,4% van de door MoKA geschreven code was sneller dan wat de menselijke experts al hadden gemaakt.

Conclusie: Waarom is dit belangrijk?

Vroeger dachten we dat AI alleen goed was voor simpele taken. Dit paper laat zien dat AI wel complexe, technische taken voor mobiele telefoons kan doen, maar alleen als we het de juiste tools geven.

  • Zonder tools: De AI is als een genie dat in de war raakt in een kleine kamer.
  • Met MoKA: De AI krijgt een team, een gereedschapskist en een plan. Dan wordt het een meesterbouwer die zelfs de beste menselijke ingenieurs kan verslaan.

Kortom: AI kan de toekomst van snelle en slimme telefoons helpen bouwen, zolang we het maar niet alleen laten, maar het een goed team geven om mee te werken.