Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een meester-kok bent die gewend is om te koken in een supermoderne keuken met alle ingrediënten bij de hand (zoals CUDA, de standaard voor grafische kaarten van NVIDIA). Je kunt elke gerechtsoogst perfect maken.

Maar nu moet je plotseling koken in een heel nieuwe, onbekende keuken (zoals NPU, een speciaal type chip voor AI van Huawei), waar er bijna geen ingrediënten zijn, de recepten in een vreemde taal zijn geschreven en niemand je kan vertellen of het gerecht lukt of niet. Dit is het probleem waar kunstmatige intelligentie (LLMs) tegenaan loopt: ze zijn geweldig met wat ze al weten, maar falen volledig als ze iets nieuws moeten leren zonder voorbeelden.

Dit paper introduceert EvoKernel, een slimme oplossing die dit probleem oplost. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Muur van Geen Gegevens"

Normaal gesproken leren AI-modellen door miljoenen voorbeelden te lezen. Maar voor nieuwe hardware (zoals NPU's) bestaan die voorbeelden niet. Het is alsof je een kok vraagt om een gerecht te maken, maar je geeft hem geen recept, geen ingrediëntenlijst en geen foto van het eindresultaat. Als je de AI gewoon vraagt om het te proberen, maakt hij een complete rommeltje.

2. De Oplossing: Een Slimme Leerling met een "Gedachtenboek"

In plaats van de AI te dwingen om alles opnieuw te leren (wat duur en moeilijk is), bouwen de auteurs een systeem dat leert van zijn eigen fouten en successen. Ze noemen dit een "Zelf-evoluerend Agent".

Stel je dit voor als een slimme leerling die een gedachtenboek (memory) bijhoudt:

Fase 1: De Eerste Poging (Het Schetsen)
De AI probeert het recept te schrijven. Het lukt vaak niet. Maar in plaats van te stoppen, kijkt de AI in zijn gedachtenboek. Het zoekt naar eerdere pogingen die bijna werkten. Het gebruikt een slimme truc: het vraagt zich af: "Welk stukje informatie uit mijn boek helpt me nu het meest om dit recept werkend te krijgen?"
Dit noemen ze Waarde-gedreven Zoeken. Het is alsof de AI niet zomaar bladeren doorboekt, maar direct naar de pagina springt die de meeste kans van slagen biedt.
Fase 2: Het Verfijnen (Het Optimaliseren)
Zodra het recept eindelijk werkt (het gerecht is eetbaar), is het nog niet klaar. Het moet snel zijn. De AI begint nu te experimenteren: "Als ik dit ingrediënt iets sneller snijd, gaat het gerecht dan sneller?"
Ook hier kijkt het in zijn boek: "Welk eerdere experiment heeft me geholpen om sneller te worden?" Het bouwt voort op wat het al weet, in plaats van bij nul te beginnen.

3. De Magie: Waarom werkt dit zo goed?

Het geheim zit hem in twee dingen:

Het Gedachtenboek groeit mee: Elke keer als de AI iets leert (of een fout maakt), schrijft het dit op in zijn boek. Dit boek wordt steeds slimmer. Als de AI later een nieuw, moeilijk gerecht moet maken, kan het zeggen: "Oh, ik heb dit eerder gezien bij een ander gerecht, dat werkte zo!"
Het leert van elkaar: Als de AI een makkelijk gerecht (zoals een simpele salade) perfect heeft gemaakt, kan die kennis worden gebruikt om een heel moeilijk gerecht (zoals een complexe soufflé) te maken. Het systeem deelt kennis tussen verschillende taken.

4. Het Resultaat: Van Rommeltje naar Meesterkok

In de tests hebben ze gekeken hoe goed AI's nieuwe code konden schrijven voor deze speciale chips.

Zonder EvoKernel: De beste AI's slaagden maar in 11% van de gevallen. Ze waren compleet verloren.
Met EvoKernel: De AI's slaagden in 83% van de gevallen!
Snelheid: Niet alleen werkte het, het was ook 3,6 keer sneller dan de eerste poging, omdat de AI continu bleef verbeteren.

Samenvattend

Dit paper laat zien dat je AI niet hoeft te "fijnen" (een duur en zwaar proces) om het iets nieuws te leren. In plaats daarvan geef je de AI een slim systeem om zijn eigen ervaringen te verzamelen en te gebruiken.

Het is alsof je een kok niet een nieuw recept geeft, maar hem een slim dagboek geeft waarin hij zijn eigen fouten en successen noteert. Naarmate hij meer kookt, wordt zijn dagboek rijker, en wordt hij steeds beter in het bedenken van nieuwe gerechten, zelfs als hij nog nooit eerder in die specifieke keuken heeft gewerkt.

De kernboodschap: In een wereld waar nieuwe technologieën (zoals nieuwe AI-chips) sneller komen dan er data voor bestaat, is de oplossing niet "meer data verzamelen", maar "slimmer leren van wat je al hebt".

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis", vertaald en samengevat in het Nederlands.

Titel: Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis

Auteurs: Yujie Zheng, Zhuo Li, et al. (Shanghai Jiao Tong University, Shanghai AI Laboratory, etc.)

1. Het Probleem: De "Data Wall" in Niche Hardware Ecosystems

Het paper adresseert een fundamenteel probleem bij het inzetten van Large Language Models (LLMs) voor data-schaarse programmeerdomeinen, specifiek de synthese van kernels voor opkomende Domain-Specific Architectures (DSA's) zoals NPUs (Neural Processing Units).

De Data Wall: In tegenstelling tot het mature NVIDIA CUDA-ecosysteem, dat decennia aan open source code en documentatie biedt, lijden nieuwe platformen (zoals Ascend C voor Huawei NPUs) aan extreme data-schaarste. Er is weinig publieke code, esoterische documentatie en vaak ondoorzichtige compiler-feedback.
Cold-Start Uitdaging: Zelfs de meest geavanceerde LLMs (zoals GPT-5.2) presteren catastrofaal slecht op deze platformen wanneer ze worden getransfereerd vanuit hun pre-training-distributie. Waar ze op CUDA een correctheid van 92% halen, daalt dit naar 14% op Ascend C.
Beperkingen van Bestaande Methoden:
- Supervised Fine-Tuning (SFT): Vereist duizenden gelabelde voorbeelden per domein, wat onbetaalbaar is voor niche hardware.
- Traditionele Reinforcement Learning (RL): Vereist uitgebreide online rollouts en riskeert "catastrophic forgetting" van algemene vaardigheden.
- RAG (Retrieval-Augmented Generation): Faalt vaak omdat semantische gelijkenis niet garandeert dat de opgehaalde voorbeelden effectief zijn voor de specifieke hardware-optimatie.

Het kernprobleem is: Hoe kan een agent autonoom een strikt, data-schaars kernel-synthesetaak leren van scratch, zonder expert-demonstraties of dure fine-tuning?

2. Methodologie: EvoKernel

De auteurs introduceren EvoKernel, een zelf-evoluerend agentisch framework dat kernel-synthese formuleert als een Memory-based Markov Decision Process (M-MDP). Het systeem automatiseert de levenscyclus van kernel-synthese van initiële opzet tot continue verfijning.

Kerncomponenten:

Value-Driven Retrieval (Waarde-gedreven Opvraging):
- In plaats van te vertrouwen op semantische gelijkenis, leert de agent Q-waarden (verwachte nut) voor historische ervaringen.
- De agent leert stage-specifieke Q-waarden:
  - Drafting Stage (Q1): Prioriteert ervaringen die bijdragen aan functionele correctheid (kan de code compileren en kloppen?).
  - Refining Stage (Q2): Prioriteert ervaringen die bijdragen aan latency-optimatie (snelheid).
- Dit stelt de agent in staat om dynamisch te schakelen tussen het oplossen van correctheidsproblemen en het optimaliseren van performance.
Zelf-Evoluerend Geheugen (Self-Evolving Memory):
- Het geheugen ( $M_t$ ) is een heterogene kennisbank die API-sjablonen, samenvattingen van succes/fail-ervaringen, generatietraces en best practices bevat.
- Het geheugen wordt continu bijgewerkt met feedback van een multi-gate verifier.
- Cross-Task Delen: Ervaringen van eenvoudige taken worden gedeeld met complexe taken, wat een "curriculum learning" effect creëert zonder expliciete instructie.
Twee-Stadia Proces:
- Stadium 1: Cold-Start Drafting: De agent probeert een functioneel correcte kernel te genereren (bootstrapping) door te zoeken naar ervaringen die de kans op correctheid maximaliseren.
- Stadium 2: Continual Refining: Zodra een werkende kernel is gevonden, schakelt de agent over naar het minimaliseren van uitvoeringstijd (latency) door te zoeken naar optimalisatietraces en bottleneck-oplossingen.
Multi-Gate Verifier:
- Een robuuste omgeving die code beoordeelt op vier criteria: Anti-hacking (geen Python-trucs), compilatie, functionele correctheid (vergelijkbaar met PyTorch referentie) en latency.
- De verifier levert een scalair beloningssignaal ( $r$ ) dat wordt gebruikt om de Q-waarden te updaten via een Monte-Carlo update regel.

3. Belangrijkste Bijdragen

Unified Drafting-Refining Pipeline: Een tweestapsframework dat over een gedeeld geheugen werkt, waardoor het mogelijk is om eerst haalbaarheid te garanderen en vervolgens performance te optimaliseren.
Evoluerende Waarde-Gedreven Opvraging: Een nieuwe retrieval-mechanisme dat Q-waarden leert om de bruikbaarheid van geheugenitems te kwantificeren. Dit gebeurt zonder de gewichten van het LLM bij te werken (non-parametrisch), wat kostenefficiënt is.
Comprehensieve Evaluatie en Generalisatie: Het paper bouwt een NPU-variant van de KernelBench-benchmark en toont aan dat het systeem niet alleen binnen het trainingsdomein werkt, maar ook generaliseert naar nieuwe operator-families (zoals Attention Sets) en nieuwe architecturale motieven (DeepSeek mHC kernels).

4. Resultaten

De experimenten zijn uitgevoerd op Ascend C (NPU) met een budget van 30 iteraties per operator.

Correctheidssprong: EvoKernel verhoogt de functionaliteit van frontier-modellen (zoals GPT-5.2) op Ascend C van 11,0% naar 83,0% correctheid.
- Vergelijking: Zonder EvoKernel (Pass@k) haalt GPT-5.2 slechts 11% correctheid. Met EvoKernel stijgt dit naar 83%.
- Vergelijking met Codex: EvoKernel overtreft een autonome agent met directe shell-toegang (Codex) met 15,5 punten in compilatie en 37,0 punten in correctheid.
Performance Verbetering: Door iteratieve verfijning wordt een mediaan snelheidswinst van 3,60x bereikt ten opzichte van de eerste werkende draft.
- Sommige kernels tonen extreme verbeteringen (tot >200x sneller dan de eerste correcte versie).
Generalisatie:
- Cross-Level Transfer: Ervaringen opgemakkelijker taken (Level 1) versnellen het leren van moeilijkere taken (Level 2) aanzienlijk (64% correctheid vs. 34% zonder transfer).
- Cross-Model Transfer: Een geheugen opgebouwd door een sterk model (GPT-5.2) verbetert de prestaties van zwakkere modellen (DeepSeek, Qwen) aanzienlijk, wat aantoont dat het geheugen backbones-agnostische inzichten bevat.
- Out-of-Distribution: Het systeem werkt succesvol op nieuwe werklasten zoals de "Attention Set" en "mHC kernels" die niet in de oorspronkelijke benchmark zaten.

5. Betekenis en Conclusie

Dit paper demonstreert dat waarde-gedreven ervaringaccumulatie het mogelijk maakt voor algemene modellen om data-schaarse hardware-ecosystemen te beheersen zonder dure fine-tuning.

Democratisering van Expertise: De methode verkleint de kloof tussen data-rijke en data-schaarse domeinen, waardoor het mogelijk wordt om software voor niche hardware (zoals NPUs) te ontwikkelen zonder duizenden expert-voorbeelden.
Schaalbaarheid: De aanpak is schaalbaar naar nieuwe architecturen en operator-families, wat essentieel is voor de snelle evolutie van hardware-accelerators.
Toekomstperspectief: De auteurs suggereren dat dit paradigma (value-driven memory) breder toepasbaar is op andere data-schaarse domeinen met binaire verificatiesignalen. Naarmate LLMs beter worden in "in-context learning", zullen geheugen-versterkte benaderingen de sleutel worden tot autonome beheersing van gespecialiseerde taken.

Kortom, EvoKernel lost het "cold-start" probleem op door een agent te creëren die niet alleen code genereert, maar actief leert welke ervaringen het meest waardevol zijn voor het oplossen van specifieke hardware-uitdagingen.

Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis

1. Het Probleem: De "Muur van Geen Gegevens"

2. De Oplossing: Een Slimme Leerling met een "Gedachtenboek"

3. De Magie: Waarom werkt dit zo goed?

4. Het Resultaat: Van Rommeltje naar Meesterkok

Samenvattend

Titel: Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis

1. Het Probleem: De "Data Wall" in Niche Hardware Ecosystems

2. Methodologie: EvoKernel

Kerncomponenten:

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers