Making LLMs Optimize Multi-Scenario CUDA Kernels Like Experts

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer efficiënte, snelle auto (een GPU) hebt, maar de motor is nog niet goed afgesteld. Het bouwen van de motor onderdelen (de code) is een taak die normaal gesproken alleen door zeer ervaren mechaniekers (software-experts) kan worden gedaan. Dit is vaak duur, tijdrovend en lastig.

Deze paper introduceert een nieuwe manier om dit probleem op te lossen met behulp van kunstmatige intelligentie (LLM's), maar dan op een slimme manier. Hier is de uitleg in simpele taal:

1. Het Probleem: De "Eén-Size-Fits-All" Valstrik

Tot nu toe probeerden AI's al om deze motoronderdelen te optimaliseren, maar ze keken alleen naar één specifiek type auto: de moderne elektrische auto's voor kunstmatige intelligentie (zoals PyTorch en LLM's).

De analogie: Het was alsof je een AI vroeg om alleen raceauto's te tunen, terwijl er ook nog vrachtwagens, schepen en landbouwmachines (wetenschappelijke berekeningen, medische scans, etc.) bestaan die heel anders werken.
De AI's waren goed in het nabootsen van wat ze al kenden, maar faalden als ze iets nieuws moesten doen waar geen "antwoordenboekje" voor bestond.

2. De Oplossing: Een Nieuwe Testbaan (MSKernelBench)

De auteurs hebben eerst een enorme, diverse testbaan gebouwd genaamd MSKernelBench.

De analogie: In plaats van alleen een racecircuit te hebben, hebben ze nu een testparcours met alles: een racecircuit, een modderbaan, een bergpas en een stadsroute.
Hierop testen ze 50 verschillende taken: van simpele rekenwerkjes tot complexe, verspreide berekeningen (zoals het zoeken van een naald in een hooiberg). Ze testen dit in twee talen (FP32 en BF16), alsof je de auto test op droog en nat asfalt.

3. De Ster: CUDAMaster (De Meester-Mechanicus)

Vervolgens hebben ze een nieuw systeem gebouwd genaamd CUDAMaster. Dit is geen simpele AI die raadt; het is een team van gespecialiseerde robots die samenwerken als een top-technisch team.

Het werkt als volgt:

De Diagnose (Hardware Filter): De AI kijkt eerst naar de motor en zegt: "Is het probleem dat de motor te heet wordt (rekenkracht), dat de benzine te langzaam aanvoert (geheugen), of dat de brandstofleiding verstopt zit (bandbreedte)?"
- Simpel gezegd: Ze filteren de enorme hoeveelheid data weg en houden alleen de belangrijke symptomen over.
Het Team:
- De Planner: Bedenkt een strategie ("Laten we de brandstoftoevoer vergroten").
- De Coder: Schrijft de nieuwe code (de nieuwe motoronderdelen).
- De Compiler: Zorgt dat de code werkt en geïnstalleerd kan worden.
- De Debugger: Als er iets misgaat (de motor stopt), kijkt deze robot wat er fout ging en repareert het direct.
Iteratie: Dit team probeert, faalt, repareert, probeert opnieuw en wordt steeds beter, totdat de motor perfect loopt.

4. De Resultaten: Sneller dan de Mens

Wat is het resultaat van dit experiment?

Overwinning: CUDAMaster was in de meeste gevallen 35% sneller dan andere AI-systemen (zoals Astra).
De "Gouden Medaille": In sommige gevallen was de AI zelfs sneller dan de beste, dure, gesloten software die door menselijke experts is gemaakt (zoals de officiële NVIDIA-bibliotheken).
De les: Als je een AI de juiste gereedschappen geeft (de testbaan) en de juiste informatie (de diagnose), kan hij net zo goed (of beter) presteren als een menselijke expert, zelfs bij taken die hij nooit eerder heeft gezien.

Conclusie

Deze paper toont aan dat we niet langer hoeven te wachten tot menselijke experts elke computercode handmatig optimaliseren. Met het juiste systeem kunnen AI-agenten nu "als experts" werken: ze analyseren, plannen, bouwen en repareren complexe software, waardoor computers in de toekomst veel sneller en efficiënter worden, of het nu gaat om het trainen van AI, het simuleren van het weer of het ontwerpen van nieuwe medicijnen.

Kortom: We hebben een AI-technicus die niet alleen raceauto's kan tunen, maar ook vrachtwagens, schepen en alles daartussenin, en dat doet hij vaak beter dan de beste menselijke monteurs.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Making LLMs Optimize Multi-Scenario CUDA Kernels Like Experts" in het Nederlands.

Titel: Het Optimaliseren van Multi-Scenario CUDA Kernels door LLM's zoals Experts

Auteurs: Yuxuan Han, Meng-Hao Guo, Zhengning Liu, Wenguang Chen, Shi-Min Hu.

1. Het Probleem

Het handmatig optimaliseren van GPU-kernels (CUDA) is een uiterst uitdagende en tijdrovende taak die diepgaande hardware-expertise vereist. Hoewel Large Language Models (LLM's) steeds vaker worden ingezet voor geautomatiseerde software-engineering, zijn bestaande methoden voor het optimaliseren van GPU-kernels beperkt:

Narrow Scope: Bestaande benchmarks (zoals KernelBench) richten zich bijna uitsluitend op operators binnen deep-learning-frameworks (bijv. PyTorch) en LLM-componenten.
Gebrek aan Generalisatie: Deze methoden negeren bredere domeinen zoals wetenschappelijk rekenen (HPC), spaarse matrixoperaties en numerieke methoden, die vaak onregelmatige geheugentoegangspatronen hebben.
Beperkte Evaluatie: De huidige benchmarks missen systematische evaluaties voor multi-scenario instellingen en testen niet of LLM's echt nieuwe optimalisatiestrategieën kunnen bedenken of alleen bekende oplossingen "terughalen".
De Kwestie: Er is een behoefte aan een algemeen systeem dat CUDA-kernels in diverse domeinen kan optimaliseren tot een niveau dat vergelijkbaar is met of zelfs superieur is aan handmatig getuneerde, gesloten bronbibliotheken (zoals cuBLAS of cuSPARSE).

2. Methodologie

De auteurs introduceren een tweeledige aanpak: een nieuw benchmark-systeem en een multi-agent optimalisatieframework.

A. MSKernelBench: Een Omvattende Benchmark

Om de beperkingen van bestaande benchmarks te overwinnen, hebben de auteurs MSKernelBench ontwikkeld.

Diversiteit: De benchmark bevat 50 taken uit vier hoofdcategorieën: fundamentele algebraïsche operaties, veelvoorkomende LLM-kernels, spaarse matrixoperators en routines voor wetenschappelijk rekenen.
Precisie: Elke taak wordt ondersteund in zowel FP32 als BF16 precisie.
Implementatie: De benchmark is geschreven in puur C (niet Python/PyTorch) om framework-afhankelijkheid te elimineren en volledige controle over geheugen en parallelisme te bieden.
Validatie: Er zijn handmatig gemaakte baselines (ground truth) gecreëerd die numeriek correct zijn vergeleken met gesloten bronbibliotheken.
Evaluatiemetrics:
- Correctheid: Compilatie en uitvoering over meerdere datasizes.
- Performance: Snelheidswinst (speedup) ten opzichte van de naive baseline.
- Gewogen Score: Een complexiteitsgewogen gemiddelde van de snelheidswinst, waarbij grotere datasizes (en dus hogere rekencomplexiteit) zwaarder wegen.

B. CUDAMaster: Een Multi-Agent Systeem

CUDAMaster is een end-to-end framework dat LLM-agents gebruikt om kernels te optimaliseren, geïnspireerd op de workflow van menselijke experts.

Hardware-Aware Profiling Filter:
- Het systeem gebruikt NVIDIA Nsight Compute om gedetailleerde hardware-profieldata te verzamelen.
- Een filter classificeert taken in drie categorieën op basis van bottlenecks: Compute Bound, Memory Latency Bound, en Memory Bandwidth Bound.
- Op basis van deze classificatie worden alleen de relevante metrics gefilterd en aan de LLM gepresenteerd, wat ruis reduceert en de focus van de agent verhoogt.
Multi-Agent Architectuur:
1. Planner Agent: Analyseert de gefilterde profieldata en stelt een optimalisatiestrategie voor (bijv. loop-unrolling, gebruik van shared memory, kernel-fusing).
2. Coder Agent: Implementeert de strategie in CUDA-code, zorgend voor de juiste structuur en correctheid.
3. Compiler Agent: Genereert de compilatiecommando's (nvcc) en beheert de build-pijplijn.
4. Debug Agent: Diagnoseert en repareert fouten bij compilatie of uitvoering (correctheid van resultaten).
Iteratief Proces: Het systeem draait in iteraties ( $R$ rondes) met een ingebouwde debug-loop ( $D$ pogingen) om fouten te corrigeren voordat een oplossing wordt geaccepteerd.

3. Belangrijkste Bijdragen

MSKernelBench: De eerste uitgebreide benchmark voor multi-scenario CUDA-optimalisatie die LLM-operators combineert met wetenschappelijk rekenen en spaarse matrices, met ondersteuning voor FP32/BF16 en schaalbare datasizes.
CUDAMaster: Een innovatief multi-agent systeem dat hardware-profieldata gebruikt om gerichte optimalisaties te sturen en een volledige toolchain (code, compilatie, uitvoering) genereert.
Superieure Prestaties: Het systeem bereikt aanzienlijke snelheidswinsten en presteert in veel gevallen beter dan gespecialiseerde, handmatig getuneerde bibliotheken.

4. Resultaten

Experimenten zijn uitgevoerd op 50 taken (100 in totaal met FP32 en BF16) met twee state-of-the-art LLM's: OpenAI o4-mini en DeepSeek-V3.2.

Algemene Prestaties: CUDAMaster bereikte significant hogere snelheidswinsten dan bestaande methoden. In vergelijking met Astra (een ander LLM-gebaseerd optimalisatiesysteem) presteerde de methode ongeveer 35% beter.
Vergelijking met Gesloten Bronnen:
- Bij SpMV CSR (spaarse matrix-vector vermenigvuldiging) overtrof het systeem cuSPARSE (2.96x vs 2.23x).
- Bij Dot Product overtrof het cuBLAS met een factor van 46.83x (vs 26.09x).
- Bij 2D Convolutie presteerde het beter dan cuDNN.
- Voor LLM-operators (zoals RMSNorm en SiLU) presteerde het systeem gelijk aan of beter dan Astra.
Ablatie Studies:
- Het gebruik van gefilterde profieldata bleek cruciaal: het bood vergelijkbare prestaties als volledige profieldata, maar met aanzienlijk lagere kosten (tot 32% kostenreductie en 30-40% minder tokens).
- Iteratieve planning en debugging ( $R=3, D=3$ ) waren essentieel voor het behalen van hoge snelheidswinsten; enkelvoudige runs presteerden aanzienlijk slechter.
Hardware Impact: De optimalisaties transformeerden taken van "Memory Latency Bound" (langzaam door wachtijd) naar "Compute Bound" of "Memory Bandwidth Bound", wat aantoont dat het systeem effectief de hardware-efficiëntie verbetert.

5. Significantie

Dit werk markeert een doorbraak in het veld van geautomatiseerd high-performance computing:

Van Specifiek naar Algemeen: Het bewijst dat LLM's niet alleen beperkt zijn tot deep-learning operators, maar ook complexe, onregelmatige taken in wetenschappelijk rekenen kunnen optimaliseren.
Expert-Niveau: Het systeem kan code genereren die concurreert met of verslaat die van menselijke experts en gesloten bronbibliotheken, wat suggereert dat LLM's het bovengrenzen van geautomatiseerd programmeren kunnen herschrijven.
Efficiëntie: Door slim profieldata-filtering te gebruiken, maakt het systeem geautomatiseerde optimalisatie haalbaar en kosteneffectief, zelfs voor complexe hardware-architecturen.
Open Source: Door de benchmark en het framework open source te maken, bieden de auteurs een fundamentele basis voor toekomstig onderzoek in adaptieve en uitgebreide generatie van high-performance code.

Kortom, CUDAMaster demonstreert dat LLM-gestuurde agents, wanneer ze de juiste context en tools krijgen, kunnen fungeren als expert-optimalisators voor diverse CUDA-kernels, waardoor de barrière voor hoogwaardige GPU-programmering voor een breder publiek wordt verlaagd.