CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme, superkrachtige motor hebt: een GPU (de grafische kaart van je computer). Deze motor kan rekenen als gek, maar hij is heel kieskeurig. Hij wil niet zomaar instructies krijgen; hij wil ze in een heel specifiek, moeilijk dialect, genaamd CUDA, horen. Als je de instructies niet perfect geeft, loopt de motor niet snel, of hij stopt zelfs helemaal.

Vroeger waren dit soort instructies alleen te schrijven door super-experts, mensen die decennia hebben besteed aan het leren van de "geheime taal" van de chip.

Maar nu hebben we CUDA Agent, een nieuwe, slimme robot die dit voor je doet. Hier is hoe het werkt, vertaald in alledaags taal:

1. Het Probleem: De Stomme Vertaler

Stel je voor dat je een groot boek (een AI-model) hebt dat heel goed kan schrijven en redeneren. Maar als je vraagt: "Schrijf me een instructie voor die super-motor die 100% sneller werkt dan de standaard," dan faalt het boek.

Het boek kan wel een recept schrijven, maar het weet niet hoe je de oven op de perfecte temperatuur zet voor die specifieke motor.
Bestaande computerprogramma's (zoals torch.compile) zijn als een automatische bakker: ze doen het redelijk goed, maar ze zijn niet creatief genoeg om de motor echt te laten pieken.

2. De Oplossing: CUDA Agent (De Leerling die een Meester wordt)

De onderzoekers van ByteDance en Tsinghua hebben een systeem gebouwd dat de robot niet alleen laat schrijven, maar hem laat oefenen tot hij een meester wordt. Ze noemen dit "Agentic Reinforcement Learning".

Hier zijn de drie geheimen van hun succes:

A. De Oefenboerderij (Data Synthesis)

Je kunt een chef-kok niet leren koken door alleen maar recepten te lezen. Je moet hem laten koken!

Wat ze deden: Ze bouwden een enorme "oefenboerderij" met duizenden verschillende rekenproblemen.
De truc: Ze pakte simpele onderdelen (zoals matmul of relu, wat als ingrediënten is) en mixte ze tot nieuwe, moeilijke gerechten.
Het doel: De robot kreeg duizenden kansen om te proberen, te falen, en te leren wat wel en niet werkt, zonder dat mensen handmatig duizenden voorbeelden moesten schrijven.

B. De Veilige Keuken (De Agent Omgeving)

Stel je voor dat je een beginnende kok in een keuken zet met een vuurhaard. Als hij de pan laat vallen, moet hij niet de hele keuken opblazen.

De Veilige Zone: De robot werkt in een afgesloten, digitale keuken. Hij mag code schrijven, compileren en testen.
De Beoordeling: Zodra hij een "gerecht" (de code) heeft, wordt het direct getest.
- Werkt het? (Correctheid)
- Is het sneller dan de standaard versie? (Snelheid)
De Beloning: Als het gerecht sneller is dan de standaard, krijgt de robot een sterretje (een beloning). Als het langzamer is of crasht, krijgt hij een "nee".
Anti-Valsspelen: Ze hebben de keuken zo ontworpen dat de robot niet kan valsspelen (bijvoorbeeld door de timer te hacken). Hij moet echt sneller werken door slimme trucs.

C. De Trainingsmethode (Reinforcement Learning)

Dit is het belangrijkste deel. In het begin was de robot een beetje dom en viel hij vaak uit (de training crashte).

De Oplossing: Ze gebruikten een slimme methode om de robot eerst te laten "warmlopen" met simpele taken voordat ze hem de zware klus gaven.
De Leerling: De robot probeert, kijkt naar de foutmeldingen (bijvoorbeeld: "Je hebt een foutje in je code"), en probeert het opnieuw. Na 150 keer proberen (en duizenden pogingen in de achtergrond) leerde hij niet alleen wat hij moest doen, maar ook hoe hij moest denken om de snelste code te vinden.

3. Het Resultaat: De Super-Kok

Het resultaat is verbazingwekkend.

Op moeilijke taken (waar zelfs de beste menselijke experts moeite mee hebben) is CUDA Agent 40% beter dan de duurste, slimste AI-modellen ter wereld (zoals Claude en Gemini).
Het is 2 tot 3 keer sneller dan de standaard automatische tools die nu in de industrie worden gebruikt.
Het kan zelfs complexe trucs bedenken, zoals het samenvoegen van verschillende stappen in één beweging (zoals het samenvoegen van het snijden, bakken en serveren van een gerecht in één seconde), wat de standaard-tools niet kunnen.

Samenvattend

Vroeger was het schrijven van super-snelle computercode voor grafische kaarten een geheim dat alleen een paar mensen kenden.
Met CUDA Agent hebben we een robot gebouwd die:

Duizenden keren heeft geoefend in een veilige omgeving.
Loopt uit zijn fouten en leert van elke seconde die hij wint.
Nu code schrijft die sneller is dan wat menselijke experts of standaard software ooit kunnen bedenken.

Het is alsof je een robot hebt die niet alleen een auto kan bouwen, maar die de motor zelf zo heeft aangepast dat hij 100 km/u sneller rijdt dan de fabrieksversie, en dat doet hij elke dag opnieuw, voor elke nieuwe auto die je hem geeft.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

De optimalisatie van GPU-kernels (CUDA) is fundamenteel voor moderne deep learning, maar blijft een uiterst gespecialiseerde taak die diepgaande hardware-expertise vereist. Hoewel Large Language Models (LLMs) indrukwekkende prestaties leveren in algemene programmeertaken, blijven ze achter bij compiler-gebaseerde systemen zoals torch.compile bij het genereren van geoptimaliseerde CUDA-kernels.

Bestaande benaderingen voor het genereren van CUDA-code hebben twee hoofdbeperkingen:

Trainingsvrije workflows: Deze vertrouwen op handmatig ontworpen heuristieken en uitvoeringsfeedback. Ze verbeteren echter niet de inherente CUDA-vaardigheden van het basismodel, waardoor de prestaties beperkt blijven.
Fine-tuning in vaste loops: Bestaande methoden fine-tunen modellen binnen een vaste multi-turn feedback-loop. Dit verspillen contextlengte door alle vorige oplossingen te behouden en beperkt de autonomie van het agent om strategieën voor debugging, zoeken en profileren te leren.

Het resultaat is dat LLMs vaak naïeve kernels genereren die niet concurreren met geavanceerde compilers, zelfs niet op de moeilijkste taken.

Methodologie: CUDA Agent

Het paper introduceert CUDA Agent, een grootschalig systeem voor versterkte leerling (Reinforcement Learning - RL) dat CUDA-kernel expertise systematisch ontwikkelt via drie complementaire componenten:

1. Schaalbaar Data Synthese-pipeline

Omdat er een gebrek is aan hoogwaardige, handgeschreven referentiecode voor CUDA, heeft het team een pipeline ontwikkeld om trainingsdata te synthetiseren:

Seed Problem Crawling: Mineren van operators uit PyTorch en Transformers-bibliotheken.
Combinatorische Synthese: Het gebruik van LLM's om meerdere operators te combineren tot "fused" taken. Dit creëert nieuwe optimalisatieproblemen die niet triviaal zijn (het optimaliseren van losse operators achter elkaar is niet hetzelfde als het optimaliseren van de gefuseerde taak).
Filtering: Rigoureuze filtering op uitvoerbaarheid, reproduceerbaarheid (geen stochastische elementen), en werklast (1ms - 100ms). Dit resulteerde in een dataset van 6.000 samples (CUDA-Agent-Ops-6K).

2. Vaardigheidsgeïntegreerde Agent-omgeving (Skill-Integrated Environment)

De agent opereert in een gesimuleerde ontwikkelomgeving die is ontworpen om "reward hacking" te voorkomen en robuuste feedback te geven:

Agent Skills: De agent krijgt gestructureerde instructies (SKILL.md) en tools (Bash, profilers, compilers) die de standaardworkflow voor CUDA-ontwikkeling formaliseren (analyseren, implementeren, compileren, profileren, itereren).
Robuuste Beloningsschema: In plaats van een ruwe snelheidsverhoging (speed-up) te belonen, gebruikt het systeem een genormaliseerd, discreet beloningsschema ( $r \in \{-1, 1, 2, 3\}$ ) op basis van correctheid en specifieke prestatie-mijlpalen (bijv. >5% sneller dan torch.compile).
Anti-Hacking Maatregelen: Besturingsbestanden voor verificatie zijn beveiligd, fallback-implementaties zijn verboden, en de agent heeft geen toegang tot externe zoekopdrachten. Dit zorgt ervoor dat prestatiewinst puur afkomstig is van de gegenereerde CUDA-kernels.

3. Algorithmische Verbeteringen voor Stabiele RL-training

De auteurs identificeren dat directe RL-training instabiel is door een distributieverschil tussen de pre-training data van het model en CUDA-code. Om dit op te lossen, introduceren ze een multi-stage warm-up strategie:

Single-Turn Warm-up: Eerst wordt het basismodel getraind via PPO voor single-turn generatie.
Rejection Fine-Tuning (RFT): Trajecten gegenereerd door de agent worden gefilterd (alleen die met positieve beloning en zonder inefficiënt gedrag) en gebruikt om de actor-model te initialiseren via supervised fine-tuning.
Value Pretraining: De critic-model wordt voorgeprogrammeerd met de waarden van deze trajecten om stabiele schattingen te geven.
Agentic RL: Pas na deze warm-up-fasen wordt de volledige multi-turn RL-training (PPO) uitgevoerd, wat stabiele training over 150+ stappen mogelijk maakt.

Belangrijkste Resultaten

De prestaties van CUDA Agent zijn getest op KernelBench (niveaus 1 tot 3) en vergeleken met state-of-the-art modellen (Claude Opus 4.5, Gemini 3 Pro, GLM 4.6, Kimi K2) en de torch.compile compiler.

Snelheid: CUDA Agent is 100%, 100% en 92% sneller dan torch.compile op respectievelijk Level 1, Level 2 en Level 3 splits.
Vergelijking met Propriëtaire Modellen: Op de moeilijkste Level 3 taken presteert CUDA Agent ongeveer 40% beter dan de sterkste commerciële modellen (zoals Claude Opus 4.5 en Gemini 3 Pro).
Correctheid: Het systeem bereikt een Pass Rate van 98,8% en een Faster Rate van 96,8%, wat aantoont dat het niet alleen sneller is, maar ook functioneel correcte code produceert.
Ablatie-studies: De studies tonen aan dat elk onderdeel cruciaal is: zonder de agent-loop daalt de prestatie drastisch; zonder het robuuste beloningsschema wordt de optimalisatie suboptimaal; en zonder RFT en Value Pretraining stort de training in.

Bijdragen en Betekenis

De belangrijkste bijdragen van dit werk zijn:

Systematische Verbetering: Het bewijst dat LLM's via grootschalige agentic RL kunnen evolueren van passieve code-generators naar actieve, hardware-bewuste optimalisators.
Superioriteit boven Compilers: Het is de eerste keer dat een LLM-gebaseerde aanpak consistent en significant beter presteert dan geavanceerde compilers (torch.compile) op een breed scala aan CUDA-taken, met name bij operator-fusie en complexe hardware-afhankelijke optimalisaties.
Stabiele RL voor Lange Context: Het paper biedt een blauwdruk voor het trainen van LLM's met lange context (tot 128k tokens) en multi-turn interacties via gestructureerde warm-up en stabiliteitsmaatregelen.
Toekomstperspectief: Het opent de weg naar het automatiseren van performance-kritieke softwareontwikkeling voor GPU-computing, waarbij foundation models worden uitgerust met gestructureerde omgevingen en betrouwbare uitvoerings-feedback.

Kortom, CUDA Agent markeert een doorbraak in het gebruik van AI voor systeemsoftware, waarbij het de kloof overbrugt tussen hoog niveau redeneren en laag niveau hardware-optimalisatie.