CUDABench: Benchmarking LLMs for Text-to-CUDA Generation

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen extrem talentierten, aber noch etwas unerfahrenen Koch (das ist die KI oder das Large Language Model). Dieser Koch kann fantastische Rezepte auswendig lernen und sogar neue kreative Gerichte erfinden, wenn man ihm nur eine grobe Idee gibt.

Das Problem ist: Die Küche, in der er kochen soll, ist nicht irgendeine normale Küche. Es ist eine Super-Küche mit riesigen, ultraschnellen Herden (das sind die GPUs, die Grafikkarten, die für KI und Wissenschaft genutzt werden). Um in dieser Küche etwas Gutes zu kochen, reicht es nicht, nur ein Rezept zu haben. Man muss genau wissen, wie man die riesigen Herde bedient, wann man welche Pfanne nimmt und wie man die Zutaten so schneidet, dass nichts verbrannt wird.

Hier ist die Geschichte von CUDABench, einem neuen Test, der genau das prüft: Kann diese KI wirklich für diese Super-Küche kochen, oder macht sie nur eine lausige Suppe?

1. Das Problem: Der alte Test war zu einfach

Bisher haben die Tests für KIs nur geprüft, ob sie ein Rezept von einer Sprache (z. B. Python) in eine andere (CUDA, die Sprache der Super-Küche) übersetzen können. Das ist wie wenn man dem Koch sagt: "Hier ist dein Rezept für Spaghetti, schreib es bitte auf Französisch auf." Das ist einfach, weil das Rezept schon da ist.

Aber in der echten Welt muss der Koch oft nur hören: "Ich möchte eine Suppe, die warm hält und schnell geht." und dann selbst das Rezept erfinden und die Zutaten schneiden. Das ist viel schwerer. Bisher gab es keinen Test, der das wirklich prüfte.

2. Die Lösung: CUDABench (Der große Kochwettbewerb)

Die Forscher haben CUDABench erfunden. Das ist ein riesiger, fairer Wettbewerb für KIs.

Die Breite (Breadth): Der Wettbewerb hat viele verschiedene Kategorien. Nicht nur "Spaghetti" (KI-Modelle), sondern auch "Fischsuppe" (Wissenschaft), "Schnelle Sandwiches" (Datenanalyse) und "Komplexe Desserts" (Finanzen). Die KI muss in allen Bereichen kochen können.
Die Tiefe (Depth): Die Aufgaben kommen in verschiedenen Größen. Mal soll sie eine Suppe für 5 Leute kochen (kleine Daten), mal für eine ganze Stadt (riesige Daten).
Die Schwierigkeit (Difficulty):
- Leicht: Der Chef gibt das genaue Rezept vor.
- Mittel: Der Chef sagt nur, was das Gericht sein soll, aber nicht wie man es macht.
- Schwer: Der Chef sagt nur den Namen des Gerichts ("Schwarzer-Scholes-Kuchen") und die KI muss sich das ganze Rezept selbst aus dem Gedächtnis holen.

3. Der neue Maßstab: Nicht nur "Essbar", sondern "Perfekt"

Früher hat man nur geschaut: "Ist das Essen essbar?" (Läuft der Code?). Aber in einer Super-Küche reicht das nicht. Wenn das Essen essbar ist, aber 10 Stunden dauert, ist es nutzlos.

CUDABench führt einen neuen Maßstab ein, den sie CUDABench-Score nennen. Stell dir das wie einen Effizienz-Test vor:

Wie viel Energie (Strom) hat der Herd verbraucht?
Wie schnell war das Essen fertig im Vergleich zum theoretisch Möglichen?
Hat der Koch den Herd optimal genutzt oder hat er nur eine kleine Pfanne auf dem riesigen Herd benutzt?

Sie nutzen ein Modell namens Roofline (Dachlinie). Stell dir vor, das Dach ist die maximale Geschwindigkeit, die die Super-Küche erreichen kann. Der Test prüft, wie nah der Koch an dieses Dach herankommt.

4. Was haben sie herausgefunden? (Die überraschenden Ergebnisse)

Als sie die besten KIs (wie GPT-5, Claude, Gemini) gegen diesen Test antreten ließen, kamen einige schockierende Dinge ans Licht:

Scheinheiligkeit: Die KIs waren super darin, das Rezept aufzuschreiben (der Code kompilierte fast immer). Aber wenn man es tatsächlich kochte (ausführte), war das Ergebnis oft falsch oder matschig. Es ist, als würde ein Koch ein perfektes Rezept auf Papier haben, aber beim Kochen die Eier verwechseln.
Fehlendes Fachwissen: Wenn die KI nur den Namen des Gerichts hörte (schwierige Stufe), scheiterte sie oft komplett. Sie wusste nicht, wie man "Fischsuppe" (wissenschaftliche Simulationen) kocht, weil sie nur allgemeine Kochbücher gelesen hatte, aber keine speziellen Fachbücher für die Super-Küche.
Verschwendete Ressourcen: Selbst die besten KIs nutzten die Super-Küche nur zu etwa 40% aus. Sie ließen riesige Herdplatten kalt, obwohl sie eigentlich alles auf einmal hätten kochen können. Die KIs sind also "langsam", weil sie die Kraft der Maschine nicht verstehen.

Fazit

CUDABench zeigt uns: Unsere KIs sind zwar brillante Texter und Übersetzer, aber noch keine echten Experten für Hochleistungs-Computer. Sie können Code schreiben, der aussieht wie Code, aber oft nicht die volle Kraft der modernen Computer entfesselt.

Dieser neue Test ist wie ein Spiegel, der den Entwicklern zeigt: "Hey, ihr müsst euren Koch nicht nur lehren, Rezepte zu schreiben, sondern ihm beibringen, wie man die Super-Küche wirklich bedient!" Nur so können wir in Zukunft wirklich schnelle und effiziente KI-Anwendungen haben.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die rasante Entwicklung von Large Language Models (LLMs) hat das Potenzial gezeigt, GPU-Kernels in CUDA zu generieren. Bisherige Benchmarks konzentrierten sich jedoch hauptsächlich auf die Übersetzung von Hochsprachen (z. B. PyTorch) in CUDA (Code-zu-Code). Dies übersieht die viel allgemeinere und schwierigere Aufgabe der Text-zu-CUDA-Generierung, bei der Modelle algorithmische Absichten und Implementierungsdetails direkt aus natürlicher Sprache ableiten müssen.

Ein weiteres zentrales Problem ist die Bewertung der Leistung. CUDA-Kernel sind hardware-spezifisch und leistungsentscheidend. Eine reine Bewertung auf Basis der funktionalen Korrektheit reicht nicht aus, da ein korrekt funktionierender Kernel oft erhebliche Performance-Einbußen im Vergleich zu optimierten Implementierungen aufweist. Zudem ist die reine Laufzeitmessung hardware-abhängig und erschwert den fairen Vergleich zwischen verschiedenen Plattformen. Es fehlte bisher an einem umfassenden Benchmark, der Text-zu-CUDA direkt adressiert, verschiedene Anwendungsbereiche abdeckt und hardware-unabhängige Leistungsmetriken nutzt.

2. Methodik: CUDABench

Das Paper stellt CUDABench vor, einen umfassenden Benchmark zur systematischen Evaluierung von LLMs bei der Text-zu-CUDA-Generierung. Die Methodik gliedert sich in drei Hauptkomponenten:

A. CUDABench-Set (Der Datensatz)

Der Datensatz definiert einen dreidimensionalen Evaluierungsraum (Breadth-Depth-Difficulty):

Breadth (Breite): Abdeckung von sechs repräsentativen Domänen:
1. Fundamentale Lineare Algebra (z. B. GEMM).
2. Deep-Learning-Operatoren (Aktivierungsfunktionen, Loss-Funktionen, Optimierer).
3. Computer Vision & Bildverarbeitung (2D/3D).
4. Datenanalyse (Sortierung, Histogramme, Scan-Algorithmen).
5. Signalverarbeitung (FIR-Filter, Wavelets).
6. Wissenschaftliche Simulation & Finanzen (Monte-Carlo, PDE-Löser, Black-Scholes).
  Umfang: 1.500 Prompts basierend auf 500 Aufgaben, abgeleitet von Open-Source-CUDA-Codebasen.
Depth (Tiefe): Hierarchisches Design der Eingabegrößen (von „Tiny" bis „Huge", ca. 1 KB bis >1 GB), um Produktionsumgebungen und Hardware-Stress zu simulieren. Jeder Eingabeskalierung entspricht eine dedizierte Referenz-Implementierung.
Difficulty (Schwierigkeit): Drei Prompt-Level, die den Kontext schrittweise reduzieren:
- Level 1 (Guided Implementation): Detaillierte Algorithmenbeschreibung und CUDA-Richtlinien.
- Level 2 (Algorithmic Specification): Nur Algorithmenbeschreibung, keine hardware-spezifischen Hinweise.
- Level 3 (Concept Retrieval): Nur der Aufgabename (Zero-Shot), erfordert internes Abrufen von Domänenwissen.

B. Generative Verification Pipeline

Ein vollautomatischer End-to-End-Prozess zur Validierung:

Daten-Generator: Erzeugt zufällige Eingabedaten und Referenz-Ausgaben.
Validator: Kompiliert den generierten Kernel (NVCC), führt ihn aus und vergleicht die Ergebnisse mit der Referenz (Funktionalitätstest).
Performance-Profiling: Nutzt NVIDIA Nsight Compute zur Messung von FLOPs, Datenvolumen und Ausführungszeit.

C. CUDABench-Score (Die Metrik)

Statt nur die Laufzeit zu messen, wird ein roofline-basierter Metrikansatz verwendet, der hardware-unabhängig ist:

Performance-Score: Verhältnismäßigkeit der erreichten Leistung zur theoretisch erreichbaren Leistung (basierend auf dem Roofline-Modell).
- Formel: $Performance\text{-}Score = \frac{\text{Erreichte GFLOPs/sec}}{\text{Erreichbare GFLOPs/sec}}$ .
- Dies normalisiert Unterschiede zwischen Speicherbandbreite (Memory-Bound) und Rechenleistung (Compute-Bound).
CUDABench-Score: Ein aggregierter Skalarwert, der Kompilierungserfolg, funktionale Konsistenz und den Performance-Score kombiniert:
$CUDABench\text{-}Score = \frac{1}{N} \sum [ \mathbb{1}(\text{Kompilierung} \land \text{Funktion}) \times \text{Performance-Score} ]$

3. Wichtige Beiträge

CUDABench-Set: Erstellung des ersten umfassenden Text-zu-CUDA-Datensatzes mit einer 3D-Evaluierungsstruktur (Domänen, Skalierung, Schwierigkeitsgrad).
Generative Verification Pipeline & CUDABench-Score: Einführung einer strengen, ausführungsbasierten Validierung und einer neuen, hardware-unabhängigen Leistungsmetrik, die über reine Laufzeit hinausgeht.
Umfassende Evaluierung: Systematische Analyse des Zustands der Technik (SOTA) bei LLMs im Kontext von CUDA-Generierung.

4. Ergebnisse und Erkenntnisse

Die Evaluierung führender Modelle (GPT-5.2, Claude 4.5 Sonnet, Gemini 3, DeepSeek-V3.2, etc.) auf NVIDIA A40 und RTX 4090 GPUs ergab folgende Schlüsselerkenntnisse:

Hohe Kompilierung, niedrige Funktionalität: Es besteht eine signifikante Diskrepanz zwischen syntaktischer Korrektheit (hohe Kompilierungsraten, oft >90%) und semantischer Korrektheit. Funktionale Fehler sind die Hauptursache für das Scheitern. Modelle beherrschen die Syntax, scheitern aber oft an komplexer Semantik wie Thread-Synchronisation oder Speicher-Grenzfällen.
Mangel an Domänenwissen: Bei Level 3 (Zero-Shot) bricht die Performance aller Modelle drastisch ein. Dies zeigt, dass LLMs kein tiefes, spezifisches Wissen über CUDA-Implementierungsmuster oder spezialisierte Algorithmen (z. B. in der Finanzmathematik oder Signalverarbeitung) besitzen.
Suboptimale Hardware-Nutzung: Selbst die besten Modelle erreichen nur etwa 40% der theoretisch möglichen Hardware-Leistung (Performance-Score). Dies deutet darauf hin, dass LLMs zwar korrekten Code generieren, aber keine hardware-spezifischen Optimierungen (z. B. Speicheroptimierung, Block-Strategien) effektiv anwenden können.
Hardware-Unabhängigkeit: Der CUDABench-Score zeigte auf verschiedenen GPUs (A40 vs. RTX 4090) konsistente Ergebnisse, was die Robustheit der Metrik bestätigt.

5. Bedeutung

CUDABench legt den Grundstein für die Forschung zur automatisierten Generierung von CUDA-Kerneln. Es identifiziert klar, dass aktuelle LLMs zwar allgemeine Code-Generierung beherrschen, aber für hochleistungsfähige GPU-Programmierung noch erhebliche Lücken in Bezug auf funktionalen Tiefgang, Domänenwissen und Hardware-Awareness aufweisen. Der Benchmark bietet eine standardisierte Basis, um zukünftige Modelle zu trainieren und zu evaluieren, um die Lücke zwischen generiertem Code und produktionsreifer, hochperformanter GPU-Software zu schließen.