Challenges and Design Considerations for Finding CUDA Bugs Through GPU-Native Fuzzing

Each language version is independently generated for its own context, not a direct translation.

De Onzichtbare Klap in de Supercomputer: Waarom we GPU-bugs anders moeten zoeken

Stel je voor dat de wereld van computers net als een enorm, supermodern restaurant is. Vroeger draaide alles om de CPU (de hoofdkok). Die kok is al decennialang getraind, heeft een strakke keuken, en er zijn strenge regels om te voorkomen dat hij vergiftig eten serveert of de keuken in brand steekt.

Maar nu is het menu veranderd. Voor de zwaarste taken – zoals het trainen van slimme AI's of het simuleren van het weer – hebben we GPU's nodig. Een GPU is niet zomaar een kok; het is een leger van duizenden kleine, razendsnelle koks die allemaal tegelijk een klein stukje van het gerecht klaarmaken.

Het probleem? Terwijl de hoofdkok (CPU) al jaren veilig is, is het leger van GPU-koks nog een wildernis. Ze werken in een heel ander taalgebruik, met andere regels, en hun "keuken" is nog niet veilig gemaakt.

Het Grote Misverstand: De Vertaalman

Tot nu toe hebben beveiligingsexperts geprobeerd deze GPU-koks veilig te maken door hun werk te vertalen naar de taal van de hoofdkok (de CPU). Ze zeggen: "Laten we het GPU-recept op de CPU-kok laten nabakken om te zien of het veilig is."

De auteurs van dit paper zeggen: "Dat werkt niet!"

Het is alsof je probeert te testen of een Formule 1-auto veilig is door hem op een loopband in een garage te zetten. Je ziet misschien dat de wielen draaien, maar je ziet niet hoe de auto reageert op een bocht op 300 km/uur. Door de vertaling verlies je de unieke eigenschappen van de GPU. Bugs die alleen op de GPU voorkomen, blijven onzichtbaar.

De Oplossing: Ga direct naar de bron

De auteurs stellen een nieuwe aanpak voor: GPU-Native Fuzzing.

In plaats van te vertalen, gaan ze rechtstreeks naar de GPU-koks om te testen. Ze noemen dit "Fuzzing". Stel je voor dat je een testkeuken hebt waar je duizenden malen per seconde een gerecht probeert te maken, maar je gebruikt raar, gekke ingrediënten om te kijken of de keuken in brand vliegt of dat er gif in het eten komt.

Ze hebben echter vier grote obstakels moeten overwinnen om dit op de GPU te laten werken:

Geen Veiligheidscontrole (Sanitization): Op de CPU is er een "veiligheidscontrole" die ziet als iemand per ongeluk in de verkeerde koelkast grijpt. Op de GPU ontbreekt dit. De auteurs bouwen nu een eigen veiligheidscontrole die direct op de GPU werkt, zodat ze elk foutje direct zien.
De Juiste Ingrediënten (Mutation): Als je een computerprogramma test, moet je de invoer (de ingrediënten) veranderen. Maar op de GPU werkt dit anders. Als je een getal verandert, moet je weten of het een heel groot getal is, een klein decimaal getal, of een lijst. De auteurs hebben een slimme methode bedacht om precies die "raarste" ingrediënten te kiezen die de GPU-koks het meest verwarren.
De Kaart van de Keuken (Coverage Tracking): Je wilt weten welke hoekjes van de keuken je al hebt gecontroleerd. Op de GPU is het moeilijk om te zien welke deuren je hebt geopend. Ze bouwen nu een systeem dat elke stap die de GPU-koks zetten, in kaart brengt.
De Context (Harnas): Om een GPU-kok aan het werk te zetten, moet je eerst de hele keuken opstarten (elektriciteit, koeling, etc.). Dit kost veel tijd. De auteurs hebben een slimme truc bedacht: ze starten de keuken maar één keer op, en testen dan duizenden variaties van het gerecht voordat ze de keuken weer afsluiten. Dit bespaart enorm veel tijd.

Wat hebben ze ontdekt?

Ze hebben dit systeem getest op de beroemde "cuBLAS" bibliotheek van NVIDIA (een standaardset gerechten voor GPU's). Het resultaat was schokkend: zelfs met de beste standaardtesten werden er maar 26% van de mogelijke situaties in de code getest. Dat betekent dat er 74% van de keuken nog nooit is gecontroleerd op brandgevaar.

Waarom is dit ethisch belangrijk?

De auteurs zeggen dat het een morele plicht is van ontwikkelaars om deze systemen veilig te maken. Vandaag de dag draait de hele wereld op deze GPU's: van medische onderzoeken tot zelfrijdende auto's en AI. Als we deze systemen niet veilig testen, riskeren we dat hackers toegang krijgen tot onze data, of dat AI-systemen gedrag vertonen dat niemand had voorspeld.

Kortom: We kunnen niet langer doen alsof GPU's gewoon kleine CPU's zijn. We moeten de GPU's respecteren zoals ze zijn, en hen testen in hun eigen, chaotische, maar razendsnelle wereld. Alleen zo kunnen we voorkomen dat de toekomst van technologie op een instabiele basis staat.

Challenges and Design Considerations for Finding CUDA Bugs Through GPU-Native Fuzzing

Het Grote Misverstand: De Vertaalman

De Oplossing: Ga direct naar de bron

Wat hebben ze ontdekt?

Waarom is dit ethisch belangrijk?

Probleemstelling: Het Veiligheidsgat in Heterogene Systemen

Methodologie: GPU-Native Fuzzing Pipeline

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Challenges and Design Considerations for Finding CUDA Bugs Through GPU-Native Fuzzing

Het Grote Misverstand: De Vertaalman

De Oplossing: Ga direct naar de bron

Wat hebben ze ontdekt?

Waarom is dit ethisch belangrijk?

Probleemstelling: Het Veiligheidsgat in Heterogene Systemen

Methodologie: GPU-Native Fuzzing Pipeline

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities