CUCo: An Agentic Framework for Compute and Communication Co-design

CUCo is een trainingsvrije, agentgestuurde workflow die automatisch hoogpresterende CUDA-kernen genereert door berekening en communicatie gezamenlijk te optimaliseren, waardoor de eind-tot-eind latentie met maximaal 1,57 keer wordt verlaagd.

Bodun Hu, Yoga Sri Varshan, Saurabh Agarwal, Aditya Akella

Gepubliceerd 2026-03-04
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorm groot puzzelstuk moet maken, maar je hebt twee verschillende teams nodig: Team Rekenen (de GPU's die de zware wiskunde doen) en Team Boodschappen (de netwerkverbindingen die data tussen de GPU's vervoeren).

In het verleden werkten deze twee teams als twee totaal gescheiden afdelingen in een fabriek.

  1. Team Rekenen deed zijn werk.
  2. Dan stopte alles.
  3. Team Boodschappen kwam langs, haalde de data op, bracht het naar de volgende GPU en gaf een seintje.
  4. Pas toen mocht Team Rekenen weer verder.

Dit "stop-en-start" ritme is heel inefficiënt. Het is alsof je een auto rijdt, maar elke 100 meter moet stoppen om de brandstof te tanken, terwijl de motor uit staat. De auto (de GPU) staat vaak stil terwijl de tankwagen (het netwerk) langskomt.

Het probleem: De "Handmatige" Oplossing is te moeilijk

Om dit op te lossen, willen programmeurs deze twee teams laten samensmelten. Ze willen dat de GPU terwijl hij rekent, ook al data opstuurt. Dit heet "Compute-Communication Co-design".

Het probleem is echter dat dit schrijven van computercode (CUDA-kernels) extreem moeilijk is. Het is als proberen een heel complex orkest te dirigeren waarbij je tegelijkertijd de muziek moet componeren én de instrumenten moet stemmen. Als je één foutje maakt, stopt de hele machine. Tot nu toe moesten mensen dit handmatig doen, wat jaren kost en vol fouten zit.

De Oplossing: CUCo (De Slimme Agent)

De auteurs van dit paper hebben CUCo bedacht. Je kunt CUCo zien als een super-slimme, geautomatiseerde architect die dit hele proces voor je regelt, zonder dat je zelf de code hoeft te schrijven.

CUCo werkt in twee fasen, net als het leren van een nieuwe vaardigheid:

1. De "Snelle Weg" (De Veilige Starter)

Stel je voor dat je een nieuwe taal leert. Je begint niet met poëzie schrijven, maar met simpele zinnen die zeker correct zijn.

  • De Snelle Agent van CUCo kijkt naar de oude, trage code.
  • Hij maakt een nieuwe versie die misschien niet supersnel is, maar wel 100% werkt.
  • Hij zorgt ervoor dat de data op het juiste moment wordt verstuurd en dat niemand in de war raakt.
  • Analogie: Het is alsof je eerst een veilige fietsroute bouwt waar niemand kan vallen, voordat je begint met racen.

2. De "Langzame Weg" (De Optimale Rennende)

Nu hebben we een werkend fundament. De Langzame Agent gaat nu op zoek naar de snelste manier om dit te doen.

  • Deze agent is als een evolutionaire bioloog. Hij maakt duizenden variaties van de code.
  • Hij probeert dingen zoals: "Wat als we de data in kleinere stukjes sturen?", "Wat als we de rekenopdrachten en het versturen door elkaar husselen?"
  • Hij test elke variant, kijkt welke het snelst is, en laat de langzamere versies "sterven".
  • Na veel iteraties vindt hij de perfecte, razendsnelle versie die precies past bij jouw specifieke computerhardware.

Waarom is dit zo speciaal?

Vroeger dachten computersystemen dat rekenen en communiceren twee aparte dingen waren. CUCo leert de computer om ze als één geheel te zien.

  • Vroeger: De CPU (het hoofd) moest constant tussen de GPU's (de spierballen) en het netwerk (de zenuwen) heen en weer lopen om instructies te geven. Dat kostte tijd.
  • Nu met CUCo: De GPU's praten direct met elkaar en met het netwerk, terwijl ze tegelijkertijd rekenen. De CPU hoeft niet meer tussenbeide te komen.

Het Resultaat

In de tests bleek dat CUCo de taken tot 1,57 keer sneller kon uitvoeren dan de oude methoden.

  • Bij het trainen van grote AI-modellen (zoals de modellen die dit gesprek mogelijk maken) betekent dit dat je minder tijd en minder geld kwijt bent.
  • Het is alsof je van een oude, trage trein overstapt op een hogesnelheidstrein die onderweg ook nog eens de lading kan lossen en laden zonder te stoppen.

Kortom: CUCo is een slimme robot die de moeilijke, saaie en foutgevoelige taak van het programmeren van deze complexe samenwerking overneemt, zodat AI-systemen sneller en efficiënter kunnen werken.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →