Efficient Coupled-Cluster Python Frameworks for Next-Generation GPUs: A Comparative Study of CuPy and PyTorch on the Hopper and Grace Hopper Architecture

Deze studie introduceert nieuwe batching-algoritmen voor efficiënte CCSD-implementaties op GPU's, waarbij een vergelijking van CuPy en PyTorch op NVIDIA Hopper- en Grace Hopper-architecturen een tot wel 16-voudige versnelling toont ten opzichte van eerdere hybride GPU-CPU-methoden.

Oorspronkelijke auteurs: Antonina Dobrowolska, Julian Swierczynski, Paweł Tecmer, Emil Sujkowski, Somayeh Ahmadkhani, Grzegorz Mazur, Klemens Noga, Jeff Hammond, Katharina Boguslawski

Gepubliceerd 2026-03-24
📖 5 min leestijd🧠 Diepgaand

Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

🚀 De Superkracht van de GPU: Hoe we Chemische Berekeningen 10x Sneller Maken

Stel je voor dat je een gigantische puzzel moet oplossen. Deze puzzel is zo groot dat hij de vloer van een hele sportschool beslaat. In de chemie noemen we dit het berekenen van hoe elektronen zich gedragen in een molecuul (zoals water of een medicijn). Dit heet CCSD (een ingewikkelde manier om de energie van een molecuul te voorspellen).

Vroeger deden we dit met een CPU (de standaardprocessor in je computer). Dat is als een slimme, maar alleenstaande meester-puzzelaar. Hij is goed, maar hij kan maar één stukje tegelijk doen. Het duurt eeuwen om de hele puzzel te leggen.

Vandaag de dag gebruiken we GPU's (de krachtige grafische kaarten die ook in gaming-computers zitten). Een GPU is niet één meester, maar een heel leger van duizenden kleine, snelle puzzelaars die allemaal tegelijk werken. Dat is veel sneller! Maar er is een probleem: de tafel is te klein.

🪑 Het Probleem: De Te Kleine Tafel

De GPU heeft een heel snelle, maar kleine werkruimte (geheugen of VRAM). Als de puzzelstukken (de data) te groot zijn, past de hele puzzel niet op die tafel. Je moet dan stukjes van de puzzel op de grond leggen (in het langzamere geheugen van de CPU) en ze één voor één naar de tafel slepen. Dat slepen kost tijd en vertraagt alles.

In het verleden (met oudere kaarten zoals de V100) moesten we de puzzel in heel kleine stukjes hakken om ze op de tafel te krijgen. Dat was traag.

💡 De Oplossing: Slimmer Snijden en Nieuwe Tafels

De auteurs van dit artikel hebben twee dingen gedaan om dit probleem op te lossen:

  1. Nieuwe Tafels (De Hardware): Ze hebben gebruikgemaakt van de allernieuwste en krachtigste tafels van NVIDIA: de H100 en de GH200.

    • De H100 is een enorme, snelle tafel.
    • De GH200 is nog specialer: het is een "Superchip" waarbij de CPU (de planner) en de GPU (de uitvoerders) direct aan elkaar zijn gekoppeld via een supersnel kabeltje (NVLink). Het is alsof de planner en de puzzelaars in dezelfde kamer zitten in plaats van in verschillende gebouwen. Er is geen tijd meer verloren aan het heen en weer lopen.
  2. Nieuwe Snijmethodes (De Software): Ze hebben twee slimme manieren bedacht om de grote puzzel in stukken te hakken die precies op de tafel passen:

    • De "C-split" methode: In plaats van de puzzel willekeurig te hakken, kijken ze precies naar de vorm van de stukken. Ze snijden op de slimste plekken, zodat ze minder tijd kwijt zijn aan het slepen van stukjes. Het is alsof je een taart niet in vierkante blokjes snijdt, maar in stukken die precies in je bord passen.
    • De "Generieke" methode: Een universele snijmethode die werkt voor elke soort puzzel, niet alleen voor de grootste stukken.

🥊 De Wedstrijd: CuPy vs. PyTorch

De onderzoekers wilden weten welke software het beste werkt om deze puzzels op de GPU te leggen. Ze hebben twee populaire "bestuurders" (bibliotheken) getest:

  • CuPy: Een tool die eruitziet als de standaard Python, maar dan super snel op de GPU.
  • PyTorch: Een tool die vooral bekend is van kunstmatige intelligentie (AI), maar ook heel goed is in rekenen.

De Uitslag:

  • Op de H100 (de snelle tafel) was PyTorch ongeveer 20% sneller dan CuPy. Het lijkt erop dat PyTorch beter kan "multitasken" en de tijd die verloren gaat aan het slepen van data (PCIe-overhead) beter verbergt.
  • Op de GH200 (de superchip) deden ze het even goed. Omdat de verbinding tussen CPU en GPU hier zo snel is, maakt het minder uit welke bestuurder je gebruikt.

🏆 Het Resultaat: Een Wereldrecord

Wat hebben ze bereikt?

  • 10x Sneller: In vergelijking met hun oude versie (die nog op de oudere V100-kaarten draaide), zijn ze nu 10 keer sneller.
  • Grootere Puzzels: Ze kunnen nu moleculen berekenen met meer dan 1000 basisfuncties. Dat was voorheen onmogelijk op één enkele GPU omdat de puzzelstukken simpelweg te groot waren voor het geheugen.
  • Efficiëntie: Voor sommige grote moleculen (zoals de L0-klankstof) is de berekening op de GH200 60% sneller dan op de H100, dankzij de enorme hoeveelheid geheugen en de snelle verbinding.

🎯 Conclusie in het Kort

Dit onderzoek laat zien dat we door slimme software (nieuwe snijmethodes) en de allernieuwste hardware (de GH200) chemische berekeningen die vroeger dagen duurden, nu in minuten kunnen doen.

Het is alsof we van een fiets met een versleten band (oude CPU/GPU) zijn gestapt op een Formule 1-auto (nieuwe GPU + slimme software). En het beste van alles? Ze hebben een systeem gebouwd dat automatisch de beste "motor" (CuPy of PyTorch) kiest, afhankelijk van hoe groot de puzzel is en welk voertuig je gebruikt.

Wat betekent dit voor de wereld?
Dit betekent dat wetenschappers sneller nieuwe medicijnen kunnen ontwerpen, betere materialen kunnen vinden en complexere klimaatmodellen kunnen maken, allemaal omdat ze de puzzel van de natuur sneller oplossen.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →