GPU Acceleration and Portability of the TRIMEG Code for… — Explication vulgarisée

La vue d'ensemble : Cuisiner une tempête cosmique

Imaginez essayer de prédire la météo à l'intérieur d'une étoile. Dans le monde réel, nous ne pouvons pas simplement planter un thermomètre à l'intérieur du soleil ou d'un réacteur de fusion ; c'est trop chaud et chaotique. Au lieu de cela, les scientifiques utilisent des super-ordinateurs pour exécuter des « simulations virtuelles » de plasma (un gaz surchauffé et électriquement chargé).

Le code TRIMEG est une recette spécifique et très sophistiquée pour simuler ce plasma. Il suit des milliards de petites particules (comme des grains de sable individuels dans une tempête) pour voir comment elles tourbillonnent, s'entrechoquent et créent de la turbulence. Le problème ? Cette recette est incroyablement lourde. L'exécuter sur un ordinateur standard (CPU) revient à essayer de déplacer une montagne avec une seule cuillère. Cela prend trop de temps.

L'objectif : L'auteur, Giorgio Daneri, voulait accélérer cela en utilisant des GPU (processeurs graphiques). Considérez le CPU comme un chef étoilé unique qui est très intelligent mais qui ne peut couper qu'un seul légume à la fois. Un GPU est comme une cuisine avec 10 000 sous-chefs qui peuvent tous couper des légumes simultanément. La thèse consiste à comprendre comment faire fonctionner la recette de ce chef unique parfaitement avec une armée de 10 000 sous-chefs, et ce, d'une manière qui fonctionne pour deux marques de cuisines différentes (NVIDIA et AMD).

Le défi : Le problème du « traducteur universel »

L'auteur a choisi un outil appelé OpenMP pour effectuer la traduction. Considérez OpenMP comme un traducteur universel qui dit à l'ordinateur : « Hé, prends cette partie de la recette et donne-la au GPU ».

Cependant, l'auteur a rencontré deux obstacles majeurs :

Le bug du « compilateur » : Le logiciel qui traduit le code (le compilateur) n'était pas parfait. C'était comme essayer d'utiliser un traducteur universel qui oublie parfois comment dire « sel » ou « chaleur ». L'auteur a dû réécrire certaines parties du code pour s'adapter aux caprices du traducteur. Par exemple, le code utilisait le « polymorphisme » avancé (une façon sophistiquée de désigner des objets capables de changer de forme ou d'identité). Les traducteurs (compilateurs) pour les GPU ne comprenaient pas ce changement de forme, l'auteur a donc dû aplatir ces formes en boîtes rigides pour les faire fonctionner.
Le « bouchon de circulation » : Déplacer des données entre l'ordinateur principal (CPU) et le GPU (les sous-chefs) est lent. Si vous vous arrêtez sans cesse pour transmettre les ingrédients d'avant en arrière, les sous-chefs restent inactifs. L'auteur a dû restructurer le code pour que tous les ingrédients soient déplacés vers le GPU une seule fois au début, plutôt que de les faire transiter constamment de l'un à l'autre.

La solution : Restructurer la cuisine

Pour que le code fonctionne sur les GPU NVIDIA et AMD, l'auteur a dû effectuer une « chirurgie » sur le code TRIMEG :

Aplatir la carte : Le code utilisait une carte complexe pour localiser les particules. Cette carte était comme un classeur désordonné. L'auteur l'a aplatie en une liste simple et droite pour que le GPU puisse la lire instantanément sans se perdre.
Corriger la « course » : Parfois, quand des milliers de sous-chefs essaient d'écrire sur le même tableau blanc en même temps, ils écrivent les uns sur les autres (une « condition de course » ou race condition). L'auteur a identifié les endroits où le code faisait cela et l'a corrigé pour que chacun écrive dans sa propre voie.
Le compromis « taille unique » : Comme les deux marques de GPU (NVIDIA et AMD) parlent des langages légèrement différents, l'auteur a dû créer une version unique du code qui fonctionne pour les deux, même si cela impliquait d'utiliser certains « contournements » (comme utiliser un type spécifique d'allocation de mémoire qui fonctionne pour les deux, même si ce n'est pas l'absolu le plus rapide pour l'un d'eux).

Les résultats : Est-ce que ça a marché ?

L'auteur a testé la nouvelle version GPU par rapport à l'ancienne version CPU en utilisant deux « cas de test » célèbres (comme des tests de conduite standards pour une nouvelle voiture) :

Le cas du Cyclone : Une simulation simplifiée de la turbulence du plasma.
Le cas TCV-X21 : Une simulation plus complexe et réaliste impliquant le bord du plasma.

Le verdict :

Vitesse : La version GPU était nettement plus rapide. Dans certains tests, elle était presque 30 fois plus rapide que la version CPU sur une seule machine.
Précision : Les résultats du GPU correspondaient presque parfaitement aux résultats du CPU. Les « modèles météorologiques » (croissance de l'énergie et structures de turbulence) étaient identiques.
Portabilité : Le code a réussi à s'exécuter sur les matériels NVIDIA et AMD sans nécess avoir besoin d'être complètement réécrit pour chacun.

Le bémol (Limites)

L'auteur est honnête sur les limites :

Le « Traducteur » n'est pas encore parfait : Les compilateurs (les logiciels qui transforment le code en langage machine) pour ces GPU sont encore en phase de maturation. Parfois, ils produisent des résultats mathématiques légèrement différents du CPU, ce qui peut causer de minuscules erreurs au fil du temps.
Incompatibilité matérielle : Si vous avez un ordinateur avec beaucoup de cœurs CPU mais un seul GPU, le GPU peut être submergé si vous essayez de lui donner trop de tâches à la fois. L'auteur a constaté que pour obtenir les meilleurs résultats, il faut équilibrer le nombre de « chefs » (processus MPI) par rapport au nombre de « sous-chefs » (threads GPU) disponibles.
Pas de « remède miracle » : Bien que la partie de déplacement des particules du code ait bénéficié d'un gain de vitesse massif, d'autres parties de la simulation (comme la résolution des équations du champ magnétique) s'exécutent toujours sur le CPU car les outils pour déplacer ces parties spécifiques vers le GPU ne sont pas encore prêts.

Résumé

En bref, cette thèse est l'histoire d'une ingéniosité technique. L'auteur a pris un code de simulation lourd, lent et complexe et a réussi à lui apprendre à fonctionner sur des cartes graphiques modernes et puissantes. Il a navigué dans un champ de mines de bugs logiciels et de limitations de compilateurs pour créer une version qui fonctionne sur deux types de matériel différents, prouvant que nous pouvons simuler le plasma de fusion beaucoup plus rapidement sans perdre en précision. C'est une étape cruciale pour rendre la recherche sur l'énergie de fusion plus efficace, bien que le voyage vers une traduction parfaite et totalement automatisée ne soit pas encore terminé.

Résumé technique : Accélération par GPU et portabilité du code TRIMEG pour les simulations de plasma gyrocinétique via OpenMP

Énoncé du problème
Les simulations de physique des plasmas, en particulier les modèles gyrocinétiques utilisés pour étudier les instabilités et la turbulence dans les dispositifs de fusion tokamak, sont extrêmement gourmandes en calculs. Le code TRIMEG, un solveur particule-dans-cellule (PIC) de haute précision utilisant une méthode d'éléments finis C1 sur des maillages triangulaires non structurés, est confronté à des défis importants de temps d'exécution en raison du nombre massif de particules (souvent de l'ordre de $10^7$ à $10^8$ ) nécessaires pour des simulations réalistes. Bien que le code utilise déjà MPI pour le parallélisme multi-nœuds, le "pushing" des particules et les opérations de grille vers particule (G2P) constituent le goulot d'étranglement principal, consommant jusqu'à 80 % du temps d'exécution total. Le défi consiste à accélérer ces "points chauds" spécifiques à l'aide de processeurs graphiques (GPU) tout en maintenant la portabilité entre différentes architectures matérielles (spécifiquement NVIDIA et AMD) et en préservant la structure complexe orientée objet du code, qui inclut le polymorphisme et les types dérivés.

Méthodologie
L'étude se concentre sur le portage du code TRIMEG vers des architectures GPU en utilisant l'API de déchargement (offloading) OpenMP (version 4.0 et ultérieures). La méthodologie a consisté en :

Sélection de la cible : Le noyau de "particle pusher" et les opérations G2P associées (pullback, calcul de densité et interpolation de la fonction de distribution) ont été identifiés comme les cibles principales pour le déchargement en raison de leur intensité arithmétique élevée et de l'absence de dépendances entre les particules.
Restructuration du code pour la portabilité : Une restructuration significative était nécessaire pour surmonter les limitations des compilateurs tant pour amdflang (AMD) que pour nvfortran (NVIDIA). Les principaux défis incluaient :
- Polymorphisme : Les deux compilateurs éprouvaient des difficultés avec les types dérivés class() et les procédures liées aux types. La solution a consisté à refondre le code pour utiliser des déclarations de type type() non polymorphes lorsque cela était possible et à implémenter un contournement pour les dépendances circulaires entre les classes de particules et de champs en utilisant des hiérarchies de classes de base/étendues et des directives Fortran INCLUDE pour dupliquer les corps de fonctions.
- Tableaux dynamiques : Le code utilisait une bibliothèque personnalisée imitant les vecteurs C++ pour les tableaux dynamiques. Comme les noyaux GPU ne peuvent pas gérer facilement l'allocation dynamique ou les indirections de pointeurs complexes, la structure de mappage entre les boîtes englobantes (bounding boxes) et les triangles du maillage a été "aplatie", passant d'un tableau de structures à des tableaux 1D pour faciliter les transferts de mémoire efficaces.
- Gestion de la mémoire : Une allocation préemptive de la mémoire a été mise en œuvre lors de la phase d'initialisation afin de minimiser la latence au runtime. Pour les plateformes AMD, la mémoire partagée unifiée (USM) a été exploitée lorsque cela était possible, tandis que des directives explicites enter data, update et exit data ont été utilisées pour les plateformes NVIDIA dépourvues de support USM.
- Cohérence numérique : Pour garantir que les résultats GPU correspondent à la référence CPU, les optimisations du compilateur modifiant l'arithmétique en virgule flottante (telles que les instructions Fused-Multiply-Add) ont été désactivées (-ffp-contract=off pour AMD, -Mnofma pour NVIDIA). Les conditions de concurrence (race conditions) dans la bibliothèque de B-splines externe ont été résolues en passant de membres d'objets partagés à des tableaux automatiques déclarés localement.
Évaluation des performances : L'implémentation a été testée sur les clusters Viper (AMD MI300A), Raven (NVIDIA A100) et Pitagora (NVIDIA H100). Les performances ont été évaluées via :
- Profilage des noyaux : Utilisation de rocprof-compute et nsys pour analyser l'occupation des ressources, la bande passante mémoire et les mélanges d'instructions.
- Études de mise à l'échelle (scalability) : Des tests de mise à l'échelle forte ont été menés pour évaluer l'efficacité du mode hybride MPI-OpenMP offloading, en examinant spécifiquement l'impact de la sur-souscription (oversubscribing) des GPU avec plusieurs processus MPI.
- Exploration de la taille de la grille : Réglage du nombre d'équipes OpenMP et de threads par équipe pour maximiser l'utilisation du matériel.

Contributions clés

Premier port cross-vendor : Ce travail présente un effort pionnier pour porter un code de gyrocinétique Fortran complexe et orienté objet vers des GPU NVIDIA et AMD via un code source unique utilisant OpenMP offloading.
Contournements de compilateur : La thèse documente des solutions de contournement spécifiques et non triviales aux limitations des compilateurs concernant le polymorphisme, les tableaux dynamiques et les pointeurs de procédures dans les régions cibles OpenMP. Elle souligne l'absence de documentation complète pour nvfortran et amdflang concernant ces fonctionnalités.
Analyse de la parallélisation hybride : L'étude fournit une analyse détaillée des compromis du MPI-OpenMP offloading hybride, démontrant que si l'accélération GPU est efficace pour le "particle pusher", l'absence de multithreading OpenMP dans le code original nécessite une sur-souscription, ce qui peut limiter la scalabilité sur des nœuds possédant un grand nombre de cœurs mais des ressources GPU limitées.
Vérification numérique : L'implémentation inclut un processus de vérification rigoureux comparant les taux de croissance d'énergie et les structures de modes 2D avec les résultats CPU, confirmant que la version GPU reproduit la physique avec une grande fidélité malgré de mineures déviations numériques causées par la gestion de la virgule flottante spécifique aux compilateurs.

Résultats

Accélération (Speedup) : Pour une charge de travail réaliste de $32 \times 10^6$ électrons, l'implémentation GPU a atteint une accélération d'environ 14,8x sur le nœud AMD Viper et 29,6x sur le nœud NVIDIA Pitagora par rapport à la version CPU compilée avec GCC sur le cluster TOK.
Efficacité des noyaux : Le noyau du "particle pusher" a représenté la majorité du temps d'exécution. Le profilage sur l'AMD MI300A a montré une intensité arithmétique élevée avec des taux de succès L1/L2 de plus de 80 %, bien que seulement 18 % des accès mémoire aient été coalescés.
Limitations de scalabilité : Les tests de mise à l'échelle forte ont révélé que, bien que la partie accélérée par GPU passe bien à l'échelle, l'accélération globale de l'application est contrainte par les parties non accélérées (ex: solveurs de champs utilisant PETSc) et par l'overhead de la sur-souscription des GPU. Sur le cluster NVIDIA Pitagora, le support multi-GPU via OpenMP s'est avéré non fonctionnel dans la version du compilateur testée (nvfortran 24.9), limitant la capacité d'utiliser simultanément tous les GPU disponibles sur un nœud.
Correctitude : Les simulations du cas Cyclone (mode ITG) et du cas TCV-X21 (instabilité ITG non linéaire) ont confirmé que la version GPU reproduit correctement les taux de croissance d'énergie et les structures de modes observés dans la version CPU, les différences étant attribuées à l'initialisation du générateur de nombres aléatoires et aux variations de virgule flottante spécifiques au compilateur plutôt qu'à des erreurs algorithmiques.

Signification et affirmations
L'article affirme que, bien que l'OpenMP offloading offre une voie prometteuse pour la portabilité entre différentes architectures HPC, il ne s'agit pas d'une solution "transparente" pour les codes hérités (legacy) complexes. Ce travail démontre que parvenir à une version GPU performante et fonctionnelle nécessite une exploration approfondie des compilateurs et une restructuration importante du code pour contourner les limitations actuelles du support des fonctionnalités avancées de Fortran.

Les auteurs soulignent que le succès de cette portabilité dépend fortement de la version spécifique du compilateur plutôt que du seul paradigme de programmation. Ils concluent que l'implémentation GPU de TRIMEG est un outil fonctionnel et précis pour les simulations de gyrocinétique, capable de délivrer des accélérations substantielles pour les parties les plus coûteuses en calcul. Cependant, ils notent modestement que le plein potentiel du matériel (particulièrement les nœuds multi-GPU) est actuellement entravé par l'immaturité du support des compilateurs pour le déchargement multi-dispositifs et par l'absence de multithreading OpenMP dans la structure du code CPU sous-jacent. Le travail sert de guide pratique et de "documentation de substitution" pour d'autres tentant des ports similaires de codes Fortran complexes vers des architectures hétérogènes.

GPU Acceleration and Portability of the TRIMEG Code for Gyrokinetic Plasma Simulations using OpenMP