Enabling stable preservation of ML algorithms in… — Explication vulgarisée

Auteurs originaux : Andy Buckley, Louie Corpe, Martin Habedank, Tomasz Procter

Publié 2026-05-28

📖 4 min de lecture🧠 Analyse approfondie

Auteurs originaux : Andy Buckley, Louie Corpe, Martin Habedank, Tomasz Procter

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée ni approuvée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Imaginez que vous êtes un chef ayant créé une nouvelle recette révolutionnaire pour un plat aidant les scientifiques à comprendre l'univers. Vous avez noté cette recette dans un carnet très spécifique et complexe, que seul votre personnel de cuisine actuel (une version logicielle spécifique) peut lire.

Maintenant, imaginez que dans 10 ou 20 ans, la cuisine change. Le personnel part, le logiciel se met à jour, et ce carnet spécifique devient un charabia illisible. Si quelqu'un d'autre veut préparer ce plat pour vérifier vos résultats, il ne le peut pas. Il a perdu la recette.

C'est le problème auquel font face les scientifiques en physique des hautes énergies (HEP) avec l'apprentissage automatique (ML). Ils utilisent des « recettes » complexes (algorithmes) pour analyser les données provenant de collisionneurs de particules. Pendant longtemps, ces recettes n'étaient que des outils internes. Mais aujourd'hui, les recettes sont les résultats. Si les recettes ne peuvent plus être lues à l'avenir, la science ne peut plus être vérifiée.

Voici petrifyML.

Qu'est-ce que petrifyML ?

Considérez petrifyML comme une machine magique de traduction et de capsule temporelle. Son travail consiste à prendre ces recettes complexes, fragiles et spécifiques à un logiciel, et à les transformer en deux choses :

Un langage universel (ONNX) : C'est comme traduire votre recette dans un format que toutes les cuisines du monde, passées, présentes et futures, acceptent de comprendre. C'est le « PDF » du monde de l'apprentissage automatique.
Un anglais simple (code natif) : Il peut aussi réécrire la recette sous forme d'instructions simples et lisibles par un humain (code C++ ou Python) qui n'ont besoin d'aucun logiciel spécial pour s'exécuter. C'est comme écrire la recette sur un morceau de papier que n'importe qui peut lire, même sans ordinateur.

Comment cela fonctionne-t-il ?

L'article explique que les scientifiques utilisent actuellement différents « outils de cuisine » (paquets logiciels comme TMVA, scikit-learn, lwtnn) pour entraîner leurs modèles. Ces outils parlent souvent des dialectes différents ou dépendent d'équipements lourds et complexes qui pourraient disparaître à l'avenir.

petrifyML agit comme un pont :

Le traducteur : Il prend un modèle entraîné dans l'un de ces outils spécifiques et le convertit au format universel ONNX. Cela garantit que même si l'outil d'origine disparaît, le modèle peut toujours être « cuisiné » (exécuté) à l'aide d'outils standards et modernes.
Le scribe : Pour les modèles plus simples (comme les arbres de décision boostés), il ne se contente pas de traduire ; il réécrit toute la logique en code texte brut. C'est comme prendre une montre mécanique complexe et dessiner chaque engrenage et chaque ressort sur du papier. Vous n'avez plus besoin de la montre ; vous avez juste besoin du dessin pour la reconstruire. Cela garantit que le modèle fonctionnera exactement de la même façon pour toujours, sans avoir besoin de mises à jour logicielles spécifiques.

Pourquoi est-ce important ?

L'article met en avant plusieurs avantages clés :

Fin du « Ça marche sur ma machine » : Habituellement, si vous essayez d'exécuter un ancien modèle sur un nouvel ordinateur, il plante parce que les versions logicielles ne correspondent pas. petrifyML élimine cette dépendance.
Préparation pour l'avenir : En convertissant les modèles en ONNX ou en code brut, les scientifiques s'assurent que leur travail pourra être réinterprété dans des décennies. C'est comme préserver un document non pas sur une disquette (qui pourrait se détériorer), mais sur du papier sans acide ou selon un standard numérique universel.
Efficacité : L'article a testé cet outil et a constaté qu'il fonctionne rapidement et n'utilise pas beaucoup de mémoire informatique. Les fichiers convertis sont souvent plus petits que les originaux, ce qui les rend faciles à stocker et à partager.

La vérification de « validation »

Les auteurs précisent soigneusement : « Vous donner simplement la recette traduite ne suffit pas ; nous devons nous assurer qu'elle a le même goût. »
Ainsi, petrifyML inclut un « test de goût » intégré. Lorsqu'il convertit un modèle, il génère automatiquement un script qui exécute la nouvelle version et la compare à l'ancienne pour s'assurer qu'elles produisent exactement les mêmes résultats. S'il y a même la moindre différence, l'utilisateur sait que quelque chose s'est mal passé.

En résumé

petrifyML est un outil conçu pour sauver les « recettes » de la physique des particules d'une perte due au temps. Il prend des modèles d'apprentissage automatique complexes et dépendants du logiciel, et les transforme soit en un format standard universel, soit en un code simple et lisible par un humain. Cela garantit que les découvertes scientifiques faites aujourd'hui pourront être vérifiées, comprises et approuvées par les scientifiques dans 50 ans, quelle que soit la technologie existante à cette époque.

Résumé technique : Permettre la préservation stable des algorithmes d'apprentissage automatique en physique des hautes énergies avec petrifyML

Énoncé du problème
L'apprentissage automatique (ML) en physique des hautes énergies (HEP) a évolué d'un outil interne pour l'étalonnage et la reconstruction vers un composant central, non paramétrique, de l'analyse des données physiques. Bien que ce changement améliore la sensibilité aux nouveaux modèles de physique, il introduit des défis majeurs pour la reproductibilité scientifique. Les algorithmes ML actuels sont généralement entraînés et déployés à l'aide d'outils basés sur Python (par exemple, TMVA, scikit-learn, lwtnn) qui souffrent d'instabilité des versions, de dépendances lourdes (notamment le framework ROOT) et d'incompatibilités de formats.

Les stratégies de préservation existantes font face à des limitations :

Fichiers Pickle/Joblib : Fortement dépendants des versions et instables dans le temps ; non adaptés à une préservation à long terme sans conteneurisation complète.
Format ONNX : Bien que standard industriel, de nombreux outils spécifiques à la HEP (TMVA, lwtnn, MVAUtils) ne prennent pas en charge nativement la conversion vers ONNX. De plus, la stabilité à long terme des environnements d'exécution ONNX n'est pas garantie sans une conteneurisation fastidieuse.
Code natif : La conversion en code C++ ou Python lisible par l'homme élimine les dépendances mais est souvent limitée aux petits modèles en raison des contraintes de taille de fichier.

Il existe un vide critique dans la « chaîne de préservation des algorithmes » pour convertir les configurations ML spécifiques à la HEP en formats stables, sans dépendances ou standards de l'industrie.

Méthodologie
Les auteurs présentent petrifyML, un package Python et un ensemble d'outils en ligne de commande conçus pour combler ce vide. L'outil convertit les configurations ML provenant de frameworks HEP courants vers le format ONNX ou vers du code natif C++/Python.

Le package est modulaire, avec des dépendances installées via pip en fonction de la tâche de conversion spécifique :

Arbres de décision boostés (BDT) :
- scikit-learn : Convertit les fichiers .pkl ou .job en code C++ et Python natifs.
- TMVA : Convertit les fichiers XML (les fichiers ROOT ne sont pas pris en charge directement pour cette conversion) en code C++ et Python natifs.
- MVAUtils : Convertit les fichiers MVAUtils basés sur ROOT (provenant de xgboost ou lgbm) vers ONNX. Cela utilise la bibliothèque uproot pour analyser les fichiers sans nécessiter une installation complète de ROOT.
Réseaux de neurones (NN) :
- TMVA (MLP) : Lit les fichiers XML TMVA, reconstruit l'architecture et les poids dans TensorFlow/Keras, et exporte vers ONNX en utilisant tf2onnx.
- lwtnn : Convertit les fichiers JSON lightweightneuralnetwork (utilisés dans les déclencheurs ATLAS) vers ONNX. Prend actuellement en charge un sous-ensemble de types de couches (Dense, Normalization, Softmax) et de fonctions d'activation (Relu, Sigmoid, Elu, Tanh).

Fonctionnalités clés et validation

Préservation des métadonnées : petrifyML tente de préserver les paramètres d'entraînement et de normalisation, bien que limité par les capacités des formats d'entrée/sortie.
Scripts de validation : L'outil génère optionnellement des scripts de validation qui comparent la sortie du modèle converti avec l'implémentation originale en utilisant des entrées générées aléatoirement (mise à l'échelle par les statistiques de la valeur de coupure du modèle).
Contrôle de version : Pour les conversions ONNX, les utilisateurs peuvent spécifier --opset et --ir-version pour assurer la compatibilité avec des versions spécifiques d'OnnxRuntime, abordant ainsi les problèmes potentiels liés à l'évolution rapide des normes ONNX.
Génération de code natif : Pour les BDT, l'outil génère du code C++ ou Python lisible par l'homme, sans dépendances, garantissant des « performances à l'identique pour toujours » pour les modèles plus petits.

Résultats et évaluation comparative
Les auteurs ont évalué petrifyML sur une suite de 1 230 modèles (incluant des modèles lwtnn, MVAUtils, scikit-learn et TMVA) en utilisant un processeur Intel Core i7-14700.

Performance de conversion :
- Utilisation de la mémoire : Varie de quelques Mo pour les conversions lwtnn/ONNX à environ 3,5 Go pour les grandes forêts xgboost MVAUtils (125 000 arbres). La plupart des conversions nécessitent moins de 200 Mo.
- Temps : Les temps de conversion varient considérablement. La conversion lwtnn vers ONNX prend environ 0,04 s, tandis que les grandes forêts xgboost MVAUtils peuvent prendre plus de 4 minutes. Les conversions successives dans le même environnement sont nettement plus rapides grâce à la mise en cache des imports de modules.
- Taille de fichier : Les fichiers convertis sont généralement compacts. Les fichiers ONNX sont jusqu'à 80 % plus petits que les originaux (sauf pour les fichiers MVAUtils hautement optimisés, qui peuvent voir leur taille augmenter d'un facteur 3). Les fichiers C++/Python natifs pour les BDT TMVA vont de 5 000 à 41 000 lignes mais restent plus économes en espace que les formats XML originaux.
Performance d'inférence :
- Précision : Les modèles ONNX convertis montrent des erreurs de sortie relatives inférieures à $10^{-6}$ par rapport aux originaux. Les conversions en code natif concordent parfaitement.
- Mémoire : L'inférence nécessite généralement moins de 100 Mo. Les BDT C++ natifs sont nettement plus économes en mémoire que les implémentations Python ou originales.
- Vitesse : Les temps d'inférence sont généralement faibles (<0,1 s). L'inférence C++ native pour les BDT est souvent plus rapide que le modèle original, tandis que l'inférence Python est plus lente. La différence de vitesse relative est considérée comme négligeable compte tenu de la vitesse absolue de toutes les méthodes.

Signification et affirmations
L'article positionne petrifyML non pas comme un remplacement des méthodes d'exportation natives lorsque toutes les informations sont disponibles, mais comme une solution nécessaire pour préserver les modèles où l'exportation native est impossible ou où l'environnement d'entraînement original est perdu.

Reproductibilité : L'outil permet la préservation à long terme des algorithmes ML de la HEP en les convertissant vers des formats (ONNX ou code natif) moins dépendants de versions spécifiques de boîtes à outils ou du framework ROOT lourd.
Accessibilité : En convertissant des formats spécifiques à la HEP (comme JSON lwtnn ou XML TMVA) vers ONNX, l'outil permet d'utiliser ces modèles en Python et dans des cadres de réinterprétation (par exemple, Rivet, CheckMATE2) qui ne prennent peut-être pas en charge les bibliothèques spécifiques à la HEP d'origine.
Praticité : Les auteurs affirment que l'outil résout avec succès le problème « insurmontable » de la dépendance à ROOT pour de nombreux outils de réinterprétation et fournit une alternative légère pour préserver de grandes forêts de BDT qui seraient peu pratiques à stocker sous forme de code texte brut.

L'article conclut que petrifyML est une étape pratique vers les « directives de Les Houches sur le ML réinterprétable », fournissant un mécanisme pour garantir que les études expérimentales basées sur le ML restent interprétables et reproductibles à long terme.

Enabling stable preservation of ML algorithms in high-energy physics with petrifyML