Enabling stable preservation of ML algorithms in… — Allgemeinverständliche Erklärung

Ursprüngliche Autoren: Andy Buckley, Louie Corpe, Martin Habedank, Tomasz Procter

Veröffentlicht 2026-05-28

📖 4 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Andy Buckley, Louie Corpe, Martin Habedank, Tomasz Procter

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie sind ein Koch, der ein revolutionäres neues Rezept für ein Gericht entwickelt hat, das Wissenschaftlern hilft, das Universum zu verstehen. Sie haben das Rezept in einem sehr spezifischen, komplexen Notizbuch niedergeschrieben, das nur Ihr aktuelles Küchenpersonal (eine bestimmte Softwareversion) lesen kann.

Stellen Sie sich nun vor, dass sich die Küche in 10 oder 20 Jahren verändert. Das Personal geht, die Software wird aktualisiert, und dieses spezifische Notizbuch wird zu unleserlichem Kauderwelsch. Wenn jemand anderes dieses Gericht zubereiten möchte, um Ihre Ergebnisse zu verifizieren, kann er es nicht. Das Rezept ist verloren.

Dies ist das Problem, mit dem Wissenschaftler in der Hochenergiephysik (HEP) im Bereich des Maschinellen Lernens (ML) konfrontiert sind. Sie verwenden komplexe „Rezepte" (Algorithmen), um Daten aus Teilchenbeschleunigern zu analysieren. Lange Zeit waren diese Rezepte nur interne Werkzeuge. Doch jetzt sind die Rezepte die Ergebnisse. Wenn die Rezepte in der Zukunft nicht mehr lesbar sind, kann die Wissenschaft nicht verifiziert werden.

Hier kommt petrifyML ins Spiel.

Was ist petrifyML?

Stellen Sie sich petrifyML als eine magische Übersetzungs- und Zeitkapselmaschine vor. Seine Aufgabe ist es, diese komplexen, zerbrechlichen, softwarespezifischen Rezepte in zwei Dinge zu verwandeln:

Eine universelle Sprache (ONNX): Dies ist wie die Übersetzung Ihres Rezepts in ein Format, das jede Küche der Welt – Vergangenheit, Gegenwart und Zukunft – zu verstehen vereinbart hat. Es ist das „PDF" der Welt des maschinellen Lernens.
Einfaches Englisch (nativer Code): Es kann das Rezept auch in einfache, für Menschen lesbare Anweisungen (C++- oder Python-Code) umschreiben, die keine spezielle Software zum Ausführen benötigen. Es ist wie das Aufschreiben des Rezepts auf ein Blatt Papier, das jeder lesen kann, selbst wenn er keinen Computer besitzt.

Wie funktioniert es?

Der Artikel erklärt, dass Wissenschaftler derzeit verschiedene „Küchenwerkzeuge" (Softwarepakete wie TMVA, scikit-learn, lwtnn) verwenden, um ihre Modelle zu trainieren. Diese Werkzeuge sprechen oft verschiedene Dialekte oder verlassen sich auf schwere, komplizierte Ausrüstung, die in der Zukunft verschwinden könnte.

petrifyML fungiert als Brücke:

Der Übersetzer: Es nimmt ein Modell, das in einem dieser spezifischen Werkzeuge trainiert wurde, und wandelt es in das universelle ONNX-Format um. Dies stellt sicher, dass das Modell auch dann noch „gekocht" (ausgeführt) werden kann, wenn das ursprüngliche Werkzeug verschwunden ist, indem es mit standardmäßigen, modernen Werkzeugen ausgeführt wird.
Der Schreiber: Für einfachere Modelle (wie Boosted Decision Trees) übersetzt es nicht nur; es schreibt die gesamte Logik in reinen Textcode um. Dies ist wie das Zeichnen jedes einzelnen Zahnrads und jeder Feder einer komplexen mechanischen Uhr auf Papier. Sie brauchen die Uhr nicht mehr; Sie brauchen nur die Zeichnung, um sie wiederherzustellen. Dies garantiert, dass das Modell für immer exakt auf die gleiche Weise funktioniert, ohne dass spezifische Software-Updates erforderlich sind.

Warum ist das wichtig?

Der Artikel hebt einige wichtige Vorteile hervor:

Kein „Es funktioniert auf meinem Rechner" mehr: Normalerweise bricht es, wenn Sie versuchen, ein altes Modell auf einem neuen Computer auszuführen, weil die Softwareversionen nicht übereinstimmen. petrifyML beseitigt diese Abhängigkeit.
Zukunftssicherheit: Durch die Umwandlung von Modellen in ONNX oder einfachen Code stellen Wissenschaftler sicher, dass ihre Arbeit auch noch Jahrzehnte später neu interpretiert werden kann. Es ist wie das Bewahren eines Dokuments nicht auf einem Diskettenlaufwerk (das verrotten könnte), sondern auf säurefreiem Papier oder einem universellen digitalen Standard.
Effizienz: Der Artikel testete dieses Werkzeug und stellte fest, dass es schnell arbeitet und wenig Computerspeicher verbraucht. Die konvertierten Dateien sind oft kleiner als die Originaldateien, was sie einfach zu speichern und zu teilen macht.

Der „Validierungs"-Check

Die Autoren betonen sorgfältig: „Nur das Übersetzte Rezept zu geben, reicht nicht aus; wir müssen sicherstellen, dass es gleich schmeckt."
Daher enthält petrifyML einen integrierten „Geschmackstest". Wenn es ein Modell konvertiert, generiert es automatisch ein Skript, das die neue Version ausführt und mit der alten Version vergleicht, um sicherzustellen, dass sie exakt die gleichen Ergebnisse liefern. Wenn es auch nur einen winzigen Unterschied gibt, weiß der Benutzer, dass etwas schiefgelaufen ist.

Zusammenfassung

petrifyML ist ein Werkzeug, das entwickelt wurde, um die „Rezepte" der Teilchenphysik davor zu bewahren, der Zeit zum Opfer zu fallen. Es nimmt komplexe, von Software abhängige Modelle des maschinellen Lernens und verwandelt sie entweder in ein universelles Standardformat oder in einfachen, für Menschen lesbaren Code. Dies stellt sicher, dass die wissenschaftlichen Entdeckungen, die heute gemacht werden, auch von Wissenschaftlern in 50 Jahren überprüft, verstanden und vertraut werden können, unabhängig davon, welche Technologie zu diesem Zeitpunkt existiert.

Technischer Zusammenfassung: Ermöglichung der stabilen Bewahrung von ML-Algorithmen in der Hochenergiephysik mit petrifyML

Problemstellung
Maschinelles Lernen (ML) in der Hochenergiephysik (HEP) hat sich von einem internen Werkzeug für Kalibrierung und Rekonstruktion zu einer zentralen, nicht-parametrischen Komponente der physikalischen Datenanalyse entwickelt. Obwohl dieser Wandel die Sensitivität für neue Physikmodelle erhöht, bringt er erhebliche Herausforderungen für die wissenschaftliche Reproduzierbarkeit mit sich. Aktuelle ML-Algorithmen werden typischerweise mit Python-basierten Werkzeugen trainiert und eingesetzt (z. B. TMVA, scikit-learn, lwtnn), die unter Versionsinstabilität, starken Abhängigkeiten (insbesondere dem ROOT-Framework) und Formatinkompatibilitäten leiden.

Bestehende Bewahrungsstrategien stoßen auf Grenzen:

Pickle/Joblib-Dateien: Stark versionsabhängig und über die Zeit instabil; für die langfristige Bewahrung ohne vollständige Containerisierung nicht geeignet.
ONNX-Format: Obwohl ein Industriestandard, unterstützen viele HEP-spezifische Tools (TMVA, lwtnn, MVAUtils) die Konvertierung zu ONNX nicht nativ. Darüber hinaus ist die langfristige Stabilität von ONNX-Ausführungsumgebungen ohne umständliche Containerisierung nicht garantiert.
Nativer Code: Die Konvertierung in menschenlesbaren C++- oder Python-Code eliminiert Abhängigkeiten, ist jedoch aufgrund von Dateigrößenbeschränkungen oft auf kleine Modelle beschränkt.

Es besteht eine kritische Lücke in der „Kette der Algorithmusbewahrung" für die Umwandlung von HEP-spezifischen ML-Konfigurationen in stabile, abhängigkeitsfreie oder industriestandards conforme Formate.

Methodik
Die Autoren stellen petrifyML vor, ein Python-Paket und eine Befehlszeilen-Werkzeugsammlung, die entwickelt wurde, um diese Lücke zu schließen. Das Tool konvertiert ML-Konfigurationen aus gängigen HEP-Frameworks entweder in das ONNX-Format oder in nativen C++-/Python-Code.

Das Paket ist modular aufgebaut, wobei die Abhängigkeiten je nach spezifischer Konvertierungsaufgabe über pip installiert werden:

Boosted Decision Trees (BDTs):
- scikit-learn: Konvertiert .pkl- oder .job-Dateien in nativen C++- und Python-Code.
- TMVA: Konvertiert XML-Dateien (ROOT-Dateien werden für diese Konvertierung nicht direkt unterstützt) in nativen C++- und Python-Code.
- MVAUtils: Konvertiert ROOT-basierte MVAUtils-Dateien (ursprünglich von xgboost oder lgbm) in ONNX. Dies nutzt die Bibliothek uproot, um Dateien zu parsen, ohne eine vollständige ROOT-Installation zu erfordern.
Neuronale Netze (NNs):
- TMVA (MLPs): Liest TMVA-XML-Dateien, rekonstruiert die Architektur und Gewichte in TensorFlow/Keras und exportiert sie mittels tf2onnx nach ONNX.
- lwtnn: Konvertiert lightweightneuralnetwork-JSON-Dateien (verwendet in ATLAS-Triggern) in ONNX. Derzeit wird eine Teilmenge von Schichttypen (Dense, Normalization, Softmax) und Aktivierungsfunktionen (Relu, Sigmoid, Elu, Tanh) unterstützt.

Hauptmerkmale und Validierung

Metadaten-Erhalt: petrifyML versucht, TrainingsEinstellungen und Normalisierungsparameter zu bewahren, ist jedoch durch die Fähigkeiten der Eingabe-/Ausgabeformate begrenzt.
Validierungsskripte: Das Tool generiert optional Validierungsskripte, die die Ausgabe des konvertierten Modells mit der ursprünglichen Implementierung unter Verwendung von zufällig generierten Eingaben vergleichen (skaliert nach den Cut-Wert-Statistiken des Modells).
Versionskontrolle: Für ONNX-Konvertierungen können Benutzer --opset und --ir-version angeben, um die Kompatibilität mit bestimmten OnnxRuntime-Versionen sicherzustellen und potenzielle Probleme mit sich schnell entwickelnden ONNX-Standards zu adressieren.
Generierung von nativem Code: Für BDTs generiert das Tool menschenlesbaren C++- oder Python-Code, der abhängigkeitsfrei ist und „wörtliche Leistungsfähigkeit für die Ewigkeit" für kleinere Modelle gewährleistet.

Ergebnisse und Benchmarking
Die Autoren haben petrifyML an einer Suite von 1.230 Modellen (einschließlich lwtnn-, MVAUtils-, scikit-learn- und TMVA-Modellen) unter Verwendung einer Intel Core i7-14700-CPU getestet.

Konvertierungsleistung:
- Speichernutzung: Reicht von wenigen MB für lwtnn/ONNX-Konvertierungen bis zu ca. 3,5 GB für große MVAUtils xgboost-Wälder (125.000 Bäume). Die meisten Konvertierungen erfordern weniger als 200 MB.
- Zeit: Konvertierungszeiten variieren erheblich. lwtnn zu ONNX dauert ca. 0,04 s, während große MVAUtils xgboost-Wälder mehr als 4 Minuten benötigen. Aufeinanderfolgende Konvertierungen in derselben Umgebung sind aufgrund zwischengespeicherter Modulimports signifikant schneller.
- Dateigröße: Konvertierte Dateien sind im Allgemeinen kompakt. ONNX-Dateien sind bis zu 80 % kleiner als die Originale (außer bei stark optimierten MVAUtils-Dateien, die sich um den Faktor 3 vergrößern können). Nativer C++-/Python-Code für TMVA-BDTs umfasst zwischen 5.000 und 41.000 Zeilen, bleibt aber effizienter im Speicherbedarf als die ursprünglichen XML-Formate.
Inferenzleistung:
- Genauigkeit: Konvertierte ONNX-Modelle zeigen relative Ausgabefehler von weniger als $10^{-6}$ im Vergleich zu den Originalen. Nativer Code stimmt perfekt überein.
- Speicher: Die Inferenz erfordert im Allgemeinen <100 MB. Nativer C++-BDT-Code ist deutlich speichereffizienter als Python oder ursprüngliche Implementierungen.
- Geschwindigkeit: Inferenzzeiten sind im Allgemeinen gering (<0,1 s). Nativer C++-Inferenz für BDTs ist oft schneller als das ursprüngliche Modell, während Python-Inferenz langsamer ist. Der relative Geschwindigkeitsunterschied wird angesichts der absoluten Geschwindigkeit aller Methoden als vernachlässigbar betrachtet.

Bedeutung und Behauptungen
Die Arbeit positioniert petrifyML nicht als Ersatz für native Exportmethoden, wenn alle Informationen verfügbar sind, sondern als notwendige Lösung für die Bewahrung von Modellen, bei denen ein nativer Export unmöglich ist oder die ursprüngliche Trainingsumgebung verloren gegangen ist.

Reproduzierbarkeit: Das Tool ermöglicht die langfristige Bewahrung von HEP-ML-Algorithmen, indem es sie in Formate (ONNX oder nativer Code) konvertiert, die weniger von spezifischen Toolkit-Versionen oder dem schweren ROOT-Framework abhängig sind.
Zugänglichkeit: Durch die Konvertierung von HEP-spezifischen Formaten (wie lwtnn-JSON oder TMVA-XML) in ONNX ermöglicht das Tool die Verwendung dieser Modelle in Python und durch Interpretationsframeworks (z. B. Rivet, CheckMATE2), die die ursprünglichen HEP-spezifischen Bibliotheken möglicherweise nicht unterstützen.
Praktikabilität: Die Autoren behaupten, das Tool adressiere erfolgreich das „unüberwindbare Problem" der ROOT-Abhängigkeit für viele Interpretationstools und biete eine leichte Alternative zur Bewahrung großer BDT-Wälder, die als reiner Textcode unpraktisch zu speichern wären.

Die Arbeit schließt, dass petrifyML ein praktischer Schritt hin zu den „Les Houches-Richtlinien zur re-interpretierbaren ML" ist und einen Mechanismus bereitstellt, um sicherzustellen, dass ML-basierte experimentelle Studien langfristig interpretierbar und reproduzierbar bleiben.

Enabling stable preservation of ML algorithms in high-energy physics with petrifyML