Enabling stable preservation of ML algorithms in… — Explicación divulgativa

Autores originales: Andy Buckley, Louie Corpe, Martin Habedank, Tomasz Procter

Publicado 2026-05-28

📖 4 min de lectura🧠 Análisis profundo

Autores originales: Andy Buckley, Louie Corpe, Martin Habedank, Tomasz Procter

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita ni avalada por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Imagina que eres un chef que ha creado una receta revolucionaria para un plato que ayuda a los científicos a comprender el universo. Escribiste la receta en un cuaderno muy específico y complejo que solo puede leer tu personal actual de cocina (una versión específica de software).

Ahora, imagina que dentro de 10 o 20 años, la cocina cambia. El personal se va, el software se actualiza y ese cuaderno específico se convierte en un galimatías ilegible. Si alguien más quiere cocinar ese plato para verificar tus resultados, no puede. Han perdido la receta.

Este es el problema que enfrentan los científicos en Física de Altas Energías (HEP) con el Aprendizaje Automático (ML). Utilizan "recetas" complejas (algoritmos) para analizar datos de colisionadores de partículas. Durante mucho tiempo, estas recetas eran solo herramientas internas. Pero ahora, las recetas son los resultados. Si las recetas no pueden leerse en el futuro, la ciencia no puede verificarse.

Aquí entra petrifyML.

¿Qué es petrifyML?

Piensa en petrifyML como una máquina traductora y cápsula del tiempo mágica. Su trabajo es tomar esas recetas complejas, frágiles y específicas de software y convertirlas en dos cosas:

Un Lenguaje Universal (ONNX): Esto es como traducir tu receta a un formato que todas las cocinas del mundo, pasadas, presentes y futuras, acuerdan entender. Es el "PDF" del mundo del aprendizaje automático.
Inglés llano (Código nativo): También puede reescribir la receta en instrucciones simples y legibles por humanos (código C++ o Python) que no necesitan ningún software especial para ejecutarse. Es como escribir la receta en un papel que cualquiera puede leer, incluso si no tiene una computadora.

¿Cómo funciona?

El artículo explica que los científicos actualmente utilizan diferentes "herramientas de cocina" (paquetes de software como TMVA, scikit-learn, lwtnn) para entrenar sus modelos. Estas herramientas a menudo hablan dialectos diferentes o dependen de equipos pesados y complicados que podrían desaparecer en el futuro.

petrifyML actúa como un puente:

El Traductor: Toma un modelo entrenado en una de estas herramientas específicas y lo convierte al formato universal ONNX. Esto asegura que, incluso si la herramienta original desaparece, el modelo aún pueda "cocinarse" (ejecutarse) utilizando herramientas modernas y estándar.
El Escriba: Para modelos más simples (como Árboles de Decisión Potenciados), no solo traduce; reescribe toda la lógica en código de texto plano. Esto es como tomar un reloj mecánico complejo y dibujar cada engranaje y resorte en un papel. Ya no necesitas el reloj; solo necesitas el dibujo para reconstruirlo. Esto garantiza que el modelo funcione exactamente igual para siempre, sin necesidad de actualizaciones de software específicas.

¿Por qué es esto importante?

El artículo destaca algunos beneficios clave:

No más "Funciona en mi máquina": Por lo general, si intentas ejecutar un modelo antiguo en una computadora nueva, se rompe porque las versiones de software no coinciden. petrifyML elimina esta dependencia.
Preparación para el futuro: Al convertir modelos a ONNX o a código plano, los científicos aseguran que su trabajo pueda reinterpretarse dentro de décadas. Es como preservar un documento no en un disquete (que podría pudrirse), sino en papel libre de ácido o en un estándar digital universal.
Eficiencia: El artículo probó esta herramienta y descubrió que funciona rápido y no utiliza mucha memoria de la computadora. Los archivos convertidos a menudo son más pequeños que los originales, lo que facilita su almacenamiento y compartición.

La verificación de "Validación"

Los autores tienen cuidado de decir: "Solo darte la receta traducida no es suficiente; necesitamos asegurarnos de que sabe igual".
Por lo tanto, petrifyML incluye una "prueba de sabor" integrada. Cuando convierte un modelo, genera automáticamente un script que ejecuta la nueva versión y la compara con la versión antigua para asegurar que produzcan exactamente los mismos resultados. Si hay incluso una pequeña diferencia, el usuario sabe que algo salió mal.

En resumen

petrifyML es una herramienta diseñada para salvar las "recetas" de la física de partículas de perderse con el tiempo. Toma modelos de aprendizaje automático complejos y dependientes de software y los convierte en un formato estándar universal o en código simple y legible por humanos. Esto asegura que los descubrimientos científicos realizados hoy puedan ser verificados, comprendidos y confiados por los científicos dentro de 50 años, independientemente de qué tecnología exista en ese momento.

Resumen Técnico: Habilitación de la Preservación Estable de Algoritmos de ML en Física de Altas Energías con petrifyML

Enunciado del Problema
El aprendizaje automático (ML) en Física de Altas Energías (HEP) ha evolucionado desde una herramienta interna para calibración y reconstrucción hasta convertirse en un componente central y no paramétrico del análisis de datos físicos. Si bien este cambio mejora la sensibilidad a nuevos modelos de física, introduce desafíos significativos para la reproducibilidad científica. Los algoritmos de ML actuales se entrenan y despliegan típicamente utilizando herramientas basadas en Python (por ejemplo, TMVA, scikit-learn, lwtnn) que sufren de inestabilidad de versiones, dependencias pesadas (particularmente el framework ROOT) e incompatibilidad de formatos.

Las estrategias de preservación existentes enfrentan limitaciones:

Archivos Pickle/Joblib: Altamente dependientes de la versión e inestables con el tiempo; no son adecuados para la preservación a largo plazo sin contenedorización completa.
Formato ONNX: Aunque es un estándar de la industria, muchas herramientas específicas de HEP (TMVA, lwtnn, MVAUtils) no admiten nativamente la conversión a ONNX. Además, la estabilidad a largo plazo de los entornos de ejecución ONNX no está garantizada sin una contenedorización engorrosa.
Código Nativo: La conversión a código C++ o Python legible por humanos elimina dependencias, pero a menudo se limita a modelos pequeños debido a restricciones de tamaño de archivo.

Existe una brecha crítica en la "cadena de preservación de algoritmos" para convertir configuraciones de ML específicas de HEP en formatos estables, libres de dependencias o estándares de la industria.

Metodología
Los autores presentan petrifyML, un paquete de Python y un conjunto de herramientas de línea de comandos diseñados para cerrar esta brecha. La herramienta convierte configuraciones de ML desde frameworks comunes de HEP al formato ONNX o a código nativo C++/Python.

El paquete es modular, con dependencias instaladas vía pip según la tarea de conversión específica:

Árboles de Decisión Boosted (BDTs):
- scikit-learn: Convierte archivos .pkl o .job a C++ y Python nativos.
- TMVA: Convierte archivos XML (los archivos ROOT no son compatibles directamente para esta conversión) a C++ y Python nativos.
- MVAUtils: Convierte archivos MVAUtils basados en ROOT (originados de xgboost o lgbm) a ONNX. Esto utiliza la biblioteca uproot para analizar archivos sin requerir una instalación completa de ROOT.
Redes Neuronales (NNs):
- TMVA (MLPs): Lee archivos XML de TMVA, reconstruye la arquitectura y los pesos en TensorFlow/Keras, y exporta a ONNX utilizando tf2onnx.
- lwtnn: Convierte archivos JSON lightweightneuralnetwork (utilizados en disparadores de ATLAS) a ONNX. Actualmente soporta un subconjunto de tipos de capas (Dense, Normalización, Softmax) y funciones de activación (Relu, Sigmoid, Elu, Tanh).

Características Clave y Validación

Retención de Metadatos: petrifyML intenta preservar la configuración de entrenamiento y los parámetros de normalización, aunque limitado por las capacidades de los formatos de entrada/salida.
Scripts de Validación: La herramienta genera opcionalmente scripts de validación que comparan la salida del modelo convertido contra la implementación original utilizando entradas generadas aleatoriamente (escaladas por las estadísticas de los valores de corte del modelo).
Control de Versiones: Para conversiones a ONNX, los usuarios pueden especificar --opset y --ir-version para garantizar la compatibilidad con versiones específicas de OnnxRuntime, abordando problemas potenciales con los estándares de ONNX que evolucionan rápidamente.
Generación de Código Nativo: Para BDTs, la herramienta genera código C++ o Python legible por humanos que es libre de dependencias, asegurando un "rendimiento literal en perpetuidad" para modelos más pequeños.

Resultados y Evaluación Comparativa
Los autores evaluaron petrifyML en una suite de 1.230 modelos (incluyendo modelos lwtnn, MVAUtils, scikit-learn y TMVA) utilizando un CPU Intel Core i7-14700.

Rendimiento de Conversión:
- Uso de Memoria: Oscila desde unos pocos MB para conversiones lwtnn/ONNX hasta ~3.5 GB para grandes bosques xgboost de MVAUtils (125.000 árboles). La mayoría de las conversiones requieren menos de 200 MB.
- Tiempo: Los tiempos de conversión varían significativamente. La conversión de lwtnn a ONNX toma ~0.04s, mientras que grandes bosques xgboost de MVAUtils pueden tomar >4 minutos. Las conversiones sucesivas en el mismo entorno son significativamente más rápidas debido a la importación de módulos en caché.
- Tamaño de Archivo: Los archivos convertidos son generalmente compactos. Los archivos ONNX son hasta un 80% más pequeños que los originales (excepto para archivos MVAUtils altamente optimizados, que pueden aumentar su tamaño en un factor de 3). Los archivos C++/Python nativos para BDTs de TMVA oscilan entre 5.000 y 41.000 líneas, pero siguen siendo más eficientes en espacio que los formatos XML originales.
Rendimiento de Inferencia:
- Precisión: Los modelos ONNX convertidos muestran errores de salida relativos menores a $10^{-6}$ en comparación con los originales. Las conversiones a código nativo coinciden perfectamente.
- Memoria: La inferencia generalmente requiere <100 MB. Los BDTs nativos en C++ son significativamente más eficientes en memoria que las implementaciones en Python o las originales.
- Velocidad: Los tiempos de inferencia son generalmente pequeños (<0.1s). La inferencia nativa en C++ para BDTs es a menudo más rápida que el modelo original, mientras que la inferencia en Python es más lenta. La diferencia relativa de velocidad se considera despreciable dada la velocidad absoluta de todos los métodos.

Significado y Afirmaciones
El artículo posiciona a petrifyML no como un reemplazo de los métodos de exportación nativa cuando toda la información está disponible, sino como una solución necesaria para preservar modelos donde la exportación nativa es imposible o donde el entorno de entrenamiento original se ha perdido.

Reproducibilidad: La herramienta permite la preservación a largo plazo de algoritmos de ML en HEP al convertirlos en formatos (ONNX o código nativo) que dependen menos de versiones específicas de herramientas o del framework ROOT pesado.
Accesibilidad: Al convertir formatos específicos de HEP (como JSON de lwtnn o XML de TMVA) a ONNX, la herramienta permite que estos modelos se utilicen en Python y por marcos de reinterpretación (por ejemplo, Rivet, CheckMATE2) que podrían no admitir las bibliotecas específicas de HEP originales.
Practicidad: Los autores afirman que la herramienta aborda con éxito el "problema insuperable" de la dependencia de ROOT para muchas herramientas de reinterpretación y proporciona una alternativa ligera para preservar grandes bosques de BDTs que serían poco prácticos de almacenar como código de texto plano.

El artículo concluye que petrifyML es un paso práctico hacia las "directrices de Les Houches sobre ML reinterpretable", proporcionando un mecanismo para asegurar que los estudios experimentales basados en ML permanezcan interpretables y reproducibles a largo plazo.

Enabling stable preservation of ML algorithms in high-energy physics with petrifyML