⚛️ phenomenology

CoLLM: AI engineering toolbox for end-to-end deep learning in collider analyses

CoLLM est une boîte à outils d'ingénierie de l'IA qui exploite des modèles de langage de grande taille préentraînés et une interface graphique pour automatiser la génération de code de sélection d'événements physiquement cohérent et d'analyses par apprentissage profond, abaissant ainsi les barrières de programmation et techniques pour les analyses de collisionurs de bout en bout.

Auteurs originaux : W. Esmail, A. Hammad, M. Nojiri

Publié 2026-02-09

📖 5 min de lecture🧠 Analyse approfondie

CC BY 4.0

Auteurs originaux : W. Esmail, A. Hammad, M. Nojiri

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée ni approuvée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Imaginez que vous êtes un chef de haut vol (un physicien des particules) avec une idée brillante pour un nouveau plat (une expérience scientifique au Grand Collisionneur de Hadrons). Vous savez exactement quels sont les saveurs que vous voulez et comment les ingrédients doivent interagir. Cependant, pour cuisiner réellement ce plat, vous devez passer des heures à écrire une recette complexe, ligne par ligne, dans un langage que seul un ordinateur comprend (le code Python). Si vous faites une seule faute de frappe — comme confondre le sel et le sucre — tout le plat est gâché, et vous pourriez même ne pas vous en rendre compte avant d'avoir goûté le résultat final.

CoLLM est comme un sous-chef super intelligent et spécialisé qui parle couramment à la fois le « Chef » (la physique) et l'« Ordinateur » (le code). Il prend votre idée en langage clair et rédige instantanément pour vous la recette parfaite et sans erreur, puis il cuisine même le plat et vous le sert.

Voici comment fonctionne CoLLM, décomposé en étapes simples :

1. L'assistant du Chef en « Ingénierie de l'Ambiance »

D'habitude, quand les gens utilisent l'IA pour écrire du code, ils demandent simplement une recette et espèrent que tout ira bien. C'est ce qu'on appelle le « vibe coding » (codage à l'instinct). Mais en science, un mauvais ingrédient peut gâcher des années de travail. CoLLM utilise une approche plus stricte appelée « ingénierie de l'ambiance » (vibe engineering).

Le Prompt (Le livre de règles) : Avant que l'IA n'écrive la moindre ligne de code, on lui donne un « livre de règles » massif et détaillé (un prompt système). Ce livre contient toutes les lois de la physique, la manière spécifique dont les données de particules sont stockées, et les règles d'or de la cuisine dans un laboratoire de collisionneur. Il dit à l'IA : « Ne mélangez jamais ces nombres » et « Mesurez toujours cet ingrédient de cette façon ».
La Traduction : Vous tapez votre expérience en langage clair : « Je veux trouver des particules qui ressemblent à ceci, ignorer celles-là, et mesurer l'énergie des restes. » L'IA, guidée par le livre de règles, traduit cela en un script Python parfait.

2. Le test de goût auto-correcteur

Même les meilleurs chefs font des erreurs. Si l'IA écrit une ligne de code qui fait planter l'ordinateur (comme essayer de hacher un caillou au lieu d'un oignon), CoLLM ne baisse pas les bras.

La Boucle : Il exécute le code. S'il plante, l'IA lit le message d'erreur, réalise : « Oh, j'ai oublié une virgule ici », et corrige uniquement cette partie spécifique. Elle réessaie. Elle continue ainsi jusqu'à ce que le code fonctionne parfaitement. C'est comme un robot qui goûte la soupe et ajoute une pincée de sel jusqu'à ce qu'elle soit parfaite, sans que vous ayez à lever une cuillère.

3. Le panel de dégustation automatique (Apprentissage Profond)

Une fois que la recette est écrite et que les ingrédients sont préparés, l'étape suivante consiste généralement à entraîner un ordinateur à reconnaître la « saveur » du signal (les particules intéressantes) par rapport au bruit de fond (les choses ennuyeuses).

La Boîte Magique : CoLLM ne s'arrête pas à l'écriture de la recette. Il prend automatiquement les données préparées et les injecte dans trois types différents de « machines de dégustation » (modèles de Deep Learning) :
- MLP : Un dégustateur simple et rapide pour les données standards.
- GNN : Un dégustateur intelligent qui comprend comment les particules sont connectées entre elles, comme un réseau social d'ingrédients.
- Transformer : Un super-dégustateur qui regarde l'ensemble de l'image à la fois, comprenant les relations à longue portée entre les particules.
Le Résultat : Il entraîne ces modèles, vérifie leur efficacité et vous remet un bulletin de notes avec des graphiques montrant exactement la qualité du modèle pour trouver « l'aiguille dans la botte de foin ».

4. L'interface utilisateur : Deux façons de commander

CoLLM est conçu pour être convivial pour tout le monde, que vous soyez un magicien de la technologie ou que vous vouliez simplement accomplir une tâche.

Le Terminal (TUI) : Pour les professionnels qui aiment taper des commandes et exécuter des scripts en arrière-plan.
L'Interface Graphique (GUI) : Un site web coloré et cliquable où vous pouvez taper votre idée, appuyer sur un bouton et regarder l'IA travailler en temps réel, en vous montrant les graphiques au fur et à mesure qu'ils sont dessinés.

Pourquoi est-ce important ?

Par le passé, un physicien devait être à la fois un maître du codage, un scientifique des données et un expert en particules. Si vous étiez excellent en physique mais mauvais en codage, vous étiez bloqué.

CoLLM agit comme un traducteur universel. Il abaisse la barrière à l'entrée, permettant aux scientifiques de se concentrer sur la physique (le « quoi » et le « pourquoi ») plutôt que sur le codage (le « comment »). Il garantit que le code n'est pas seulement écrit, mais qu'il est physiquement correct, reproductible (vous obtenez le même résultat à chaque fois) et automatiquement validé.

En bref : CoLLM est un outil qui vous permet de décrire une expérience complexe de physique des particules en langage clair, et il écrit automatiquement le code, corrige ses propres erreurs et entraîne une IA intelligente pour trouver la réponse, le tout sans que vous ayez besoin d'être un expert en codage.

Résumé technique : CoLLM – Boîte à outils d'ingénierie IA pour l'apprentissage profond de bout en bout dans les analyses de collisionneurs

1. Énoncé du problème

Les analyses modernes de collisionneurs au Grand Collisionneur de Hadrons (LHC) font face à un double défi : l'augmentation des volumes de données et l'escalade de la complexité analytique. Une analyse typique nécessite de traduire des concepts physiques de haut niveau (par exemple, la reconstruction d'objets, la sélection d'événements, le calcul d'observables cinématiques) en code exécutable, suivi de la mise en œuvre de pipelines d'apprentissage profond pour la classification signal-fond. Ce processus de traduction est chronophage, sujet aux erreurs de transcription (telles que des codes d'identification de particules incorrects ou des coupes cinématiques incohérentes) et exige une expertise à la fois en physique des particules et en ingénierie logicielle.

Bien que les grands modèles de langage (LLM) aient montré des promesses pour accélérer les flux de travail scientifiques, leur application directe aux pipelines complets d'analyse de collisionneurs est limitée. Les LLM génériques manquent de connaissances intégrées des conventions de la haute énergie (HEP), ne peuvent pas exécuter ou valider nativement le code qu'ils génèrent, et produisent des sorties non déterministes qui compromettent la reproductibilité. De plus, l'approche de « vibe coding » (s'appuyer sur du code généré par l'IA sans examen rigoureux) est risquée en physique, où la justesse est primordiale.

2. Méthodologie : Le cadre CoLLM

CoLLM est un framework Python open-source conçu pour combler le fossé entre les spécifications d'analyse en langage naturel et les classificateurs d'apprentissage profond entraînés. Il fonctionne comme un pipeline de bout en bout composé de deux composants étroitement intégrés :

2.1 Moteur de génération de code basé sur les LLM

La première étape traduit des spécifications en langage clair en code Python validé pour la présélection d'événements et l'extraction de caractéristiques.

Entrée structurée : Les entrées utilisateur sont organisées en trois sections sémantiques : Sélection de coupes (multiplicités d'objets, contraintes cinématiques), Graphiques de validation (distributions de diagnostic) et Structure de sortie (observables pour l'apprentissage profond).
Prompt système conscient de la physique : Pour atténuer le manque de connaissances de domaine des modèles génériques, CoLLM emploie un prompt système complet. Ce prompt encode :
- Les spécifications du format de données LHCO (LHC Olympics).
- Les codes standards d'identification des particules (ex: type 6 pour l'MET).
- Les formules cinématiques (ex: masse invariante, masse transverse) avec des avertissements explicites contre les erreurs communes des LLM (ex: sommer vs soustraire les quadrivecteurs).
- Des fonctions d'aide de référence pour le parsing et la sélection d'objets.
Décodage déterministe : Pour garantir la reproductibilité, le modèle de génération principal utilise une température de $T=0$ avec un décodage glouton (greedy decoding), faisant de la sortie une fonction déterministe de l'input du prompt.
Correction automatique d'erreurs (PyFixer) : Un second LLM, opérant en mode exploratoire ( $T=0.9$ ), répare de manière itérative les échecs d'exécution. Il analyse les traces d'erreurs (tracebacks) et modifie uniquement les segments de code défectueux plutôt que de régénérer l'intégralité du script, préservant ainsi la logique validée.

2.2 Pipeline d'apprentissage profond automatisé

La seconde étape consomme les caractéristiques extraites par le code généré pour entraîner des classificateurs signal-fond. Le framework prend en charge trois architectures, configurables via YAML ou une interface graphique (GUI) :

Perceptrons multicouches (MLP) : Pour les vecteurs de caractéristiques cinématiques de haut niveau à longueur fixe.
Réseaux de neurones sur graphes (GNN) : Pour les ensembles de particules à multiplicité variable (ex: jets, traces), traitant les particules comme des nœuds et les relations comme des arêtes. Supporte les réseaux de convolution de graphes (GCN), la convolution d'arêtes dynamique (EdgeConv) et les réseaux d'attention de graphes (GAT).
Réseaux Transformers : Pour les représentations de nuages de particules utilisant des mécanismes d'auto-attention pour modéliser les dépendances à longue portée sans topologie fixe.

Le pipeline automatise le chargage des données, la normalisation, la construction du modèle, l'entraînement (avec des callbacks pour l'arrêt précoce, la planification du taux d'apprentissage et la précision mixte) et l'évaluation via les métriques standard de la HEP (ex: AUC).

2.3 Interfaces Utilisateur

CoLLM propose deux interfaces :

Interface utilisateur en terminal (TUI) : Utilise des fichiers de configuration YAML pour le traitement par lots et les flux de travail reproductibles.
Interface graphique (GUI) : Une interface web basée sur Streamlit pour la configuration interactive, le monitoring en temps réel et le débogage visuel.

3. Contributions clés

Automatisation de bout en bout : CoLLM fournit un flux de travail unifié, des spécifications physiques en langage naturel jusqu'aux classificateurs d'apprentissage profond entraînés, réduisant la charge de codage manuel.
Génération consciente de la physique : Contrairement aux générateurs de code génériques, CoLLM intègre les conventions de la HEP directement dans le contexte de génération via un prompt système spécialisé, garantissant la cohérence physique dans les calculs cinématiques et la manipulation d'objets.
Reproductibilité déterministe : En imposant un décodage $T=0$ pour le générateur primaire et en utilisant une boucle de correction d'erreurs structurée, CoLLM répond au non-déterminisme inhérent aux applications standard des LLM.
Intégration modulaire de l'apprentissage profond : Le framework intègre de manière transparente trois familles distinctes de réseaux neuronaux (MLP, GNN, Transformer) adaptées aux différentes représentations d'événements de collisionneurs.
Validation et benchmarking : Les auteurs fournissent une étude de validation systématique utilisant cinq processus de référence ( $pp \to W^+W^-$ , $t\bar{t}$ , $H \to \gamma\gamma$ , $WZ$, $Hjj$) pour démontrer la capacité du framework à générer une logique de sélection correcte et des graphiques de diagnostic.

4. Résultats

L'article valide CoLLM en utilisant le modèle meta-llama/Llama-3.3-70B-Instruct sur cinq analyses de référence.

Correctitude du code : Le framework a généré avec succès des scripts Python exécutables pour la production complexe de paires de quarks top semi-leptoniques et d'autres processus, analysant correctement les fichiers LHCO, appliquant les coupes de sélection et calculant les variables cinématiques.
Reproductibilité : Lors de passages répétés avec des entrées identiques, le framework a produit des résultats de cutflow cohérents. Les variations mineures observées ont été attribuées aux ambiguïtés dans le prompt utilisateur (ex: la définition de "leading jets") plutôt qu'à la stochasticité du modèle, soulignant l'importance de spécifications utilisateur précises.
Validation physique : Les histogrammes générés (ex: masse invariante dijet, masse transverse) présentaient les caractéristiques physiques attendues, telles que des pics près des masses du boson $W$ et du quark top, ainsi que des bords de Jacobian pour les désintégrations $W \to \ell\nu$ .
Correction d'erreurs : Le module PyFixer a résolu la majorité des erreurs d'exécution en une ou deux itérations de raffinement, démontant l'efficacité du mécanisme de réparation itérative.

5. Signification et affirmations

Les auteurs positionnent CoLLM non pas comme un remplacement de l'expertise des physiciens, mais comme un outil pour le « vibe engineering » — une approche disciplinée où les LLM assistent la génération de code tandis que le framework impose une validation stricte et des contraintes physiques.

Abaisser la barrière : CoLLM vise à simplifier la complexité technique des analyses de collisionneurs, rendant les sélections d'événements sophistiquées et les méthodes d'apprentissage profond accessibles aux physiciens qui pourraient manquer d'une expérience approfondie en programmation.
Fiabilité plutôt que vitesse : L'article souligne que si les LLM génériques sont utiles pour des tâches auxiliaires, ils ne répondent pas aux exigences rigoureuses de la physique des collisionneurs en raison d'un manque de connaissances de domaine et de reproductibilité. CoLLM y répond en intégrant des prompts spécifiques au domaine et des boucles de validation automatisées.
Limitations actuelles : Les auteurs reconnaissent modestement les contraintes actuelles :
- La génération de code est actuellement restreinte au format texte LHCO et ne supporte pas encore le format de données ROOT largement utilisé dans les analyses expérimentales.
- Les ambiguïtés dans les entrées en langage naturel peuvent encore conduire à des variations dans le code généré, exigeant des utilisateurs qu'ils soient précis dans leurs spécifications.
- Le framework dépend de la disponibilité de LLM spécifiques et de ressources de calcul (GPU) pour l'inférence locale, bien qu'il supporte des alternatives d'API cloud.

En conclusion, CoLLM représente une étape significative vers l'automatisation de l'exécution technique des analyses de collisionneurs, garantissant que le code résultant est non seulement syntaxiquement correct, mais aussi physiquement cohérent et reproductible.