⚛️ phenomenology

CoLLM: AI engineering toolbox for end-to-end deep learning in collider analyses

CoLLM è un toolkit di ingegneria dell'IA che sfrutta grandi modelli linguistici preaddestrati e un'interfaccia grafica per automatizzare la generazione di codice di selezione degli eventi fisicamente coerente e di analisi di deep learning, abbassando così le barriere di programmazione e tecniche per le analisi end-to-end nei collisionatori.

Autori originali: W. Esmail, A. Hammad, M. Nojiri

Pubblicato 2026-02-09

📖 5 min di lettura🧠 Approfondimento

CC BY 4.0

Autori originali: W. Esmail, A. Hammad, M. Nojiri

Articolo originale sotto licenza CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Questa è una spiegazione generata dall'IA dell'articolo qui sotto. Non è stata scritta né approvata dagli autori. Per precisione tecnica, consulta l'articolo originale. Leggi il disclaimer completo

Immagina di essere un maestro chef (un fisico delle particelle) con un'idea brillante per un nuovo piatto (un esperimento scientifico al Large Hadron Collider). Sai esattamente quali sapori vuoi e come dovrebbero interagire gli ingredienti. Tuttavia, per cucinare effettivamente questo piatto, devi passare ore a scrivere una ricetta complessa, riga per riga, in un linguaggio che solo un computer comprende (codice Python). Se commetti anche un solo errore di battitura — come confondere il sale con lo zucchero — l'intero piatto è rovinato, e potresti persino non accorgertene finché non ne assaggi il risultato finale.

CoLLM è come un sous-chef super intelligente e specializzato che parla sia la lingua dello "Chef" (la fisica) che quella del "Computer" (il codice) correntemente. Prende la tua idea in semplice inglese e scrive istantaneamente la ricetta perfetta ed esente da errori per te, poi cucina persino il piatto e te lo serve.

Ecco come funziona CoLLM, suddiviso in semplici passaggi:

1. L'assistente dello Chef per l'"Ingegneria del Vibe"

Di solito, quando le persone usano l'IA per scrivere codice, chiedono semplicemente una ricetta e sperano nel meglio. Questo è chiamato "vibe coding". Ma nella scienza, un ingrediente sbagliato può rovinare anni di lavoro. CoLLM utilizza un approccio più rigoroso chiamato "vibe engineering".

Il Prompt (Il libro delle regole): Prima che l'IA scriva una singola riga di codice, le viene dato un "libro delle regole" (system prompt) massiccio e dettagliato. Questo libro contiene tutte le leggi della fisica, il modo specifico in cui i dati delle particelle sono memorizzati e le regole d'oro per cucinare in un laboratorio di collisionatori. Dice all'IA: "Non confondere mai questi numeri" e "Misura sempre questo ingrediente in questo modo".
La Traduzione: Tu scrivi il tuo esperimento in semplice inglese: "Voglio trovare particelle che abbiano questo aspetto, ignora quelle, e misura l'energia dei residui". L'IA, guidata dal libro delle regole, traduce tutto in uno script Python perfetto.

2. Il test del gusto autocorrettivo

Anche i migliori chef commettono errori. Se l'IA scrive una riga di codice che manda in crash il computer (come cercare di tagliare una pietra invece di una cipolla), CoLLM non si arrende semplicemente.

Il Ciclo: Esegue il codice. Se si interrompe, l'IA legge il messaggio di errore, si rende conto che "Oh, ho dimenticato una virgola lì", e corregge solo quella parte specifica. Ci riprova. Continua a farlo finché il codice non gira perfettamente. È come un robot che continua a assaggiare la zuppa e ad aggiungere un pizzico di sale finché non è perfetta, senza che tu debba nemmeno sollevare un cucchiaio.

3. La commissione di degustazione automatica (Deep Learning)

Una volta scritta la ricetta e preparati gli ingredienti, il passo successivo è solitamente addestrare un computer a riconoscere il "sapore" del segnale (le particelle interessanti) rispetto al rumore di fondo (le cose noiose).

La Scatola Magica: CoLLM non si ferma alla scrittura della ricetta. Prende automaticamente i dati preparati e li alimenta in tre diversi tipi di "macchine di degustazione" (modelli di Deep Learning):
- MLP: Un degustatore semplice e veloce per i dati standard.
- GNN: Un degustatore intelligente che capisce come le particelle sono connesse tra loro, come una rete sociale di ingredienti.
- Transformer: Un super-degustatore che guarda l'insieme in un colpo solo, comprendendo le relazioni a lungo raggio tra le particelle.
Il Risultato: Addestra questi modelli, controlla quanto funzionano bene e ti consegna una pagella con grafici che mostrano esattamente quanto è bravo il modello a trovare "l'ago nel pagliaio".

4. L'interfaccia utente: Due modi per ordinare

CoLLM è progettato per essere amichevole con tutti, sia che tu sia un mago della tecnologia, sia che tu voglia solo portare a termine il lavoro.

Il Terminale (TUI): Per i professionisti che amano digitare comandi ed eseguire script in background.
L'Interfaccia Grafica (GUI): Un sito web colorato e cliccabile dove puoi scrivere la tua idea, premere un pulsante e guardare l'IA lavorare in tempo reale, mostrandoti i grafici mentre vengono disegnati.

Perché è una grande novità?

In passato, un fisico doveva essere un maestro programmatore, un esperto di data science e un esperto di particelle tutto in uno. Se eri un grande fisico ma un pessimo programmatore, eri bloccato.

CoLLM agisce come un traduttore universale. Abbassa la barriera all'ingresso, permettendo agli scienziati di concentrarsi sulla fisica (il "cosa" e il "perché") piuttosto che sul coding (il "come"). Garantisce che il codice non sia solo scritto, ma sia fisicamente corretto, riproducibile (ottieni sempre lo stesso risultato) e automaticamente validato.

In breve: CoLLM è uno strumento che ti permette di descrivere un complesso esperimento di fisica delle particelle in semplice inglese, e lui scrive automaticamente il codice, corregge i propri errori e addestra un'IA intelligente per trovare la risposta, il tutto senza che tu debba essere un esperto di programmazione.

Sintesi Tecnica: CoLLM – Toolbox di Ingegneria dell'IA per il Deep Learning End-to-End nelle Analisi dei Collider

1. Definizione del Problema

Le moderne analisi dei collider presso il Large Hadron Collider (LHC) affrontano una doppia sfida: l'aumento dei volumi di dati e l'escalation della complessità analitica. Un'analisi tipica richiede la traduzione di concetti fisici di alto livello (ad esempio, ricostruzione degli oggetti, selezione degli eventi, computazione di osservabili cinematici) in codice eseguibile, seguita dall'implementazione di pipeline di deep learning per la classificazione segnale-fondo. Questo processo di traduzione è dispendioso in termini di tempo, incline a errori di trascrizione (come codici di identificazione delle particelle errati o tagli cinematici inconsistenti) e richiede competenze sia nella fisica delle particelle che nell'ingegneria del software.

Sebbene i Large Language Models (LLM) abbiano mostrato promesse nell'accelerare i flussi di lavoro scientifici, la loro applicazione diretta alle intere pipeline di analisi dei collider è limitata. Gli LLM generici mancano di una conoscenza integrata delle convenzioni della fisica delle alte energie (HEP), non possono eseguire o validare nativamente il codice che generano e producono output non deterministici che compromettono la riproducibilità. Inoltre, l'approccio "vibe coding" (fare affidamento su codice generato dall'IA senza una revisione rigorosa) è rischioso nella fisica, dove la correttezza è fondamentale.

2. Metodologia: Il Framework CoLLM

CoLLM è un framework Python open-source progettato per colmare il divario tra le specifiche di analisi in linguaggio naturale e i classificatori di deep learning addestrati. Opera come una pipeline end-to-end composta da due componenti strettamente integrate:

2.1 Motore di Generazione del Codice Basato su LLM

La prima fase traduce specifiche in linguaggio naturale in codice Python validato per la preselezione degli eventi e l'estrazione delle caratteristiche.

Input Strutturato: Gli input dell'utente sono organizzati in tre sezioni semantiche: Selection Cuts (molteplicità degli oggetti, vincoli cinematici), Validation Plots (distribuzioni diagnostiche) e Output Structure (osservabili per il deep learning).
Prompt di Sistema Consapevole della Fisica: Per mitigare la mancanza di conoscenza del dominio nei modelli generici, CoLLM impiega un prompt di sistema completo. Questo prompt codifica:
- Le specifiche del formato dei dati LHCO (LHC Olympics).
- Codici standard di identificazione delle particelle (ad esempio, tipo 6 per MET).
- Formule cinematiche (ad esempio, massa invariante, massa trasversa) con avvisi espliciti contro gli errori comuni degli LLM (ad esempio, sommare vs sottrarre i 4-momenti).
- Funzioni helper di riferimento per il parsing e la selezione degli oggetti.
Decodifica Deterministica: Per garantire la riproducibilità, il modello di generazione primario utilizza una temperatura di $T=0$ con decodifica greedy, rendendo l'output una funzione deterministica dell'input del prompt.
Correzione Automatica degli Errori (PyFixer): Un secondo LLM, operante in modalità esplorativa ( $T=0.9$ ), ripara iterativamente i fallimenti di esecuzione. Analizza i traceback e modifica solo i segmenti di codice difettosi invece di rigenerare l'intero script, preservando la logica validata.

2.2 Pipeline di Deep Learning Automatizzata

La seconda fase consuma le caratteristiche estratte dal codice generato per addestrare i classificatori segnale-fondo. Il framework supporta tre architetture, configurabili tramite YAML o un'interfaccia grafica (GUI):

Multi-Layer Perceptrons (MLP): Per vettori di caratteristiche cinematiche ad alto livello e lunghezza fissa.
Graph Neural Networks (GNN): Per set di particelle a molteplicità variabile (ad esempio, jet, tracce), trattando le particelle come nodi e le relazioni come archi. Supporta Graph Convolutional Networks (GCN), Dynamic Edge Convolution (EdgeConv) e Graph Attention Networks (GAT).
Reti Transformer: Per rappresentazioni di nuvole di particelle mediante meccanismi di self-attention per modellare dipendenze a lungo raggio senza topologia fissa.

La pipeline automatizza il caricamento dei dati, la normalizzazione, la costruzione del modello, l'addestramento (con callback per l'early stopping, lo scheduling del learning rate e la precisione mista) e la valutazione utilizzando metriche standard HEP (ad esempio, AUC).

2.3 Interfacce Utente

CoLLM fornisce due interfacce:

Interfaccia Utente da Terminale (TUI): Utilizza file di configurazione YAML per l'elaborazione batch e i flussi di lavoro riproducibili.
Interfaccia Utente Grafica (GUI): Un'interfaccia web basata su Streamlit per la configurazione interattiva, il monitoraggio in tempo reale e il debugging visivo.

3. Contributi Chiave

Automazione End-to-End: CoLLM fornisce un flusso di lavoro unificato dalle specifiche fisiche in linguaggio naturale ai classificatori di deep learning addestrati, riducendo l'onere della codifica manuale.
Generazione Consapevole della Fisica: A differenza dei generatori di codice generici, CoLLM integra le convenzioni HEP direttamente nel contesto di generazione tramite un prompt di sistema specializzato, garantendo la coerenza fisica nei calcoli cinematici e nella gestione degli oggetti.
Riproducibilità Deterministica: Imponendo la decodifica $T=0$ per il generatore primario e utilizzando un ciclo di correzione degli errori strutturato, CoLLM affronta il non-determinismo inerente alle applicazioni standard degli LLM.
Integrazione Modulare del Deep Learning: Il framework integra perfettamente tre diverse famiglie di reti neurali (MLP, GNN, Transformer) adattate a differenti rappresentazioni di eventi dei collider.
Validazione e Benchmarking: Gli autori forniscono uno studio di validazione sistematica utilizzando cinque processi benchmark ( $pp \to W^+W^-$ , $t\bar{t}$ , $H \to \gamma\gamma$ , $WZ$, $Hjj$) per dimostrare la capacità del framework di generare una logica di selezione corretta e grafici diagnostici.

4. Risultati

Il paper valida CoLLM utilizzando il modello meta-llama/Llama-3.3-70B-Instruct su cinque analisi benchmark.

Correttezza del Codice: Il framework ha generato con successo script Python eseguibili per la complessa produzione di coppie di quark top semi-leptonici e altri processi, analizzando correttamente i file LHCO, applicando i tagli di selezione e computando le variabili cinematiche.
Riproducibilità: In esecuzioni ripetute con input identici, il framework ha prodotto risultati di cutflow coerenti. Le variazioni minori osservate sono state attribuite ad ambiguità nel prompt dell'utente (ad esempio, la definizione di "leading jets") piuttosto che alla stocasticità del modello, evidenziando l'importanza di specifiche utente precise.
Validazione Fisica: Gli istogrammi generati (ad esempio, massa invariante di dijet, massa trasversa) hanno esibito caratteristiche fisiche attese, come picchi vicino alle masse del bosone $W$ e del quark top, e bordi di Jacobian per i decadimenti $W \to \ell\nu$ .
Correzione degli Errori: Il modulo PyFixer ha risolto la maggior parte degli errori di esecuzione entro uno o due cicli di raffinamento, dimostrando l'efficacia del meccanismo di riparazione iterativa.

5. Significato e Rivendicazioni

Gli autori posizionano CoLLM non come un sostituto dell'esperienza del fisico, ma come uno strumento per la "vibe engineering": un approccio disciplinato in cui gli LLM assistono nella generazione del codice mentre il framework impone una validazione rigorosa e vincoli fisici.

Abbassare la Barriera: CoLLM mira a semplificare la complessità tecnica delle analisi dei collider, rendendo accessibili metodi sofisticati di selezione degli eventi e deep learning a fisici che potrebbero non avere una vasta esperienza di programmazione.
Affidabilità rispetto alla Velocità: Il paper sottolinea che, sebbene gli LLM generici siano utili per compiti ausiliari, essi non soddisfano i rigorosi requisiti della fisica dei collider a causa della mancanza di conoscenza del dominio e riproducibilità. CoLLM affronta questo problema integrando prompt specifici del dominio e cicli di validazione automatizzati.
Limitazioni Attuali: Gli autori riconoscono modestamente i vincoli attuali:
- La generazione del codice è attualmente limitata al formato testuale LHCO e non supporta ancora il formato di dati ROOT ampiamente utilizzato nelle analisi sperimentali.
- Le ambiguità negli input in linguaggio naturale possono ancora portare a variazioni nel codice generato, richiedendo agli utenti di essere precisi nelle loro specifiche.
- Il framework dipende dalla disponibilità di specifici LLM e risorse computazionali (GPU) per l'inferenza locale, sebbene supporti alternative API cloud.

In conclusione, CoLLM rappresenta un passo significativo verso l'automazione dell'esecuzione tecnica delle analisi dei collider, garantendo che il codice risultante non sia solo sintatticamente corretto, ma anche fisicamente coerente e riproducibile.