⚛️ phenomenology

CoLLM: AI engineering toolbox for end-to-end deep learning in collider analyses

CoLLM es un conjunto de herramientas de ingeniería de IA que aprovecha modelos de lenguaje extensos preentrenados y una interfaz gráfica de usuario para automatizar la generación de código de selección de eventos físicamente consistente y análisis de aprendizaje profundo, reduciendo así las barreras de programación y técnicas para los análisis de colisionadores de extremo a extremo.

Autores originales: W. Esmail, A. Hammad, M. Nojiri

Publicado 2026-02-09

📖 5 min de lectura🧠 Análisis profundo

CC BY 4.0

Autores originales: W. Esmail, A. Hammad, M. Nojiri

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita ni avalada por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Imagina que eres un maestro chef (un físico de partículas) con una idea brillante para un nuevo plato (un experimento científico en el Gran Colisionador de Hadrones). Sabes exactamente qué sabores quieres y cómo deben interactuar los ingredientes. Sin embargo, para cocinar este plato, tienes que pasar horas escribiendo una receta compleja, línea por línea, en un lenguaje que solo una computadora entiende (código Python). Si cometes un solo error tipográfico —como confundir la sal con el azúcar— todo el plato se arruina, y es posible que ni siquiera lo notes hasta que pruebes el resultado final.

CoLLM es como un sous-chef superinteligente y especializado que habla tanto "Chef" (física) como "Computadora" (código) con fluidez. Toma tu idea en inglés sencillo e instantáneamente escribe la receta perfecta y libre de errores para ti, y luego incluso cocina el plato y lo sirve.

Así es como funciona CoLL𝗺, desglosado en pasos simples:

1. El asistente del Chef de "Ingeniería de Vibras"

Normalmente, cuando las personas usan IA para escribir código, solo piden una receta y esperan lo mejor. Esto se llama "vibe coding" (programación de vibras). Pero en la ciencia, un ingrediente equivocado puede arruinar años de trabajo. CoLLM utiliza un enfoque más estricto llamado "vibe engineering" (ingeniería de vibras).

El Prompt (El libro de reglas): Antes de que la IA escriba una sola línea de código, se le entrega un "libro de reglas" masivo y detallado (un prompt de sistema). Este libro de reglas contiene todas las leyes de la física, la forma específica en que se almacenan los datos de partículas y las reglas de oro para cocinar en un laboratorio de colisionadores. Le dice a la IA: "Nunca mezcles estos números" y "Mide siempre este ingrediente de esta manera".
La Traducción: Escribes tu experimento en inglés sencillo: "Quiero encontrar partículas que se vean así, ignora aquellas, y mide la energía de los restos". La IA, guiada por el libro de reglas, traduce esto en un script de Python perfecto.

2. La prueba de sabor autocorrectiva

Incluso los mejores chefs cometen errores. Si la IA escribe una línea de código que hace que la computadora falle (como intentar picar una piedra en lugar de una cebolla), CoLLM no se rinde simplemente.

El Bucle: Ejecuta el código. Si falla, la IA lee el mensaje de error, se da cuenta de: "Ah, olvidé poner una coma aquí", y corrige solo esa parte específica. Lo intenta de nuevo. Sigue haciendo esto hasta que el código funciona perfectamente. Es como un robot que sigue probando la sopa y añadiendo una pizca de sal hasta que está en su punto, sin que tú tengas que levantar una cuchara.

3. El panel de degustación automático (Aprendizaje Profundo)

Una vez que la receta está escrita y los ingredientes están preparados, el siguiente paso suele ser entrenar a una computadora para que reconozca el "sabor" de la señal (las partículas interesantes) frente al ruido de fondo (lo aburrido).

La Caja Mágica: CoLLM no se detiene en escribir la receta. Automáticamente toma los datos preparados y los alimenta en tres tipos diferentes de "máquinas de degustación" (modelos de Deep Learning):
- MLP: Un catador simple y rápido para datos estándar.
- GNN: Un catador inteligente que entiende cómo las partículas están conectadas entre sí, como una red social de ingredientes.
- Transformer: Un supercatador que observa el panorama completo a la vez, comprendiendo las relaciones de largo alcance entre partículas.
El Resultado: Entrena estos modelos, verifica qué tan bien funcionan y te entrega una boleta de calificaciones con gráficos que muestran exactamente qué tan bueno es el modelo para encontrar la "aguja en el pajar".

4. La Interfaz de Usuario: Dos formas de pedir

CoLLM está diseñado para ser amigable con todos, ya seas un mago de la tecnología o solo quieras hacer las cosas.

La Terminal (TUI): Para los profesionales que prefieren escribir comandos y ejecutar scripts en segundo plano.
La Interfaz Gráfica (GUI): Un sitio web colorido y cliqueable donde puedes escribir tu idea, presionar un botón y ver a la IA trabajar en tiempo real, mostrándote los gráficos a medida que se dibujan.

¿Por qué es esto algo importante?

En el pasado, un físico tenía que ser un maestro programador, un científico de datos y un experto en partículas, todo al mismo tiempo. Si eras excelente en física pero malo en programación, estabas estancado.

CoLLM actúa como un traductor universal. Reduce la barrera de entrada, permitiendo que los científicos se concentren en la física (el "qué" y el "por qué") en lugar de la programación (el "cómo"). Asegura que el código no solo esté escrito, sino que sea físicamente correcto, reproducible (obtienes el mismo resultado siempre) y esté validado automáticamente.

En resumen: CoLLM es una herramienta que te permite describir un experimento complejo de física de partículas en inglés sencillo, y automáticamente escribe el código, corrige sus propios errores y entrena a una IA inteligente para encontrar la respuesta, todo sin que necesites ser un experto en programación.

Resumen Técnico: CoLLM – Caja de Herramientas de Ingeniería de IA para Aprendizaje Profundo de Extremo a Extremo en Análisis de Colisionadores

1. Declaración del Problema

Los análisis modernos de colisionadores en el Gran Colisionador de Hadrones (LHC) enfrentan un desafío dual: el aumento de los volúmenes de datos y la creciente complejidad analítica. Un análisis típico requiere traducir conceptos físicos de alto nivel (por ejemplo, reconstrucción de objetos, selección de eventos, computación de observables cinemáticos) en código ejecutable, seguido de la implementación de procesos de aprendizaje profundo para la clasificación de señal-fondo. Este proceso de traducción consume mucho tiempo, es propenso a errores de transcripción (como códigos de identificación de partículas incorrectos o cortes cinemáticos inconsistentes) y demanda experiencia tanto en física de partículas como en ingeniería de software.

Si bien los Modelos de Lenguaje de Gran Escala (LLMs) han mostrado potencial para acelerar los flujos de trabajo científicos, su aplicación directa a procesos completos de análisis de colisionadores es limitada. Los LLMs genéricos carecen de conocimiento integrado de las convenciones de la física de altas energías (HEP), no pueden ejecutar ni validar de forma nativa el código que generan, y producen salidas no deterministas que comprometen la reproducibilidad. Además, el enfoque de "vibe coding" (depender de código generado por IA sin una revisión rigurosa) es riesgoso en la física, donde la exactitud es primordial.

2. Metodología: El Marco CoLLM

CoLLM es un marco de trabajo (framework) de Python de código abierto diseñado para cerrar la brecha entre las especificaciones de análisis en lenguaje natural y los clasificadores de aprendizaje profundo entrenados. Opera como un proceso de extremo a extremo que consta de dos componentes estrechamente integrados:

2.1 Motor de Generación de Código Basado en LLM

La primera etapa traduce especificaciones de lenguaje sencillo en código Python validado para la preselección de eventos y la extracción de características.

Entrada Estructurada: Las entradas del usuario se organizan en tres secciones semánticas: Cortes de Selección (multiplicidad de objetos, restricciones cinemáticas), Gráficos de Validación (distribuciones de diagnóstico) y Estructura de Salida (observables para aprendizaje profundo).
Prompt de Sistema con Conocimiento de Física: Para mitigar la falta de conocimiento de dominio en los modelos genéricos, CoLLM emplea un prompt de sistema exhaustivo. Este prompt codifica:
- Las especificaciones del formato de datos de LHCO (LHC Olympics).
- Códigos estándar de identificación de partículas (por ejemplo, tipo 6 para MET).
- Fórmulas cinemáticas (por ejemplo, masa invariante, masa transversal) con advertencias explícitas contra errores comunes de los LLM (por ejemplo, sumar vs. restar 4-momentos).
- Funciones auxiliares de referencia para el procesamiento (parsing) y la selección de objetos.
Decodificación Determinista: Para asegurar la reproducibilidad, el modelo de generación principal utiliza una temperatura de $T=0$ con decodificación codiciosa (greedy decoding), haciendo que la salida sea una función determinista de la entrada del prompt.
Corrección Automática de Errores (PyFixer): Un segundo LLM, que opera en un modo exploratorio ( $T=0.9$ ), repara iterativamente los fallos de ejecución. Analiza los rastreos de error (tracebacks) y modifica únicamente los segmentos de código defectuosos en lugar de regenerar todo el script, preservando la lógica validada.

2.2 Proceso Automatizado de Aprendizaje Profundo

La segunda etapa consume las características extraídas por el código generado para entrenar clasificadores de señal-fondo. El marco soporta tres arquitecturas, configurables mediante YAML o una Interfaz Gráfica de Usuario (GUI):

Perceptrones Multicapa (MLPs): Para vectores de características cinemáticas de alto nivel y longitud fija.
Redes Neuronales de Grafos (GNNs): Para conjuntos de partículas de multiplicidad variable (por ejemplo, jets, trazas), tratando a las partículas como nodos y las relaciones como aristas. Soporta Redes Convolucionales de Grafos (GCN), Convolución de Borde Dinámica (EdgeConv) y Redes de Atención de Grafos (GAT).
Redes Transformer: Para representaciones de nubes de partículas utilizando mecanismos de autoatención para modelar dependencias de largo alcance sin topología fija.

El proceso automatiza la carga de datos, normalización, construcción de modelos, entrenamiento (con callbacks para parada temprana, programación de la tasa de aprendizaje y precisión mixta) y evaluación utilizando métricas estándar de HEP (por ejemplo, AUC).

2.3 Interfaces de Usuario

CoLLM proporciona dos interfaces:

Interfaz de Usuario de Terminal (TUI): Utiliza archivos de configuración YAML para el procesamiento por lotes y flujos de trabajo reproducibles.
Interfaz Gráfica de Usuario (GUI): Una interfaz web basada en Streamlit para la configuración interactiva, el monitoreo en tiempo real y la depuración visual.

3. Contribuciones Clave

Automatización de Extremo a Endere: CoLLM proporciona un flujo de trabajo unificado desde las especificaciones de física en lenguaje natural hasta los clasificadores de aprendizaje profundo entrenados, reduciendo la carga de codificación manual.
Generación con Conocimiento de Física: A diferencia de los generadores de código genéricos, CoLLM integra las convenciones de HEP directamente en el contexto de generación mediante un prompt de sistema especializado, asegurando la consistencia física en los cálculos cinemáticos y el manejo de objetos.
Reproducibilidad Determinista: Al imponer la decodificación $T=0$ para el generador primario y utilizar un bucle de corrección de errores estructurado, CoLLM aborda el no-determinismo inherente a las aplicaciones estándar de LLM.
Integración Modular de Aprendizaje Profundo: El marco integra sin problemas tres familias distintas de redes neuronales (MLP, GNN, Transformer) adaptadas a diferentes representaciones de eventos de colisionador.
Validación y Benchmarking: Los autores proporcionan un estudio de validación sistemático utilizando cinco procesos de referencia ( $pp \to W^+W^-$ , $t\bar{t}$ , $H \to \gamma\gamma$ , $WZ$, $Hjj$) para demostrar la capacidad del marco para generar lógica de selección correcta y gráficos de diagnóstico.

4. Resultados

El artículo valida CoLLM utilizando el modelo meta-llama/Llama-3.3-70B-Instruct en cinco análisis de referencia.

Corrección del Código: El marco generó con éxito scripts de Python ejecutables para la producción de pares de quarks top semileptónicos complejos y otros procesos, procesando correctamente los archivos LHCO, aplicando cortes de selección y computando variables cinemáticas.
Reproducibilidad: En ejecuciones repetidas con entradas idénticas, el marco produjo resultados de flujo de cortes (cutflow) consistentes. Las variaciones menores observadas se atribuyeron a ambigüedades en el prompt del usuario (por ejemplo, la definición de "leading jets") más que a la estocasticidad del modelo, resaltando la importancia de las especificaciones precisas del usuario.
Validación de Física: Los histogramas generados (por ejemplo, masa invariante de dijets, masa transversal) exhibieron características físicas esperadas, tales como picos cerca de las masas de los bosones $W$ y del quark top, y bordes de Jacobiano para decaimientos $W \to \ell\nu$ .
Corrección de Errores: El módulo PyFixer resolvió la mayoría de los errores de ejecución dentro de una o dos iteraciones de refinamiento, demostizando la eficacia del mecanismo de reparación iterativa.

5. Significado y Reivindicaciones

Los autores posicionan a CoLLM no como un reemplazo de la experiencia del físico, sino como una herramienta para el "vibe engineering"—un enfoque disciplinado donde los LLM asisten en la generación de código mientras el marco impone una validación estricta y restricciones físicas.

Reducción de la Barrera de Entrada: CoLLM busca simplificar la complejidad técnica de los análisis de colisionadores, haciendo que los métodos sofisticados de selección de eventos y aprendizaje profundo sean accesibles para físicos que puedan carecer de amplia experiencia en programación.
Fiabilidad sobre Velocidad: El artículo enfatiza que, si bien los LLM genéricos son útiles para tareas auxiliares, fallan en cumplir con los rigurosos requisitos de la física de colisionadores debido a la falta de conocimiento de dominio y reproducibilidad. CoLLM aborda esto integrando prompts específicos de dominio y bucles de validación automatizados.
Limitaciones Actuales: Los autores reconocen modestamente las limitaciones actuales:
- La generación de código está restringida actualmente al formato de texto LHCO y aún no soporta el formato de datos ROOT ampliamente utilizado en análisis experimentales.
- Las ambigüedades en las entradas de lenguaje natural aún pueden conducir a variaciones en el código generado, lo que requiere que los usuarios sean precisos en sus especificaciones.
- El marco depende de la disponibilidad de LLM específicos y recursos computacionales (GPUs) para la inferencia local, aunque soporta alternativas de API en la nube.

En conclusión, CoLLM representa un paso significativo hacia la automatización de la ejecución técnica de los análisis de colisionadores, asegurando que el código resultante no solo sea sintácticamente correcto, sino también físicamente consistente y reproducible.