⚛️ phenomenology

CoLLM: AI engineering toolbox for end-to-end deep learning in collider analyses

O CoLLM é uma caixa de ferramentas de engenharia de IA que aproveita grandes modelos de linguagem pré-treinados e uma interface gráfica do usuário para automatizar a geração de código de seleção de eventos fisicamente consistente e análises de aprendizado profundo, reduzindo, assim, as barreiras de programação e técnicas para análises de colisor de ponta a ponta.

Autores originais: W. Esmail, A. Hammad, M. Nojiri

Publicado 2026-02-09

📖 5 min de leitura🧠 Leitura aprofundada

CC BY 4.0

Autores originais: W. Esmail, A. Hammad, M. Nojiri

Artigo original sob licença CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita nem endossada pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

Imagine que você é um mestre cuca (um físico de partículas) com uma ideia brilhante para um novo prato (um experimento científico no Grande Colisor de Hádrons). Você sabe exatamente quais sabores deseja e como os ingredientes devem interagir. No entanto, para realmente cozinhar esse prato, você tem que passar horas escrevendo uma receita complexa, linha por linha, em uma linguagem que apenas um computador entende (código Python). Se você cometer um único erro de digitação — como confundir sal com açúcar — todo o prato será arruinado, e você pode nem notar até provar o resultado final.

CoLLM é como um subchefe superinteligente e especializado que fala tanto a língua do "Chef" (física) quanto a do "Computador" (código) fluentemente. Ele pega sua ideia em inglês simples e escreve instantaneamente a receita perfeita e livre de erros para você, e então até cozinha o prato e o serve.

Aqui está como o CoLLM funciona, dividido em etapas simples:

1. O Assistente de Chef de "Engenharia de Vibe"

Normalmente, quando as pessoas usam IA para escrever código, elas apenas pedem uma receita e esperam pelo melhor. Isso é chamado de "vibe coding". Mas na ciência, um ingrediente errado pode arruinar anos de trabalho. O CoLLM utiliza uma abordagem mais rigorosa chamada "vibe engineering".

O Prompt (O Livro de Regras): Antes de a IA escrever uma única linha de código, ela recebe um "livro de regras" massivo e detalhado (um prompt de sistema). Este livro de regras contém todas as leis da física, a maneira específica como os dados de partículas são armazenados e as regras de ouro para cozinhar em um laboratório de colisor. Ele diz à IA: "Nunca misture estes números" e "Sempre meça este ingrediente desta maneira".
A Tradução: Você digita seu experimento em inglês simples: "Quero encontrar partículas que pareçam com isto, ignore aquelas, e meça a energia dos restos." A IA, guiada pelo livro de regras, traduz isso em um script Python perfeito.

2. O Teste de Sabor Autocorretivo

Até os melhores chefs cometem erros. Se a IA escrever uma linha de código que trava o computador (como tentar picar uma pedra em vez de uma cebola), o CoLLM não desiste simplesmente.

O Loop: Ele executa o código. Se ele quebrar, a IA lê a mensagem de erro, percebe: "Ah, esqueci de colocar uma vírgula aqui", e corrige apenas essa parte específica. Ela tenta novamente. Ela continua fazendo isso até que o código funcione perfeitamente. É como um robô que continua provando a sopa e adicionando uma pitada de sal até que esteja perfeita, sem que você precise levantar uma colher.

3. O Painel de Degustação Automático (Aprendizado Profundo)

Depois que a receita é escrita e os ingredientes estão preparados, a próxima etapa é geralmente treinar um computador para reconhecer o "sabor" do sinal (as partículas interessantes) versus o ruído de fundo (as coisas chatas).

A Caixa Mágica: O CoLLM não para na escrita da receita. Ele automaticamente pega os dados preparados e os alimenta em três tipos diferentes de "máquinas de degustação" (modelos de Deep Learning):
- MLP: Um degustador simples e rápido para dados padrão.
- GNN: Um degustador inteligente que entende como as partículas se conectam entre si, como uma rede social de ingredientes.
- Transformer: Um super-degustador que olha para o quadro geral de uma só vez, entendendo as relações de longo alcance entre as partículas.
O Resultado: Ele treina esses modelos, verifica o quão bem eles funcionam e entrega um boletim com gráficos mostrando exatamente o quão bom o modelo é em encontrar a "agulha no palheiro".

4. A Interface do Usuário: Duas Maneiras de Pedir

O CoLLM foi projetado para ser amigável a todos, quer você seja um mago da tecnologia ou apenas queira realizar suas tarefas.

O Terminal (TUI): Para os profissionais que gostam de digitar comandos e executar scripts em segundo plano.
A Interface Gráfica (GUI): Um site colorido e clicável onde você pode digitar sua ideia, apertar um botão e assistir à IA trabalhar em tempo real, mostrando os gráficos conforme eles são desenhados.

Por que isso é importante?

No passado, um físico tinha que ser um mestre programador, um cientista de dados e um especialista em partículas, tudo ao mesmo tempo. Se você fosse ótimo em física, mas ruim em programação, você ficava estagnado.

O CoLLM atua como um tradutor universal. Ele reduz a barreira de entrada, permitindo que os cientistas foquem na física (o "quê" e o "porquê") em vez da programação (o "como"). Ele garante que o código não seja apenas escrito, mas que seja fisicamente correto, reprodutível (você obtém o mesmo resultado sempre) e automaticamente validado.

Em resumo: O CoLLM é uma ferramenta que permite descrever um experimento complexo de física de partículas em inglês simples, e ele automaticamente escreve o código, corrige seus próprios erros e treina uma IA inteligente para encontrar a resposta, tudo isso sem que você precise ser um especialista em programação.

Resumo Técnico: CoLLM – Ferramenta de Engenharia de IA para Aprendizado Profundo de Ponta a Ponta em Análises de Colisores

1. Definição do Problema

As análises modernas de colisores no LHC (Large Hadron Collider) enfrentam um desafio duplo: o aumento dos volumes de dados e a escalada da complexidade analítica. Uma análise típica requer a tradução de conceitos físicos de alto nível (ex: reconstrução de objetos, seleção de eventos, computação de observáveis cinemáticos) em código executável, seguido pela implementação de pipelines de aprendizado profundo para classificação de sinal-fundo. Este processo de tradução é demorado, propenso a erros de transcrição (como códigos de identificação de partículas incorretos ou cortes cinemáticos inconsistentes) e exige perícia tanto em física de partículas quanto em engenharia de software.

Embora os Grandes Modelos de Linguagem (LLMs) tenham mostrado promessa na aceleração de fluxos de trabalho científicos, sua aplicação direta a pipelines completos de análise de colisor é limitada. LLMs genéricos carecem de conhecimento incorporado de convenções de física de altas energias (HEP), não conseguem executar ou validar nativamente o código que geram e produzem saídas não determinísticas que comprometem a reprodutibilidade. Além disso, a abordagem de "vibe coding" (confiar em código gerado por IA sem revisão rigorosa) é arriscada na física, onde a correção é primordial.

2. Metodologia: O Framework CoLLM

O CoLLM é um framework Python de código aberto projetado para preencher a lacuna entre especificações de análise em linguagem natural e classificadores de aprendizado profundo treinados. Ele opera como um pipeline de ponta a ponta consistindo de dois componentes estritamente integrados:

2.1 Mecanismo de Geração de Código Baseado em LLM

A primeira etapa traduz especificações de linguagem simples em código Python validado para pré-seleção de eventos e extração de características.

Entrada Estruturada: As entradas do usuário são organizadas em três seções semânticas: Cortes de Seleção (multiplicidades de objetos, restrições cinemáticas), Gráficos de Validação (distribuições diagnósticas) e Estrutura de Saída (observáveis para aprendizado profundo).
Prompt de Sistema com Conhecimento de Física: Para mitigar a falta de conhecimento de domínio em modelos genéricos, o CoLLM emprega um prompt de sistema abrangente. Este prompt codifica:
- As especificações de formato de dados do LHCO (LHC Olympics).
- Códigos padrão de identificação de partículas (ex: tipo 6 para MET).
- Fórmulas cinemáticas (ex: massa invariante, massa transversa) com avisos explícitos contra erros comuns de LLM (ex: somar vs. subtrair 4-momentos).
- Funções auxiliares de referência para parsing e seleção de objetos.
Decodificação Determinística: Para garantir a reprodutibilidade, o modelo de geração primário utiliza uma temperatura de $T=0$ com decodificação gananciosa (greedy decoding), tornando a saída uma função determinística do prompt de entrada.
Correção Automática de Erros (PyFixer): Um LLM secundário, operando em modo exploratório ( $T=0.9$ ), repara iterativamente falhas de execução. Ele analisa rastros de erro (tracebacks) e modifica apenas os segmentos de código defeituosos em vez de regenerar todo o script, preservando a lógica validada.

2.2 Pipeline de Aprendizado Profundo Automatizado

A segunda etapa consome as características extraídas pelo código gerado para treinar classificadores de sinal-fundo. O framework suporta três arquiteturas, configuráveis via YAML ou uma Interface Gráfica do Usuário (GUI):

Perceptrons de Camada Multicamadas (MLPs): Para vetores de características cinemáticas de alto nível e comprimento fixo.
Redes Neurais de Grafos (GNNs): Para conjuntos de partículas de multiplicidade variável (ex: jatos, tracks), tratando partículas como nós e relações como arestas. Suporta Redes Convolucionais de Grafos (GCNs), Convolução de Aresta Dinâmica (EdgeConv) e Redes de Atenção de Grafos (GATs).
Redes Transformer: Para representações de nuvem de partículas usando mecanismos de autoatenção para modelar dependências de longo alcance sem topologia fixa.

O pipeline automatiza o carregamento de dados, normalização, construção de modelos, treinamento (com callbacks para parada precoce, escalonamento de taxa de aprendizado e precisão mista) e avaliação usando métricas padrão de HEP (ex: AUC).

2.3 Interfaces de Usuário

O CoLLM fornece duas interfaces:

Interface de Usuário de Terminal (TUI): Utiliza arquivos de configuração YAML para processamento em lote e fluxos de trabalho reprodutíveis.
Interface Gráfica do Usuário (GUI): Uma interface web baseada em Streamlit para configuração interativa, monitoramento em tempo real e depuração visual.

3. Principais Contribuições

Automação de Ponta a Ponta: O CoLLM fornece um fluxo de trabalho unificado, desde especificações de física em linguagem natural até classificadores de aprendizado profundo treinados, reduzindo a carga de codificação manual.
Geração com Conhecimento de Física: Diferente de geradores de código genéricos, o CoLLM incorpora convenções de HEP diretamente no contexto de geração via um prompt de sistema especializado, garantindo consistência física nos cálculos cinemáticos e manipulação de objetos.
Reprodutibilidade Determinística: Ao impor a decodificação $T=0$ para o gerador primário e utilizar um loop de correção de erro estruturado, o CoLLM aborda o não-determinismo inerente às aplicações padrão de LLM.
Integração Modular de Aprendizado Profundo: O framework integra perfeitamente três famílias distintas de redes neurais (MLP, GNN, Transformer) adaptadas para diferentes representações de eventos de colisor.
Validação e Benchmarking: Os autores fornecem um estudo de validação sistemática usando cinco processos de referência ( $pp \to W^+W^-$ , $t\bar{t}$ , $H \to \gamma\gamma$ , $WZ$, $Hjj$) para demonstrar a capacidade do framework de gerar lógica de seleção correta e gráficos diagnósticos.

4. Resultados

O artigo valida o CoLLM utilizando o modelo meta-llama/Llama-3.3-70B-Instruct em cinco análises de referência.

Correção de Código: O framework gerou com sucesso scripts Python executáveis para a produção complexa de pares de quarks top semiletrônicos e outros processos, realizando o parsing correto de arquivos LHCO, aplicando cortes de seleção e computando variáveis cinemáticas.
Reprodutibilidade: Em execuções repetidas com entradas idênticas, o framework produziu resultados de cutflow consistentes. Pequenas variações observadas foram atribuídas a ambiguidades no prompt do usuário (ex: a definição de "leading jets") em vez de estocasticidade do modelo, destacando a importância de especificações precisas do usuário.
Validação de Física: Histogramas gerados (ex: massa invariante de dijets, massa transversa) exibiram características físicas esperadas, como picos próximos às massas dos bósons $W$ e quarks top, e bordas de Jacobian para decaimentos $W \to \ell\nu$ .
Correção de Erros: O módulo PyFixer resolveu a maioria dos erros de execução dentro de uma ou duas iterações de refinamento, demonstrando a eficácia do mecanismo de reparo iterativo.

5. Significância e Alegações

Os autores posicionam o CoLLM não como um substituto para a perícia do físico, mas como uma ferramenta para "vibe engineering" — uma abordagem disciplinada onde os LLMs auxiliam na geração de código enquanto o framework impõe validação rigorosa e restrições físicas.

Redução de Barreiras: O CoLLM visa simplificar a complexidade técnica das análises de colisor, tornando métodos sofisticados de seleção de eventos e aprendizado profundo acessíveis a físicos que podem carecer de extensa experiência em programação.
Confiabilidade sobre Velocidade: O artigo enfatiza que, embora os LLMs genéricos sejam úteis para tarefas auxiliares, eles falham em atender aos requisitos rigorosos da física de colisores devido à falta de conhecimento de domínio e reprodutibilidade. O CoLLM aborda isso integrando prompts específicos de domínio e loops de validação automatizados.
Limitações Atuais: Os autores reconhecem modestamente as restrições atuais:
- A geração de código é atualmente restrita ao formato de texto LHCO e ainda não suporta o formato de dados ROOT amplamente utilizado em análises experimentais.
- Ambiguidades nas entradas de linguagem natural ainda podem levar a variações no código gerado, exigindo que os usuários sejam precisos em suas especificações.
- O framework depende da disponibilidade de LLMs específicos e recursos computacionais (GPUs) para inferência local, embora suporte alternativas de API na nuvem.

Em conclusão, o CoLLM representa um passo significativo em direção à automação da execução técnica de análises de colisor, garantindo que o código resultante não seja apenas sintaticamente correto, mas também fisicamente consistente e reprodutível.