⚛️ phenomenology

CoLLM: AI engineering toolbox for end-to-end deep learning in collider analyses

CoLLM은 사전 학습된 대규모 언어 모델과 그래픽 사용자 인터페이스를 활용하여 물리적으로 일관된 이벤트 선택 코드 및 딥러닝 분석 생성을 자동화함으로써, 엔드 투 엔드 충돌기 분석을 위한 프로그래밍 및 기술적 장벽을 낮추는 AI 엔지니어링 툴박스입니다.

원저자: W. Esmail, A. Hammad, M. Nojiri

게시일 2026-02-09

📖 3 분 읽기🧠 심층 분석

CC BY 4.0

원저자: W. Esmail, A. Hammad, M. Nojiri

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

당신이 거장 셰프(입자 물리학자)라고 상상해 보세요. 당신은 새로운 요리(거대 강입자 가속기에서의 과학 실험)에 대한 아주 멋진 아이디어를 가지고 있습니다. 당신은 어떤 맛을 원하는지, 그리고 재료들이 어떻게 상호작용해야 하는지 정확히 알고 있습니다. 하지만 이 요리를 실제로 만들기 위해서는, 오직 컴퓨터만이 이해할 수 있는 언어(Python 코드)로 복잡하고 한 줄 한 줄 정교한 레시피를 작성하는 데 수 시간을 보내야 합니다. 만약 당신이 소금과 설탕을 헷갈리는 것과 같은 단 하나의 오타라도 낸다면, 요리 전체를 망치게 될 것이며, 최종 결과물을 맛보기 전까지는 그 사실조차 알아차리지 못할 수도 있습니다.

CoLLM은 "셰프"(물리학)와 "컴퓨터"(코드)라는 두 가지 언어를 모두 유창하게 구사하는 매우 똑똑하고 전문적인 수셰프(부주방장)와 같습니다. CoLLM은 당신의 아이디어를 평범한 영어 문장으로 받아들여, 즉각적으로 완벽하고 오류 없는 레시피를 작성해 줍니다. 그 후 직접 요리까지 해서 완성된 요리를 내놓습니다.

CoLLM이 어떻게 작동하는지, 간단한 단계별로 설명해 드리겠습니다.

1. "바이브 엔지니어링" 셰프의 조수

보통 사람들이 AI를 사용하여 코드를 작성할 때, 그들은 그저 레시피를 요청하고 결과가 잘 나오기를 기도합니다. 이것을 "바이브 코딩(vibe coding)"이라고 부릅니다. 하지만 과학에서는 잘못된 재료 하나가 몇 년간의 노력을 망칠 수 있습니다. CoLLL은 더 엄격한 방식인 **"바이브 엔지니어링(vibe engineering)"**을 사용합니다.

프롬프트 (규칙서): AI가 코드 한 줄을 쓰기 전에, 방대한 양의 상세한 "규칙서"(시스템 프롬프트)가 주어집니다. 이 규칙서에는 모든 물리학 법칙, 입자 데이터가 저장되는 특정한 방식, 그리고 가속기 실험실에서 요리하는 황금률이 담겨 있습니다. 이 규칙서는 AI에게 "절대로 이 숫자들을 혼동하지 마라", "항상 이 재료는 이런 방식으로 측정하라"라고 지시합니다.
번역: 당신은 당신의 실험을 평범한 영어로 입력합니다: "나는 이런 것처럼 보이는 입자들을 찾고 싶고, 저런 것들은 무시하며, 남은 찌꺼기들의 에너지를 측정하고 싶어." 그러면 규칙서의 안내를 받는 AI는 이를 완벽한 Python 스크립트로 번역합니다.

2. 스스로 교정하는 맛 테스트

최고의 셰프라도 실수를 할 수 있습니다. 만약 AI가 컴퓨터를 충돌시키는 코드(예를 들어 양파 대신 돌을 다지려고 하는 경우)를 작성한다면, CoLLM은 그냥 포기하지 않습니다.

루프 (반복): 코드를 실행합니다. 만약 코드가 깨지면, AI는 에러 메시지를 읽고, "아, 여기에 쉼표를 넣는 걸 깜빡했구나"라고 깨달은 뒤, 오직 그 특정 부분만을 수정합니다. 그리고 다시 시도합니다. 이 과정을 코드가 완벽하게 돌아갈 때까지 반복합니다. 이는 마치 로봇이 당신이 숟가락을 들 필요도 없이, 국의 맛을 계속 보면서 딱 알맞은 양의 소금을 추가할 때까지 반복하는 것과 같습니다.

3. 자동 시식 패널 (딥러닝)

레시피가 작성되고 재료가 준비되면, 다음 단계는 보통 신호(흥미로운 입자)와 배경 소음(지루한 것들)을 구분하도록 컴퓨터를 훈련시키는 것입니다.

마법 상자: CoLLM은 레시피를 쓰는 데서 멈추지 않습니다. 준비된 데이터를 자동으로 가져가서 세 가지 유형의 "시식 기계"(딥러닝 모델)에 입력합니다.
- MLP: 표준 데이터를 위한 단순하고 빠른 시식가입니다.
- GNN: 입자들이 서로 어떻게 연결되어 있는지(마치 재료들의 소셜 네트워크처럼) 이해하는 똑똑한 시식가입니다.
- Transformer: 전체적인 그림을 한꺼번에 보는 초능력 시식가로, 입자들 사이의 장거리 관계를 이해합니다.
결과: 이 모델들을 훈련시키고, 얼마나 잘 작동하는지 확인한 뒤, 모델이 "건초더미 속의 바늘"을 얼마나 잘 찾아내는지 보여주는 그래프와 함께 성적표를 제출합니다.

4. 사용자 인터페이스: 두 가지 주문 방식

CoLLM은 기술 전문가든, 단순히 일을 빨리 처리하고 싶은 사람이든 상관없이 누구나 사용하기 편리하게 설계되었습니다.

터미널 (TUI): 명령어를 입력하고 백그라운드에서 스크립트를 실행하는 것을 좋아하는 전문가들을 위한 방식입니다.
그래픽 인터페이스 (GUI): 당신의 아이디어를 입력하고 버튼을 누르면, AI가 실시간으로 작업하는 모습을 지켜보며 그래프가 그려지는 과정을 볼 수 있는 화려하고 클릭 가능한 웹사이트입니다.

이것이 왜 대단한 일인가요?

과거에는 물리학자가 숙련된 코더이자, 데이터 과학자이며, 동시에 입자 전문가여야 했습니다. 만약 당신이 물리학에는 뛰어나지만 코딩에는 서툴다면, 당신은 막혀버리게 됩니다.

CoLLM은 보편적인 번역기 역할을 합니다. 이는 진입 장벽을 낮추어, 과학자들이 코딩(방법)이 아닌 물리학(무엇을, 왜 하는가)에 집중할 수 있게 해줍니다. 또한 코드가 단순히 작성되는 것을 넘어, 물리적으로 정확하고, 재현 가능하며(매번 동일한 결과를 얻음), 자동으로 검증되도록 보장합니다.

요약하자면: CoLLM은 당신이 복잡한 입자 물리학 실험을 평범한 영어로 설명하면, 코드를 작성하고, 스스로 실수를 고치며, 똑똑한 AI를 훈련시켜 답을 찾아내도록 만드는 도구입니다. 이 모든 과정에서 당신은 코딩 전문가가 될 필요가 없습니다.

기술 요약: CoLLM – 콜라이더 분석을 위한 엔드 투 엔드 딥 러닝용 AI 엔지니어링 툴박스

1. 문제 정의

현대의 거대 강입자 충돌기(LHC)에서의 콜라이더 분석은 데이터 볼륨의 증가와 분석 복잡성의 심화라는 이중 과제에 직면해 있습니다. 전형적인 분석에는 고수준의 물리 개념(예: 객체 재구성, 이벤트 선택, 운동학적 관측량 계산)을 실행 가능한 코드로 변환하는 과정이 필요하며, 이어서 신호-배경 분류를 위한 딥 러닝 파이프라인 구현이 뒤따라야 합니다. 이러한 변환 과정은 시간이 많이 소요될 뿐만 아니라, 입자 식별 코드 오류나 운동학적 컷(cut)의 불일치와 같은 전사 오류가 발생하기 쉽고, 입자 물리학과 소프트웨어 공학 모두에 대한 전문 지식을 요구합니다.

대규모 언어 모델(LLM)이 과학적 워크플로우를 가속화할 수 있는 가능성을 보여주었음에도 불구하고, 전체 콜라이더 분석 파이프라인에 직접 적용하는 데는 한계가 있습니다. 범용 LLM은 고에너지 물리학(HEP) 관례에 대한 내장된 지식이 부족하고, 생성된 코드를 자체적으로 실행하거나 검증할 수 없으며, 결정론적이지 않은 출력을 생성하여 재현성을 저해합니다. 또한, 엄격한 검토 없이 AI가 생성한 코드에 의존하는 "바이브 코딩(vibe coding)" 방식은 정확성이 최우선인 물리학 분야에서 매우 위험합니다.

2. 방법론: CoLLM 프레임워크

CoLLM은 자연어 분석 명세와 훈련된 딥 러닝 분류기 사이의 간극을 메우기 위해 설계된 오픈 소스 파이썬 프레임워크입니다. 이는 두 개의 긴밀하게 통합된 구성 요소로 이루어진 엔드 투 엔드 파이프라인으로 작동합니다.

2.1 LLM 기반 코드 생성 엔진

첫 번째 단계는 평문 형태의 언어 명세를 검증된 이벤트 사전 선택 및 특징 추출용 파이썬 코드로 변환합니다.

구조화된 입력: 사용자 입력은 세 가지 의미론적 섹션으로 구성됩니다: 선택 컷(Selection Cuts) (객체 다중도, 운동학적 제약 조건), 검증 플롯(Validation Plots) (진단 분포), 출력 구조(Output Structure) (딥 러닝을 위한 관측량).
물리 인지 시스템 프롬프트: 범용 모델의 도메인 지식 부족을 완화하기 위해, CoLLM은 포괄적인 시스템 프롬프트를 사용합니다. 이 프롬프트에는 다음 내용이 인코딩되어 있습니다:
- LHCO(LHC Olympics) 데이터 형식 사양.
- 표준 입자 식별 코드 (예: MET를 위한 타입 6).
- 명시적인 경고(예: 4-모멘텀의 합산 vs 차감 오류)를 포함한 운동학적 공식 (예: 불변 질량, 횡질량).
- 파싱 및 객체 선택을 위한 참조 헬퍼 함수.
결정론적 디코딩: 재현성을 보장하기 위해, 기본 생성 모델은 온도 $T=0$ 과 그리디 디코딩(greedy decoding)을 사용하여 출력이 입력 프롬프트의 결정론적 함수가 되도록 합니다.
자동 오류 수정 (PyFixer): 탐색 모드( $T=0.9$ )로 작동하는 보조 LLM은 실행 실패를 반복적으로 수정합니다. 이 모델은 트레이스백(traceback)을 분석하고 전체 스크립트를 재생성하는 대신 오류가 발생한 코드 세그먼트만을 수정하여 검증된 로직을 보존합니다.

2.2 자동 딥 러닝 파이프라인

두 번째 단계는 생성된 코드에 의해 추출된 특징을 소비하여 신호-배경 분류기를 훈련합니다. 이 프레임워크는 YAML 또는 그래픽 사용자 인터페이스(GUI)를 통해 설정 가능한 세 가지 아키텍처를 지원합니다:

다층 퍼셉트론 (MLP): 고정된 길이의 고수준 운동학적 특징 벡터용.
그래프 신경망 (GNN): 가변적인 다중도를 가진 입자 집합(예: 제트, 트랙)을 처리하며, 입자를 노드로, 관계를 엣지로 취급합니다. Graph Convolutional Networks (GCN), Dynamic Edge Convolution (EdgeConv), Graph Attention Networks (GAT)를 지원합니다.
트랜스포머 네트워크 (Transformer Networks): 고정된 토폴로지 없이 장거리 의존성을 모델링하기 위해 셀프 어텐션(self-attention) 메커니즘을 사용하는 입자 클라우드 표현용.

파이프라인은 데이터 로딩, 정규화, 모델 구축, 훈련(조기 종료, 학습률 스케줄링, 혼합 정밀도를 위한 콜백 포함) 및 표준 HEP 메트릭(예: AUC)을 사용한 평가를 자동화합니다.

2.3 사용자 인터페이스

CoLLM은 두 가지 인터페이스를 제공합니다:

터미널 사용자 인터페이스 (TUI): 배치 처리 및 재현 가능한 워크플로우를 위해 YAML 설정 파일을 사용합니다.
그래픽 사용자 인터페이스 (GUI): 대화형 구성, 실시간 모니터링 및 시각적 디버깅을 위한 Streamlit 기반 웹 인터페이스입니다.

3. 주요 기여

엔드 투 엔드 자동화: CoLLM은 자연어 물리 명세부터 훈련된 딥 러닝 분류기에 이르기까지 통합된 워크플로우를 제공하여 수동 코딩 부담을 줄입니다.
물리 인지 생성: 범용 코드 생성기와 달리, CoLLM은 특화된 시스템 프롬프트를 통해 생성 컨텍스트에 HEP 관례를 직접 삽입함으로써 운동학적 계산 및 객체 처리의 물리적 일관성을 보장합니다.
결정론적 재현성: 기본 생성기에 $T=0$ 디코딩을 강제하고 구조화된 오류 수정 루프를 활용함으로써, CoLLM은 표준 LLM 애플리케이션의 비결정론적 특성을 해결합니다.
모듈형 딥 러닝 통합: 프레임워크는 서로 다른 콜라이더 이벤트 표현에 맞춤화된 세 가지 별개의 신경망 계열(MLP, GNN, Transformer)을 원활하게 통합합니다.
검증 및 벤치마킹: 저자들은 다섯 가지 벤치마크 프로세스( $pp \to W^+W^-$ , $t\bar{t}$ , $H \to \gamma\gamma$ , $WZ$, $Hjj$)를 사용하여 프레임워크가 올바른 선택 로직과 진단 플롯을 생성할 수 있음을 입증하는 체계적인 검증 연구를 제공합니다.

4. 결과

본 논문은 meta-llama/Llama-3.3-70B-Instruct 모델을 사용하여 다섯 가지 벤치마크 분석에 대해 CoLLM을 검증합니다.

코드 정확성: 프레임워크는 복잡한 준-렙토닉(semi-leptonic) 쿼크 쌍 생성 등을 포함한 프로세스에 대해 실행 가능한 파이썬 스크립트를 성공적으로 생성하였으며, LHCO 파일을 올바르게 파싱하고, 선택 컷을 적용하며, 운동학적 변수를 계산하였습니다.
재현성: 동일한 입력으로 반복 실행했을 때 프레임워크는 일관된 컷플로우(cutflow) 결과를 생성했습니다. 관찰된 미세한 차이는 모델의 확률적 특성보다는 "리딩 제트(leading jets)"의 정의와 같은 사용자 프롬프트의 모호함에서 기인한 것이며, 이는 정밀한 사용자 명세의 중요성을 강조합니다.
물리 검증: 생성된 히스토그램(예: 다제트 불변 질량, 횡질량)은 $W$ 보존 근처의 피크나 $W \to \ell\nu$ 붕괴의 야코비안 엣지(Jacobian edge)와 같이 기대되는 물리적 특징을 나타냈습니다.
오류 수정: PyFixer 모듈은 대부분의 실행 오류를 한두 번의 정제 반복 내에 해결하여, 반복적 수복 메커니즘의 효능을 입증했습니다.

5. 의의 및 주장

저자들은 CoLLM을 물리학자의 전문 지식을 대체하는 도구가 아니라, LLM이 코드 생성을 돕되 프레임워크가 엄격한 검증과 물리적 제약을 강제하는 "바이브 엔지니어링(vibe engineering)"을 위한 도구로 정의합니다.

장벽 완화: CoLLM은 정교한 이벤트 선택 및 딥 러닝 방법을 프로그래밍 경험이 부족한 물리학자들도 접근할 수 있도록 하여 콜라이더 분석의 기술적 복잡성을 단순화하는 것을 목표로 합니다.
속도보다 신뢰성: 본 논문은 범용 LLM이 보조적인 작업에는 유용하지만, 도메인 지식의 부재와 재현성 문제로 인해 콜라이더 물리학의 엄격한 요구 사항을 충족하지 못한다는 점을 강조합니다. CoLLM은 도메인 특화 프롬프트와 자동 검증 루프를 통합함으로써 이를 해결합니다.
현재의 한계: 저자들은 현재의 제약 사항을 솔직하게 인정합니다:
- 코드 생성은 현재 LHCO 텍스트 형식으로 제한되어 있으며, 실험 분석에서 널리 사용되는 ROOT 데이터 형식을 아직 지원하지 않습니다.
- 자연어 입력의 모호함은 여전히 생성된 코드의 변동을 초래할 수 있으므로, 사용자는 명세를 정밀하게 작성해야 합니다.
- 프레임워크는 특정 LLM과 로컬 추론을 위한 컴퓨팅 자원(GPU)의 가용성에 의존하지만, 클라우드 API 대안을 지원합니다.

결론적으로, CoLLM은 콜라이더 분석의 기술적 실행을 자동화하는 중요한 진전이며, 생성된 코드가 구문적으로 올바를 뿐만 아니라 물리적으로도 일관되고 재현 가능하도록 보장합니다.