⚛️ phenomenology

CoLLM: AI engineering toolbox for end-to-end deep learning in collider analyses

CoLLMは、事前学習済み大規模言語モデルとグラフィカルユーザーインターフェースを活用して、物理的に整合性のあるイベント選択コードおよびディープラーニング解析の生成を自動化し、それによってエンドツーエンドの衝突型加速器解析におけるプログラミングおよび技術的な障壁を低減するAIエンジニアリングツールボックスです。

原著者： W. Esmail, A. Hammad, M. Nojiri

公開日 2026-02-09

📖 1 分で読めます🧠 じっくり読む

CC BY 4.0

原著者： W. Esmail, A. Hammad, M. Nojiri

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 ✨ これは以下の論文のAI生成解説です。著者が執筆または承認したものではありません。技術的な正確性については原論文を参照してください。免責事項の全文を読む

あなたは、熟練のシェフ（素粒子物理学者）であると想像してください。あなたは新しい料理（大型ハドロン衝突型加速器での科学実験）に関する素晴らしいアイデアを持っています。どのような味にしたいか、そしてそれらの材料がどのように相互作用すべきかも正確に理解しています。しかし、実際にその料理を作るためには、コンピュータにしか理解できない言語（Pythonコード）で、複雑な一行一行のレシピを何時間もかけて書かなければなりません。もし、塩と砂糖を間違えるようなたった一つのタイポ（打ち間違い）でもあれば、料理全体が台無しになってしまいますし、最終的な味見をするまでそのことに気づかない可能性さえあります。

CoLLMは、まるで「シェフ（物理学）」と「コンピュータ（コード）」の両方を流暢に操る、非常に賢く専門化された副料理長（スー・シェフ）のようです。CoLLMは、あなたのアイデアを平易な英語（自然言語）として受け取り、即座に完璧でエラーのないレシピを書き上げ、さらには料理まで完成させて提供してくれます。

CoLLMの仕組みを、簡単なステップに分けて説明します：

1. 「バイブ・エンジニアリング」のシェフ助手

通常、AIを使ってコードを書こうとする人々は、単にレシピを頼んで、あとはうまくいくことを祈ります。これは「バイブ・コーディング（雰囲気によるコーディング）」と呼ばれます。しかし、科学の世界では、間違った材料が数年間の研究を台無しにすることがあります。CoLLамは、より厳格なアプローチである**「バイブ・エンジニアリング（感性工学）」**を使用します。

プロンプト（ルールブック）： AIがコードを一行も書く前に、膨大で詳細な「ルールブック（システムプロンプト）」が与えられます。このルールブックには、あらゆる物理法則、粒子データが保存される特定の方法、そして衝突型実験室における調理の黄金律が含まれています。それはAIに対し、「これらの数値を混ぜるな」「常にこの方法で材料を計量せよ」と指示します。
翻訳： あなたは自分の実験を平易な英語で入力します。「このような粒子を見つけ出し、あれらは無視して、残ったもののエネルギーを測定したい」。ルールブックに導かれたAIは、これを完璧なPythonスクリプトへと翻訳します。

2. 自己修正型の味見

最高のシェフであってもミスをすることはあります。もしAIが、コンピュータをクラッシュさせるようなコード（例えば、玉ねぎの代わりに石を切ろうとするようなコード）を書いたとしても、CoLLMはただ諦めて立ち止まることはありません。

ループ： コードを実行します。もしエラーが発生したら、AIはエラーメッセージを読み取り、「ああ、ここにカンマを入れ忘れた」と気づき、その特定の箇所だけを修正します。そして再試行します。これをコードが完璧に動作するまで繰り返します。これは、あなたがスプーンを動かす必要もなく、スープを何度も味見して、ちょうど良い塩加減になるまで塩を足し続けるロボットのようなものです。

3. 自動味見パネル（ディープラーニング）

レシピが書かれ、材料の準備が整ったら、次のステップは通常、信号（興味深い粒子）と背景ノイズ（退屈なもの）を識別するためのコンピュータの訓練です。

魔法の箱： CoLLMはレシピを書くだけでは終わりません。準備されたデータを自動的に取り込み、3種類の異なる「味見マシン（ディープラーニング・モデル）」に投入します。
- MLP： 標準的なデータのための、シンプルで高速なテイスター。
- GNN： 粒子のつながり（材料のソーシャルネットワークのようなもの）を理解する、スマートなテイスター。
- Transformer： 全体像を一度に把握し、粒子間の長距離の関係性を理解する、超一流のテイスター。
結果： これらはモデルを訓練し、それらがどれほど上手く機能するかをチェックし、まさに「干し草の山の中から針を見つける」能力がどれほど優れているかを示すグラフ付きの成績表をあなたに提示します。

4. ユーザーインターフェース：2つの注文方法

CoLLMは、あなたが技術の達人であろうと、単に物事を進めたいだけであろうと、誰にでも使いやすいように設計されています。

ターミナル (TUI)： コマンドを入力したり、バックグラウンドでスクリプトを実行したりすることを好むプロフェッショナルのためのものです。
グラフィカル・インターフェース (GUI)： カラフルでクリック可能なウェブサイトです。ここでは、自分のアイデアを入力してボタンを押し、AIがリアルタイムで作業し、グラフが描画される様子を眺めることができます。

なぜこれが大きなニュースなのか？

かつて、物理学者はマスター級のコーダーであり、データサイエンティストであり、かつ素粒子専門家でなければなりませんでした。もしあなたが物理学には長けていても、コーディングが苦手であれば、行き詰まってしまう運命にありました。

CoLLMはユニバーサルな翻訳機として機能します。これにより参入障壁が下がり、科学者は「どのように（How）」というコーディングではなく、「何を、なぜ（What & Why）」という物理学そのものに集中できるようになります。CoLLMは、コードが単に書かれるだけでなく、物理的に正しく、再現可能（毎回同じ結果が得られる）であり、自動的に検証されていることを保証します。

要約すると： CoLLMは、複雑な素粒子実験を平易な英語で記述できるようにするツールです。これにより、あなたがコーディングの専門家である必要なく、AIが自動的にコードを書き、自らのミスを修正し、答えを見つけ出すためのスマートなAIを訓練してくれるのです。

技術要約：CoLLM – コライダー解析のためのエンドツーエンド深層学習用AIエンジニアリング・ツールボックス

1. 問題提起

現代の大型ハドロン衝突型加速器（LHC）におけるコライダー解析は、データ量の増大と分析の複雑化という二重の課題に直面しています。典型的な解析には、高レベルの物理概念（例：オブジェクトの再構成、イベント選択、運動学的観測量の計算）を実行可能なコードへと翻訳し、続いて信号（シグナル）と背景（バックグラウンド）の分類のための深層学習パイプラインを実装するというプロセスが必要です。この翻訳プロセスは時間を要し、転記ミス（例：誤った粒子識別コードや一貫性のない運動学的カット）を招きやすく、素粒子物理学とソフトウェアエンジニアリングの両方の専門知識を必要とします。

大規模言語モデル（LLM）は科学的ワークフローの加速に有望であることを示していますが、コライダー解析の完全なパイプラインへの直接的な適用には限界があります。汎用的なLLMは、高エネルギー物理学（HEP）の慣習に関する埋め込まれた知識を欠いており、生成したコードをネイティブに実行または検証することができず、さらに再現性を損なう非決定的な出力を生成します。さらに、厳格なレビューなしにAI生成コードに依存する「バイブ・コーディング（vibe coding）」のアプローチは、正確性が極めて重要となる物理学においてはリスクが高いと言えます。

2. 手法：CoLLMフレームワーク

CoLLMは、自然言語による解析仕様と、訓練済みの深層学習分類器との間の溝を埋めるために設計されたオープンソースのPythonフレームワークです。これは、密接に統合された2つのコンポーネントからなるエンドツーエンドのパイプラインとして機能します。

2.1 LLMベースのコード生成エンジン

第1段階では、自然言語による仕様を、イベントの事前選択および特徴抽出のための検証済みPythonコードへと翻訳します。

構造化入力: ユーザー入力は、選択カット（Selection Cuts）（オブジェクトの多重度、運動学的制約）、検証プロット（Validation Plots）（診断用分布）、出力構造（Output Structure）（深層学習用の観測量）という3つの意味論的セクションに整理されます。
物理学を考慮したシステムプロンプト: 汎用モデルのドメイン知識の欠如を緩和するため、CoLLMは包括的なシステムプロンプトを採用しています。このプロンプトには以下がエンコードされています：
- LHCO（LHC Olympics）のデータフォーマット仕様。
- 標準的な粒子識別コード（例：METに対するタイプ6）。
- 運動学的公式（例：不変質量、横質量）および、一般的なLLMの誤り（例：4元運動量の和と差の混同）に対する明示的な警告。
- 解析およびオブジェクト選択のためのリファレンスヘルパー関数。
決定論的デコーディング: 再現性を確保するため、主要な生成モデルは温度 $T=0$ と貪欲法（greedy decoding）を使用し、出力を入力プロンプトの決定論的な関数にします。
自動エラー修正（PyFixer）: 第2のLLMが、探索モード（ $T=0.9$ ）で動作し、実行失敗を反復的に修復します。これはトレースバックを分析し、スクリプト全体を再生成するのではなく、誤ったコードセグメントのみを修正することで、検証済みのロジックを保持します。

2.2 自動深層学習パイプライン

第2段階では、生成されたコードによって抽出された特徴量を用いて、信号と背景の分類器を訓練します。本フレームワークは、YAMLまたはグラフィカルユーザーインターフェース（GUI）を介して設定可能な3つのアーキテクチャをサポートしています。

多層パーセプトロン（MLP）: 固定長の高レベル運動学的特徴ベクトル用。
グラフニューラルネットワーク（GNN）: 変数多重度の粒子セット（例：ジェット、トラック）用。粒子をノード、関係性をエッジとして扱います。グラフ畳み込みネットワーク（GCN）、動的エッジ畳み込み（EdgeConv）、グラフアテンションネットワーク（GAT）をサポートしています。
Transformerネットワーク: 自己注意メカニズムを用いた粒子クラウド表現用。固定されたトポロジーを持たずに長距離の依存関係をモデル化します。

パイプラインは、データのロード、正規化、モデル構築、訓練（早期終了、学習率スケジューリング、混合精度演算のためのコールバックを含む）、および標準的なHEP指標（例：AUC）を用いた評価を自動化します。

2.3 ユーザーインターフェース

CoLLMは2つのインターフェースを提供します。

ターミナルユーザーインターフェース（TUI）: バッチ処理と再現可能なワークフローのためにYAML設定ファイルを使用します。
グラフィカルユーザーインターフェース（GUI）: インタラクティブな設定、リアルタイムモニタリング、および視覚的なデバッグのためのStreamlitベースのウェブインターフェースです。

3. 主な貢献

エンドツーエンドの自動化: CoLLMは、自然言語による物理仕様から訓練済みの深層学習分類器に至る統一されたワークフローを提供し、手動コーディングの負担を軽減します。
物理学を考慮した生成: 汎用的なコード生成器とは異なり、CoLLMは特殊なシステムプロンプトを介してHEPの慣習を生成コンテキストに直接組み込んでおり、運動学的計算やオブジェクト処理における物理的一貫性を保証します。
決定論的な再現性: 主要な生成器に対して $T=0$ デコーディングを強制し、構造化されたエラー修正ループを利用することで、CoLLMは標準的なLLMアプリケーションに固有の非決定性の問題に対処します。
モジュール式の深層学習統合: フレームワークは、異なるコライダー事象の表現に合わせて調整された3つの異なるニューラルネットワーク・ファミリー（MLP、GNN、Transformer）をシームレスに統合します。
検証とベンチマーク: 著者らは、5つのベンチマークプロセス（ $pp \to W^+W^-$ 、 $t\bar{t}$ 、 $H \to \gamma\gamma$ 、$WZ $、$ Hjj$）を用いた系統的な検証研究を提供し、正しい選択ロジックと診断プロットを生成するフレームワークの能力を実証しています。

4. 結果

論文では、meta-llama/Llama-3.3-70B-Instruct モデルを用いて5つのベンチマーク解析におけるCoLLMを検証しています。

コードの正確性: フレームワークは、複雑な半レプトニック・トップクォーク対生成などのプロセスに対して、LHCOファイルを正しく解析し、選択カットを適用し、運動学的変数を計算する実行可能なPythonスクリプトを正常に生成しました。
再現性: 同一の入力を用いた繰り返しの実行において、フレームワークは一貫したカットフローの結果を出力しました。観察された軽微な差異は、モデルの確率性ではなく、ユーザープロンプトの曖昧さ（例：「リーディングジェット」の定義）に起因しており、精密なユーザー仕様の重要性を浮き彫りにしました。
物理的検証: 生成されたヒストグラム（例：ダイジェット不変質量、横質量）は、 $W$ ボソン付近のピークやトップクォーク質量、および $W \to \ell\nu$ 崩壊のヤコビアン・エッジなどの期待される物理的特徴を示しました。
エラー修正: PyFixer モジュールは、1回または2回の精緻化イテレーション内で実行エラーの大部分を解決しており、反復的な修復メカニズムの有効性を実証しました。

5. 意義と主張

著者らは、CoLLMを物理学者の専門知識の代替物としてではなく、「バイブ・エンジニアリング（vibe engineering）」のためのツールとして位置付けています。これは、LLMがコード生成を支援する一方で、フレームワークが厳格な検証と物理的制約を強制するという、規律あるアプローチです。

障壁の低下: CoLLMは、高度なイベント選択や深層学習の手法へのアクセスを容易にし、コライダー解析の技術的複雑さを簡素化することを目指しています。
速度よりも信頼性: 論文では、汎用LLMは補助的なタスクには有用であるものの、ドメイン知識の欠如と再現性の問題により、コライダー物理学の厳格な要件を満たせないことを強調しています。CoLLLは、ドメイン特化型のプロンプトと自動検証ループを統合することでこれに対処しています。
現在の限界: 著者らは現在の制約についても謙虚に認めています：
- コード生成は現在LHCOテキスト形式に限定されており、実験解析で広く使用されているROOTデータフォーマットはまだサポートしていません。
- 自然言語入力の曖昧さが依然として生成されたコードの変動を招く可能性があり、ユーザーには精密な仕様が求められます。
- フレームワークは、ローカル推論のための特定のLLMおよび計算リソース（GPU）の可用性に依存していますが、クラウドAPIの代替案もサポートしています。

結論として、CoLLMはコライダー解析の技術的実行を自動化するための重要な一歩であり、生成されるコードが単に構文的に正しいだけでなく、物理的に一貫しており、再現可能であることを保証します。