\textsc{RooAgent}: An LLM Agent for \textsc{Root}-Based High Energy Physics… — やさしい解説

巨大で極めて複雑な科学データ図書館を想像してください。素粒子物理学の世界では、この図書館はRootと呼ばれ、数十億もの粒子衝突の「領収書」を収容しています。特定の情報（特定の粒子の種類やデータ内のパターンなど）を見つけるには、通常、非常に難しく専門的な言語（プログラミングコード）を話す図書館員である必要があります。正確なコードを知らなければ、本を借りることはできません。

RooAgentは、あなたの言語（平易な英語）を話し、図書館の秘密のコードを完璧に理解する、超知的で多言語を話す図書館員アシスタントを雇うようなものです。

以下に、その仕組みを簡単な概念に分解して説明します。

1. 問題：「外国語」の壁

高エネルギー物理学者は、データを分析するためにPyRootというツールを使用します。これは強力ですが、あなたが話せない言語で書かれたメニューから複雑な料理を注文しようとするようなものです。「電子の運動量のヒストグラム」や「ジェットが重い事象の個数」を注文するには、正確な構文を知っていなければなりません。タイプミスや誤った単語を使えば、コンピュータは単に「エラー」と答えるだけです。

2. 解決策：「翻訳者」エージェント

RooAgentは翻訳者として機能します。コードを学ぶ必要はありません。平易な英語でエージェントに何をしたいかを伝えるだけで済みます。

「ボトムクォークの質量のグラフを表示してください。」
「50 GeV 以上で移動する粒子だけを見て、発生する事象の数を数えてください。」
「信号を背景ノイズから分離するための最適なカット（選別条件）を見つけてください。」

エージェント（大規模言語モデル、LLM を搭載）はあなたのリクエストを聞き、それを正しい技術的なコマンドに翻訳し、分析を実行して、結果（通常はグラフ、数値の表、または要約）をあなたに返します。

3. 仕組み：「工具箱」

エージェントを、特定の工具箱を持った建設作業員と考えてください。論文では、この作業員を雇う 2 つの方法が説明されています。

LangGraph モード: 作業員は、AI モデル（GPT-4.1 や DeepSeek-V3 など）のチームを管理する「監督」（LangGraph）を使用します。監督はあなたの大きなリクエストを小さなステップに分解し、AI に適切なツールを選ばせ、その後実行します。
MCP モード: 作業員は、標準プロトコル（Model Context Protocol）を使用して、別の AI ボス（Anthropic の Claude）と直接話します。

どちらの場合も、工具箱にある「ツール」は、重労働を担う事前に書かれたコンピュータ関数です。

検査: データファイルの中を見て、何が含まれているかを確認する。
数え上げ: 特定のルールを通過する事象の数を数える。
プロット: グラフやチャートを描画する。
フィッティング: データ点を通る滑らかな曲線を描き、形状を確認する。
計算: 発見が統計的に有意かどうかを判断するために数学を行う。

4. 「試乗」

著者らは、このアシスタントが仕事をこなせるかどうかを確認するために、いくつかのシナリオでテストを行いました。

「ZH」シミュレーション: 特定の粒子衝突（Z ボソンとヒッグスボソン）をシミュレーションしました。エージェントは正常にファイルを見つけ、グラフを描き、事象を数え、信号を背景ノイズから分離する「絶好の地点」（最適なカット）さえ見つけ出しました。
「マルチタスク」チャレンジ: 6 つの異なる作業（曲線フィッティング、比較チャートの作成、カットフローの実行、カットの最適化、質量ウィンドウのスキャン、結果のランク付け）を一度に行うよう、エージェントに長く複雑な指示を与えました。エージェントは人間の助けを必要とすることなく、6 つのステップを連続して実行しました。
「玩具」統計テスト: 隠れた信号を持つ偽のデータセットを作成しました。エージェントは異なる質量値を正常にスキャンし、正しい場所（250 GeV）で隠れた信号を見つけ、それが単なる偶然ではない確率を計算しました。
「現実世界」テスト: CERN（大型ハドロン衝突型加速器）の ATLAS 実験からの実際の公開データを使用しました。エージェントは、4 つのレプトンに崩壊するヒッグスボソンのデータを正常に分析し、人間の専門家が生産するものと同じ積み上げグラフを生成しました。

5. 結果

論文は、RooAgentが機能すると主張しています。それは平易な英語の質問を複雑な物理学の答えへと変換することに成功しました。

20 件の単一タスクテストのうち19 件を正しく処理しました。
6 ステップのマルチタスクワークフローを停止することなく完了しました。
OpenAI の GPT-4.1 を使用した場合でも、Anthropic の Sonnet 4.6 を使用した場合でも、同じ数値結果を生成しました。

注意点:
エージェントは完璧ではありません。あるテストでは、ユーザーがファイル名に「Events」（大文字の E）ではなく「events」（小文字の e）と入力したため、混乱しました。エージェントは推測するのではなく、停止して明確化を求めました。また、場合によっては異なる AI モデルがグラフの範囲をわずかに異なって選択する可能性があります（例：0–100 GeV を表示するか、0–200 GeV を表示するか）が、核心的な数学は同じです。

まとめ

RooAgentは架け橋です。物理学者（および潜在的に学生や新しい研究者）が、人間の言語でデータと対話することを可能にし、コンピュータが実際の分析に必要な複雑で専門的な言語を処理します。これは物理学者の物理学に対する理解を置き換えるものではありませんが、作業を完了するために複雑なコード構文を暗記しなければならないという障壁を取り除きます。

「RooAgent: ROOT ベースの高エネルギー物理学分析のための LLM エージェント」の技術的概要

問題定義
高エネルギー物理学（HEP）のデータ分析は、イベント選択やヒストグラム作成から統計的推論に至るまで、ROOT フレームワークおよびその Python インターフェースである PyROOT に大きく依存しています。しかし、これらのツールの利用には、特定の API 規約、データ構造（例えば TTree ブランチ）、入力サンプルの内部構成に対する深い理解が必要です。この参入障壁は新規ユーザーを妨げ、日常的なタスクの非効率化を招きます。大規模言語モデル（LLM）は「ツール呼び出し」を介した多段階ワークフローの自動化において有望性を示していますが、ROOT ベースの分析に必要な特定の関数呼び出しを自然言語の目標に直接マッピングする専用インターフェースの必要性があります。

手法
著者らは、ROOT ベースの分析に対する自然言語インターフェースとして機能する Python パッケージ「RooAgent」を提示します。このシステムは、PyROOT 関数を LLM エージェントが実行可能なツールとしてラップします。アーキテクチャは、同じ基盤となる PyROOT 実装を利用する 2 つの異なる動作モードをサポートします。

LangGraph エージェントモード: OpenAI の GPT-4.1（GitHub Copilot 経由）および DeepSeek-V3（Ollama 経由）と互換性があります。このモードでは、LLM がユーザーのプロンプトを推論し、ツールを選択し、引数を構築し、ユーザーの目標が達成されるまで PyROOT 関数を反復的に呼び出します。
モデルコンテキストプロトコル（MCP）モード: Anthropic Claude CLI（特に Sonnet 4.6 でテスト済み）との統合向けに設計されています。このモードは MCP サーバーとして動作し、Claude CLI が LLM かつオーケストレーション層として機能するため、LangChain や LangGraph の依存関係は不要です。

ツールセットはモジュール式であり、一般的な ROOT 分析タスクの全範囲を網羅しています。

検査: ファイル内容、TTree 構造、ブランチのデータ型のリスト表示。
計数と選択: 論理カットの適用、カットフローの生成、イベント収量の計算。
ヒストグラムと統計: TTree ブランチからのヒストグラム充填、積分、平均、RMS の計算、有意性（ $S/\sqrt{S+B}$ ）の計算。
可視化: 1 次元および 2 次元プロットの生成、分布の重ね合わせ、対数スケールの適用。
フィッティング: 分布に対するガウス、指数、または多項式フィッティングの実行。
最適化: 有意性を最大化するためのカット閾値のスキャン。
エクスポート: TTree ブランチを CSV ファイルへの変換。

このシステムは反復的な推論を設計しており、エージェントは結果を洗練させたり誤りを修正したりするためにツールを複数回呼び出すことができます（例：ツリー名の明確化やプロット範囲の調整）。

主要な貢献

統一インターフェース: RooAgent は、基盤となる分析コードの変更を必要とすることなく、異なる LLM バックエンド（OpenAI、Ollama、Anthropic）間で自然言語を通じてアクセス可能な一貫した分析ツールセットを提供します。
ツールレジストリ: このパッケージは、有意性計算、カットフロー生成、パラメトリックフィッティングなど、HEP ワークフローに特化した PyROOT ラップ関数の包括的なライブラリを公開しています。
デュアルモードアーキテクチャ: LangGraph ベースのエージェントと MCP サーバーの両方をサポートすることで、異なる LLM エコシステムや展開方法（ローカル対クラウド）を好むユーザーに柔軟性を提供します。

結果
著者らは、 $pp \to ZH$ （ $Z \to \ell^+\ell^-, H \to b\bar{b}$ ）および背景過程のモンテカルロシミュレーション、ならびに $H \to ZZ^* \to 4\ell$ チャネルに対する ATLAS オープンデータを用いて RooAgent を評価しました。

ベンチマーク性能: 20 件の単一タスクテストの一連において、エージェントは 19 件のタスクで正常に結果を生成しました。タスには、ファイル検査、ヒストグラムプロット、イベント計数、変数定義、ガウスフィッティング、有意性スキャンが含まれていました。1 つの失敗は、ツリー名検索における大文字小文字の区別に関する問題により発生しましたが、エージェントは誤った結果を生成するのではなく、これを正しく特定し、明確化のためにフラグを立てました。
マルチタスクワークフロー: フィッティング、運動学的比較、カットフロー生成、カット最適化、質量ウィンドウスキャン、カットランキングという 6 つの連続タスクを要求する複雑なプロンプトが、人間の介入なしに約 225 秒で正常に実行されました。
統計分析: 質量仮説のグリッドを含む玩具統計分析において、エージェントはヒストグラムを正しく一致させ、観測および期待される有意性、p 値、 $CL_s$ 値を計算し、注入された信号質量（250 GeV）を最も有力な候補として特定しました。
オープンデータ応用: ATLAS オープンデータに適用された際、エージェントは複数の ROOT ファイルを正常に処理し、順次的なレプトン選択カットを適用し、カットフローを生成し、データを重ね合わせた信号と背景のスタックドプロットを生成しました。結果は GPT-4.1 と Sonnet 4.6 の間で一貫していました。
モデルの差異: 論文は、核心となるロジックは一貫しているものの、明示的に制約されていない場合、異なる LLM（例えば GPT-4.1 と DeepSeek-V3）はプロット範囲や正規化に関して異なる選択を行う可能性があり、プロンプトの具体性の重要性を浮き彫りにしていると指摘しています。

重要性
この論文は、RooAgent が平文のプロンプトと ROOT ベースの HEP 分析の技術的要件との間のギャップを成功裡に埋めたと主張しています。ツールと引数の選択を自動化することで、このシステムは日常的なタスクを効率化し、ROOT API の複雑さに不慣れなユーザーにとっての参入障壁を低下させます。著者らは、この作業をよりアクセスしやすい HEP データ分析への一歩として位置づけ、ファイル検査、統計的推論、可視化を含む複雑な多段階ワークフローを LLM エージェントが効果的にオーケストレーションできることを実証しています。このパッケージはモジュール式であり、機械学習アルゴリズムを呼び出し可能なツールとして統合したり、最適なイベント選択変数を特定したりするなど、将来の拡張を可能にします。

\textsc{RooAgent}: An LLM Agent for \textsc{Root}-Based High Energy Physics Analysis

1. 問題：「外国語」の壁

2. 解決策：「翻訳者」エージェント

3. 仕組み：「工具箱」

4. 「試乗」

5. 結果

まとめ

関連論文