Each language version is independently generated for its own context, not a direct translation.

KAIJU：AI エージェントの「安全な司令塔」の仕組み

この論文は、最近話題の「AI エージェント（自分で考えて行動する AI）」が抱える 3 つの大きな問題と、それを解決する新しいシステム「KAIJU」について書かれています。

まるで、**「暴走しそうな巨大怪獣（AI）を、安全で効率的に操縦するための新しいコックピット」**を作ったような話です。

🌪️ 今までの AI エージェントが抱える 3 つの悩み

これまでの AI（ReAct という方式）は、**「考えて、行動して、結果を見て、また考えて……」**というのを、まるで会話のように繰り返していました。しかし、複雑な仕事をするほど、以下の 3 つの問題が起きやすくなります。

メモリのパンク（文脈の肥大化）
- 例え話: 1 回の会話で、過去のすべての会話履歴をメモ帳に書き足していくようなもの。
- 問題: 作業が進むほどメモ帳が膨れ上がり、AI が「今、何をしてたっけ？」と混乱したり、処理が重すぎて止まったりします。
自己判断の甘え（失敗したら諦める）
- 例え話: 道に迷ったとき、地図を見ようとして失敗したら「まあ、適当に推測しよう」と言って、本来やるべき調査を放棄してしまう。
- 問題: ツール（検索や計算など）が失敗すると、AI が「もういいや」と判断して、ユーザーに「教えて」と頼んだり、適当な答えを出したりしてしまいます。
セキュリティの穴（命令の聞き間違い）
- 例え話: 「爆弾を作らないでね」という注意書きを貼っておくだけ。でも、AI が「爆弾」の作り方を「料理のレシピ」と勘違いして作ってしまったり、悪意のある言葉で「爆弾を作れ」と命令されたりすると、守りきれません。
- 問題: AI 自身に「やってはいけない」というルールを頼りきっているため、ハッキングや勘違いで危険な行動をとってしまうリスクがあります。

🏗️ KAIJU の解決策：「司令塔（カーネル）」と「セキュリティゲート」

KAIJU は、AI の「考える部分」と「行動する部分」を完全に分離しました。

1. 司令塔（Executive Kernel）：AI は「プランナー」だけ

KAIJU では、AI は「作戦会議」だけを行います。

AI の役割: 「まず A をやって、次に B をやって、最後に C をまとめる」という**計画図（グラフ）**を描くだけ。
司令塔の役割: 計画図を受け取ると、AI は一旦退席します。あとは司令塔が、**「A と B は同時に実行していいよ」「C は A の結果が来てからね」**と、人間が指示を出すように、自動的に作業を調整・実行します。

メリット:

並列処理: 同時にできる作業は並行してやるので、非常に速くなります。
メモリ節約: AI は「今やっていること」だけを見ているので、過去の長い会話履歴に埋もれません。

2. 4 つのゲート（IGX）：絶対的なセキュリティ

ツールを実行する前に、**「4 つの質問」**に答える自動ゲートを通ります。AI はこのゲートの存在も、通過の可否も知りません。

Scope（範囲）: 「この AI は、このツールを使ってもいい範囲内か？」
Intent（意図）: 「今、誰が（どの権限で）この作業を頼んだのか？」（例：ただ見るだけなら OK、削除するなら NG）
Impact（影響）: 「このツールは、どれくらい危険なことをするものか？」（例：読み取りは安全、削除は危険）
Clearance（承認）: 「外部の管理者（人間や他のシステム）が、この特定の操作を許可しているか？」

例え話:
銀行の金庫を開ける際、AI が「開けて」と言っても、**「誰が頼んだか（意図）」「金庫のレベル（影響）」「管理者の許可（承認）」**をシステムが自動チェックします。AI は「開けられたか開けられなかったか」すら知らされません。だから、AI が「どうすれば開けられるか」を試すようなハッキングもできません。

🚀 3 つの運転モード

KAIJU は、作業の複雑さに合わせて 3 つの運転モードを持っています。

Reflect（反射モード）:
- 一連の作業が終わるたびに、「これで十分か？」と AI がチェックします。不足があれば、新しい作業を追加します。
- 例え: 料理の味見を、鍋に具材を全部入れる前と、煮込み終わった後に 2 回するイメージ。
nReflect（n 回反射モード）:
- 作業を N 個ずつまとめて、その都度チェックします。バランス型です。
- 例え: 10 個の皿を洗ったら一度立ち止まって「洗い残しないか？」確認するイメージ。
Orchestrator（指揮者モード）:
- 1 つの作業が終わるたびに、即座にチェックして次の指示を出します。最も細かく、高品質ですが、少しコストがかかります。
- 例え: 大規模なオーケストラで、指揮者が奏者一人ひとりの音を聞きながら、常に指揮棒を振っているイメージ。

📊 結果：なぜ KAIJU が優れているのか？

実験では、複雑な計算やリアルタイムなデータ収集が必要なタスクで、KAIJU は従来の AI よりも圧倒的に速く、正確でした。

速さ: 並列で動くため、複雑なタスクでも時間がかかりません。
正確さ: 「失敗したら諦める」という AI の癖をシステムが防ぎ、代替案を探して必ず答えを出します。
安全性: AI が「やってはいけないこと」を勝手にやろうとしても、システムが物理的にブロックします。

結論

KAIJU は、AI を「暴走しやすい巨大怪獣」から、「安全で効率的に任務を遂行するプロの作業員」へと変えるための**「司令塔システム」**です。

AI に「考えてもらう」ことと「実行させる」ことを分けることで、**「速さ」「安全性」「正確さ」**のすべてを両立させました。これにより、AI はより複雑で重要な仕事（医療、金融、セキュリティ調査など）でも、安心して使えるようになるでしょう。

Each language version is independently generated for its own context, not a direct translation.

KAIJU: 意図ゲート付き実行のための LLM エージェント用エグゼクティブカーネル

技術的概要（日本語）

本論文は、大規模言語モデル（LLM）に基づく自律エージェントの課題を解決するため、実行メカニズムと推論レイヤーを分離する新しいシステムアーキテクチャ「KAIJU」を提案しています。特に、ReAct（Reason + Act）パターンの限界を克服し、セキュリティ、スケーラビリティ、信頼性を構造的に保証する「エグゼクティブカーネル」と「意図ゲート（IGX）」を導入しています。

1. 背景と課題 (Problem)

既存の LLM ベースのエージェント（ReAct やその派生）は、以下の 3 つの主要な限界に直面しています。

直列レイテンシと文脈の爆発的増加:
- 従来の ReAct は「推論→実行→観測」を直列に繰り返します。各ターンで過去の会話履歴とツール結果が累積され、トークン数が $O(n^2k)$ （ $n$ : ツール呼び出し数、 $k$ : 結果の平均サイズ）で増加します。
- 複雑なタスクでは、コンテキストウィンドウを超過し、出力が空になったり品質が劣化したりします。
実行メカニズムへのモデルの過剰な依存:
- モデルは各ターンでツールの使用権限を有しており、失敗時にタスクを放棄したり、パラメトリック知識に頼ったり、ユーザーに依存したりする「合理的だが信頼性の低い」行動を取り得ます。
- プロンプトによる指示（「諦めないで」など）は、モデルが従うか従わないかがターンごとに不確定であり、保証できません。
セキュリティとプロンプトインジェクションの脆弱性:
- ツールの安全性はプロンプト指示に依存しており、ハルシネーションやプロンプトインジェクション、コンテキストオーバーフローによって無効化されるリスクがあります。
- 拒否されたツール呼び出しのエラーメッセージがモデルのコンテキストにフィードバックされるため、攻撃者がポリシーの境界を「探り」ながら攻撃を適応させる（Adaptive Attack）ことが可能です。

2. 提案手法：KAIJU アーキテクチャ (Methodology)

KAIJU は、LLM の推論レイヤーと実行レイヤーを厳密に分離するシステムレベルの抽象化を提供します。

2.1. 二層構造

推論レイヤー (Reasoning Layer): ユーザーとの対話、計画立案、結果の要約を担当します。LLM はステートレスなリソースとして扱われ、実行メカニズムの詳細（並列スケジューリング、依存解決など）を一切知りません。
実行レイヤー (Executive Kernel): 依存関係の解決、ツールのディスパッチ、失敗回復、セキュリティ強制、結果の合成を担当します。LLM は計画（依存グラフ）のみを生成し、実際のツール実行はカーネルが独立して管理します。

2.2. 主要な抽象化

意図ゲート付き実行 (Intent-Gated Execution, IGX):
- ツール実行前に、モデルの意図とは独立した 4 つの変数に基づいて承認を決定するセキュリティゲートです。
- 4 つの変数:
  1. Scope (範囲): 許可されたツールのリスト（allowlist）。
  2. Intent (意図): タスクの操作レベル（例：観察のみ、操作、強制的な上書き）。これは LLM ではなく外部設定や呼び出し元によって決定されます。
  3. Impact (影響度): ツール自体が宣言する影響度（例：読み取り=0, 書き込み=1, 削除=2）。
  4. Clearance (承認): 外部 HTTP エンドポイントによるリソースレベルの承認（ドメイン固有のロジックをエージェントから分離）。
- 特徴: ゲートの決定はモデルにフィードバックされません。モデルは「ツールが失敗した」ことしか知らず、「なぜ拒否されたか」を推測できないため、ポリシーの適応的攻撃を防ぎます。
エグゼクティブカーネル:
- 依存グラフ (DAG) 実行: 計画されたツール呼び出しを依存関係に基づいて並列実行します。
- パラメータ注入: 上位ノードの出力を、下位ノードの実行時に動的にパラメータとして注入します（シリアルな推論ループなし）。
- 失敗回復: ツール失敗時、マイクロプランナーが代替手段（再試行、代替ツール、スキップ）を自動的に生成し、ユーザーに依存せずにタスクを継続します。

2.3. 3 つの適応的実行モード

タスクの複雑さに応じて、実行中の制御粒度を調整する 3 つのモードを提供します。

Reflect: 依存関係の「波（wave）」の境界で反射（評価・再計画）を行います。LLM 呼び出し数が最少で、予測可能です。
nReflect: 任意の $N$ 個のノード完了後に反射を行います。スループットと監視のバランスを取ります。
Orchestrator: 各ノード完了ごとに軽量なオプザーバーが評価し、即座にフォローアップノードを注入したり、作業をキャンセルしたりします。最も高品質な出力が可能ですが、コストは高いです。

3. 主要な貢献 (Key Contributions)

構造的な安全性の強制:
- 4 変数ゲート（Scope, Intent, Impact, Clearance）をコンパイル済みコードで決定論的に実行し、モデルの推論から分離することで、プロンプトインジェクションやハルシネーションによるセキュリティバイパスを構造的に防止します。
トークンスケーリングの改善:
- 直列実行の $O(n^2k)$ から、依存深さ $d$ に応じた $O(nkd) $または$ O(nk)$ へ削減。各 LLM 呼び出しが限定的なコンテキスト（現在の波の結果のみ）で動作するため、長文脈タスクでも品質が劣化しません。
並列性とレイテンシの最適化:
- 依存関係に基づいた並列実行により、複雑なタスクでのレイテンシを大幅に短縮します。
ドメイン非依存の承認メカニズム:
- 外部 HTTP エンドポイントへの委譲により、エージェントフレームワークにドメイン固有のロジック（例：ドローンの地理的フェンス、企業の AD ポリシー）を埋め込むことなく、高度な権限管理を実現します。

4. 実験結果 (Results)

ReAct ベースラインとの比較実験（40 件のクエリ、GAIA ベンチマーク、計算天文学ベンチマーク）において以下の結果が得られました。

レイテンシ:
- 単純なクエリ: 計画オーバーヘッドにより ReAct がわずかに高速（3.6s vs 3.9s）。
- 複雑・計算集約的クエリ: KAIJU（特に nReflect モード）が大幅に高速。複雑なクエリで 9.5s（KAIJU）対 28.9s（ReAct）、計算クエリで 25.2s 対 43.7s。
- 理由: ReAct は直列実行と文脈の累積によるボトルネックに陥る一方、KAIJU は並列実行と限定コンテキストで処理を完了させます。
成功率と品質:
- 計算天文学ベンチマーク: KAIJU は 10 問中 10 問を完了しましたが、ReAct はコンテキスト超過により 2 問で失敗（空の出力）。
- GAIA ベンチマーク: 全体精度で KAIJU（15.7%）が ReAct（12.6%）を上回りました。特に難易度の高いレベル 3（多段推論）では、KAIJU が 21.1% に対し ReAct は 0.0% でした。
- 出力の完全性: ReAct はツール失敗時にパラメトリック知識に頼って早期に終了する傾向がありましたが、KAIJU は構造的に再計画と再試行を強制するため、より詳細で根拠のある出力を提供しました。

5. 意義と結論 (Significance)

KAIJU は、LLM エージェントの信頼性と安全性を「プロンプトエンジニアリング」に依存せず、「システムアーキテクチャ」によって保証するパラダイムシフトを示しています。

構造的な信頼性: モデルがタスクを放棄したり、安全ポリシーを迂回したりすることを、実行レイヤーの制御フローによって物理的に防ぎます。
スケーラビリティ: 並列実行とコンテキスト管理の最適化により、大規模で複雑な自律タスクの実現を可能にします。
セキュリティ: 意図ゲート（IGX）は、モデルがポリシーを「学習」したり「探り」たりすることを防ぎ、適応的攻撃に対する堅牢な防御を提供します。

本システムは、サイバーセキュリティ、ロボティクス、エンタープライズ、ヘルスケアなど、厳格なセキュリティと信頼性が求められる分野での LLM エージェントの展開に不可欠な基盤技術となります。

KAIJU: An Executive Kernel for Intent-Gated Execution of LLM Agents