Each language version is independently generated for its own context, not a direct translation.

PRECEPT：AI 助手が「失敗」から賢く学ぶための新しい仕組み

こんにちは。この論文は、AI（特に大規模言語モデル）が現実世界で働く際に直面する「大きな悩み」を解決する、新しい仕組み「PRECEPT」について説明しています。

AI 助手が「自然言語（普通の言葉）」で知識を覚えていると、条件が増えるにつれて混乱し、古い情報を捨てられず、敵対的な嘘の情報を信じてしまうことがあります。PRECEPT は、そんな AI を**「確実なルール帳」と「賢い記憶術」**で武装させるフレームワークです。

これをわかりやすく説明するために、**「経験豊富な物流会社の配送センター」**を例に挙げてみましょう。

1. 従来の AI の問題点：「曖昧なメモ帳」の悲劇

昔の AI 助手（Reflexion などの手法）は、失敗した経験を**「日記のようなメモ」**として覚えていました。

問題点： 「昨日は東京の港が閉鎖していたから、大阪に行こう」とメモしていても、条件が「東京＋大阪＋金曜日」と複雑になると、AI はそのメモを読み解くのに失敗し、「えっ、どっちに行けばいいんだ？」と混乱してしまいます。
結果： 条件が増えるほど、正解を見つける確率が急激に下がります。また、一度間違った知識を覚えてしまうと、それが「古い情報」だと気づかず、使い続けてしまいます。

2. PRECEPT の解決策：3 つの強力な武器

PRECEPT は、AI を混乱させないために、3 つの異なるアプローチを組み合わせます。

① 「辞書」のような確実な検索（Deterministic Retrieval）

アナロジー： AI は「日記」ではなく、**「厳密な辞書」**を使います。
仕組み： 「東京港閉鎖」という条件が来たら、辞書の「東京港」のページを1 秒で開き、そこにある「大阪へ迂回」という答えをそのまま使います。
メリット： 条件が 10 個あっても、辞書なら迷うことなく正解が見つかります。AI の「勘違い」や「読み間違い」を 0% にします。

② 「嘘つき」を見抜く記憶術（Conflict-Aware Memory）

アナロジー： 配送センターには、**「信頼できる現場の報告書（動的知識）」と、「古びたマニュアル（静的知識）」**の 2 つがあります。
仕組み： もし古いマニュアルに「A 港は安全」と書かれていても、現場の報告書が「A 港は爆発した！」と伝えていたら、PRECEPT は**「現場の報告書の方が信頼度が高い」**と判断し、古いマニュアルの情報を無視します。
メリット： 敵が「嘘のマニュアル」を仕掛けてきても、AI はその嘘を見抜いて、正しい行動をとれます。

③ 「COMPASS」：AI の思考プロセスを最適化するコンパス

アナロジー： これは AI の**「頭脳トレーニングコーチ」**です。
仕組み： AI がタスクを処理するたびに、コーチは「この手順は効率的か？」「成功したか？」をチェックします。もし失敗したら、コーチは AI に「次はこうしよう」と新しい指示（プロンプト）を与え、「成功」と「効率」の両面で最も優れた方法だけを残して、他の方法は捨て去ります。
メリット： AI は同じ失敗を繰り返さず、どんどん賢くなっていきます。

3. 実験結果：どれくらいすごいのか？

この仕組みを実際のテスト（物流や予約システムのシミュレーション）で試したところ、驚異的な結果が出ました。

初回成功率の向上： 従来の AI が 4 割程度しか成功しなかった難しいタスクで、PRECEPT は9 割以上を初回で成功させました。
失敗からの回復： 環境が急変しても（例：港が突然閉鎖された）、PRECEPT は2 回以内で新しいルールを覚えて、100% 成功するようになりました。
ステップ数の削減： 従来の AI は正解を見つけるために 5〜8 回も試行錯誤しましたが、PRECEPT は2 回程度で済ませました。つまり、60% 以上も速く仕事ができます。

4. なぜこれが重要なのか？

この論文の核心は、「AI を大きくする（モデルを巨大化する）」ことよりも、「AI の仕組みを整理する（構造を明確にする）」ことの方が重要だという点です。

従来の考え方： 「もっと頭の良い AI を作れば、何でも解決するはずだ」。
PRECEPT の考え方： 「AI の『勘』に頼らず、**『確実なルール』と『矛盾を解決する仕組み』**を設計すれば、どんなに複雑な状況でも信頼できる」。

まとめ

PRECEPT は、AI 助手を**「曖昧なメモ帳を持つ新人」から、「辞書と信頼できる報告書を使い分け、コーチの指導で常に最適化されるプロ」**へと進化させるための設計図です。

物流、医療、金融など、**「失敗が許されない」**ような重要な現場で、AI を安心して使いたいという願いに応える、画期的な技術と言えます。

一言で言うと：
「AI に『勘』でやめさせ、『辞書』で正確に、『記憶』で嘘を見抜き、『コーチ』で効率化させる新しい AI の育て方」です。

Each language version is independently generated for its own context, not a direct translation.

PRECEPT: 経験、文脈工学、プローブ軌道によるレジリエンス計画

技術的サマリー（日本語）

本論文は、大規模言語モデル（LLM）エージェントが直面する「知識の検索劣化」「ルール構成の不安定性」「陳腐化・敵対的知識の検出欠如」という 3 つの根本的な課題を解決するための統一フレームワークPRECEPT（Planning Resilience via Experience, Context Engineering & Probing Trajectories）を提案するものです。

以下に、問題定義、手法、主要な貢献、実験結果、および意義について詳細をまとめます。

1. 背景と問題定義

現在の LLM エージェント（特に自然言語で知識を保持する「Verbal Reflection」系のアプローチ）には、以下の 4 つの重大な限界があります。

構成爆発（Compositional Explosion）: $N$ 個の原子条件に対して $2^N$ 通りの組み合わせが存在しますが、従来の手法はこれらすべてを学習・訓練する必要があり、非現実的です。
解釈の劣化（Interpretation Degradation）: 自然言語による知識検索は、条件数が増えるにつれて指数関数的に精度が低下します（例：条件数 $N=10$ で部分一致エラーが 94.4% に達する）。
ドリフト盲点（Drift Blindness）: 環境変化や敵対的な静的知識に対して、古いルールが無期限に維持され、適応が困難です。
サンプル非効率性: 強化学習（RL）は再学習に膨大なサンプル（ $\beta > 100$ ）を必要とし、実運用（ $\beta \le 3$ ）には不向きです。

既存の手法（Reflexion, ExpeL, RL など）は、これら 4 つの軸を同時に解決できていません。

2. 提案手法：PRECEPT フレームワーク

PRECEPT は、3 つの密接に連携したコンポーネントからなる統一フレームワークです。

(1) 決定論的厳密一致ルール検索（Deterministic Exact-Match Retrieval）

機構: 構造化された条件キー（Condition Keys）を用いた $O(1)$ のハッシュルックアップによる厳密一致検索を実装。
効果: 自然言語による「解釈」を排除し、検索エラーを 0% に抑えます。
構成性: 「セマンティックティア階層（Semantic Tier Hierarchy）」（Safety > Compliance > Preferences）を導入し、 $N$ 個の原子ルールから $2^N-1$ 個の複合シナリオを構成可能にします（定理 3.1）。

(2) 敵対的知識・ドリフト対応のコンフリクト解決メモリ（Evo-Memory）

Type I（静的 vs 動的知識の衝突）: ベイズ推論（ベータ分布）とトンプソン・サンプリングを用いて、静的知識（ドキュメント等）と動的知識（実行経験）の信頼性を動的に評価・解決します。敵対的な静的知識を検知し、上書きします。
Type II（環境ドリフト）: ルールの失敗回数をカウントし、閾値（ $\theta=2$ ）を超えたルールを自動的に無効化（Invalidate）します。これにより、環境変化への適応を可能にします。
Evo-Memory: 失敗履歴を蓄積し、同じ失敗を二度と繰り返さない（ $P(repeat)=0$ ）ことを保証します（デジタル・レッド・クイーン仮説の応用）。

(3) COMPASS（Pareto 誘導プロンプト進化）

役割: プローンプトの最適化を行う「外側ループ」。
機構:
- 高頻度モニタリング: 各ステップでアクション/エラーを評価し、パターンを学習。
- 低頻度進化: 事象トリガー時に、GEPA（Generative Evolutionary Prompt Adaptation）を拡張し、ML ベースの複雑性推定と MAP-Elites（多様性維持）を用いてプロンプトを進化させます。
- Pareto 選択: 成功率とステップ効率の 2 目的で Pareto 最解を選択し、候補プロンプトを評価します。

3. 主要な貢献

決定論的検索による構成的ルール学習: 構造化キーによる $O(1)$ 検索により、解釈エラーを排除し、原子制約の積み重ねによる指数関数的な構成カバレッジを実現しました。
統合されたコンフリクト解決とドリフト適応: ベイズ推論と閾値ベースの無効化メカニズムにより、敵対的静的知識（Type I）と環境ドリフト（Type II）の両方を単一フレームワークで処理し、64 倍のドリフト耐性（モデルベース）を達成しました。
COMPASS による二重周波数適応層: 実行パイプライン全体を通じてプロンプトを評価・進化させることで、ヒューリスティックなスコアリングに依存しない堅牢な適応を実現しました。

4. 実験結果

3 つのドメイン（Logistics, Booking, Integration）および 9〜10 回のシード（独立実行）を用いた評価で、以下の結果が得られました。

初回成功率（First-try Success, P1）:
- 強化されたベースライン（Full Reflexion, ExpeL）に対し、+41.1 ポイントの優位性（統計的有意性 $p<0.001$ ）。
- Integration ドメインでは、LLM の事前知識バイアスによる失敗が激しい環境でも、PRECEPT は 80% 以上の P1 を達成しました。
構成一般化（Compositional Generalization）:
- 原子ルールのみで学習し、複合条件でテストした場合、+33.3 ポイントの向上。
- 2 方向物流構成では 100% P1 を達成（ベースラインは 50% 前後）。
連続学習とドリフト適応:
- 最小限のトレーニング（ $\beta=1$ ）からの連続学習で、+40〜55 ポイントの改善。
- 環境ドリフト（正解マッピングの変更）発生時、ベースラインが回復できない中、PRECEPT は +55.0 ポイントの回復率を示しました。
効率性:
- 平均ステップ数がベースラインより 61% 削減（PRECEPT: 約 2.3 ステップ vs Full Reflexion: 約 5.9 ステップ）。
- 敵対的静的知識下でも、最終的な堅牢性（Eventual Robustness）を維持。

5. 意義と結論

PRECEPT は、LLM エージェントの信頼性を「スケーリング（モデルサイズやコンテキスト長の増大）」ではなく、「構造化（決定論的検索、明示的ルール、ベイズ推論）」によって達成する新しいパラダイムを示しています。

理論的裏付け: 条件数が増えるにつれて指数関数的に劣化する自然言語検索に対し、PRECEPT は条件数に依存しない一定の性能を保証します。
実用性: 物流、医療コンプライアンス、金融規制など、決定論的可靠性が求められる高リスクドメインでの展開が可能になります。
アーキテクチャ的革新: 敵対的知識への耐性、ドリフトへの適応、構成的一般化を単一のシステムで統合し、ブラックボックス化された強化学習とは異なり、完全な監査可能性と解釈性を提供します。

本論文は、LLM エージェントの設計において「より賢いエージェント」を目指すのではなく、「より構造化されたエージェント」を構築することの重要性を浮き彫りにしています。

PRECEPT: Planning Resilience via Experience, Context Engineering & Probing Trajectories A Unified Framework for Test-Time Adaptation with Compositional Rule Learning and Pareto-Guided Prompt Evolution