Each language version is independently generated for its own context, not a direct translation.
🍳 問題:AI が「無謀な料理」を作ろうとしている
今のシステムは、AI が「API(命令)」を送ると、それを**「ただの注文」として即座に実行してしまいます。
まるで、「料理人(AI)」が「冷蔵庫の食材を全部捨てて、新しいメニューを作りたい!」と叫んだ瞬間、厨房の人間が何も確認せず、本当に全部捨ててしまうような状態**です。
- 今の問題点:
- AI は「今、この料理が本当に必要か?」という文脈を忘れることがあります(幻覚)。
- 複数の AI が同時に「この食材を捨てて!」と叫んだら、誰の言うことを聞くか混乱します。
- 間違った命令でも、システムは「命令通り」に実行してしまい、取り返しのつかない事故(サービス停止など)が起きます。
🛡️ 解決策:OpenKedge(オープン・ケッジ)という「新しいルール」
OpenKedge は、AI に「直接命令を出す」ことを禁止し、代わりに**「意図(Intent)」という「料理の提案書」**を提出させる仕組みです。
1. 「注文」ではなく「提案書」を出す(意図の提出)
AI は「冷蔵庫を空っぽにしろ!」と直接命令するのではなく、**「新しいメニューのために、不要な食材を整理したいという提案」**を出します。
2. 「料理長」と「ルールブック」がチェックする(評価と承認)
この提案書は、すぐに実行されません。
- 料理長(ポリシーエンジン): 「本当に今、その食材が必要ないか?他のシェフも使っていないか?」と、現在の状況(文脈)やルールを照らし合わせてチェックします。
- 結果: 「OK」が出た場合だけ、次のステップに進みます。「NG」なら、実行は止まります。
3. 「使い捨ての魔法の鍵」で実行する(実行契約とアイデンティティ)
ここが最も重要な部分です。
AI が実行する際、通常は「万能のマスターキー(長期間使える権限)」を使いますが、OpenKedge では**「その料理を作るための、たった一度きりの『使い捨ての鍵』」**を発行します。
- 例え: 「卵を割る鍵」しか持っていないので、たとえ AI が狂って「冷蔵庫を爆破しろ!」と叫んでも、物理的に冷蔵庫の扉を開けることさえできません。
- これにより、AI が間違った行動をとっても、**「許可された範囲内」**でしか実行できず、被害を最小限に抑えます。
4. 「証拠の鎖」で全てを記録する(IEEC)
すべての過程(誰が提案したか、なぜ許可されたか、誰が鍵を渡したか、何が起こったか)を、**「改ざん不可能な証拠の鎖(Intent-to-Execution Evidence Chain)」**として記録します。
- もし事故が起きたら、この鎖を辿るだけで**「なぜその行動が許可されたのか」「誰の判断だったのか」**を完全に再現・説明できます。
🏗️ まとめ:建設現場の例えで言うと
今のシステムは、「作業員(AI)」が「コンクリートを流し込め!」と叫ぶと、誰も確認せずに機械が動き出す状態です。
OpenKedge は以下のように変えます:
- 提案: 作業員は「コンクリートを流す提案書」を出します。
- 審査: 現場監督が「今、雨降ってないか?他の作業と被ってないか?」をチェックします。
- 制限: 許可が出ても、作業員には**「コンクリートタンクを開けるための、5 分間だけ有効な小さな鍵」**しか渡しません。他の機械や場所には触れられません。
- 記録: 「誰が、いつ、なぜ許可したか」をすべて写真と動画で証拠として残します。
💡 この論文のすごいところ
- 反応的ではなく予防的: 「間違った命令をフィルタリングする」のではなく、**「実行される前に、許可された範囲だけしか実行できないように仕組みを変える」**点です。
- AI の間違いを許容する: AI が間違った判断(幻覚)をしても、システム自体が「物理的な壁」で守ってくれるため、大惨事にはなりません。
- 説明責任: 「なぜその行動が起きたのか」を、誰でも検証できる形で残します。
つまり、**「AI という暴れん坊を、安全な檻(ケッジ)の中で、責任ある作業員として働かせるための新しいルール」**が OpenKedge です。これにより、AI を大規模に導入しても、システムが壊れることなく安全に動かせるようになります。
このような論文をメールで受け取る
あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。