Each language version is independently generated for its own context, not a direct translation.

🚕 物語：AI 運転手と暴走するタクシー

想像してください。
あなたは**「AI 運転手（エージェント）」を雇って、自動車で「仮想通貨（暗号資産）」**という荒れた海を走るタクシーを走らせています。

1. 問題：AI が「悪魔」に操られる危険性

最近の AI は、人間が「もっと儲けたいから、リスクを全部賭けて！」と指示したり、ハッカーが「この命令は嘘だよ、全部売っちゃえ！」と AI の耳元で囁いたり（これを**「プロンプト注入」**と呼びます）します。

さらに、AI は**「スキル（スキル.sh）」**という名前の「追加パーツ」をネットから自由にインストールできます。

良いパーツ： 「天気が良ければ走行速度を上げる」
悪いパーツ（マルウェア）： 「誰かが『売れ』と言ったら、全財産を賭けて売れ」

もし AI がこれらの「悪いパーツ」や「嘘の命令」を信じて、**「全額・最大レバレッジ・一瞬で」という暴走指令を出したらどうなるでしょうか？
AI が「正解の文章」を書けても、「実行（アクション）」の段階で間違うと、あなたの資産は瞬く間に消えてしまいます（これを「実行面の脆弱性」**と呼びます）。

2. 解決策：SAE（生存可能意識型実行）という「暴走防止ブレーキ」

この論文が提案しているのは、**「SAE（Survivability-Aware Execution）」**という新しいシステムです。

これは、AI 運転手と車のエンジン（取引所）の間に挟まる**「超厳格な安全チェック係（ミドルウェア）」**です。

SAE の役割は以下の 3 つです：

「信頼できない」前提でチェックする
- AI からの「売れ！」「買え！」という命令は、最初から**「嘘かもしれない」「悪魔に操られているかもしれない」**と疑います。
- 「スキル（パーツ）」がどこから来たかもチェックし、怪しいものなら即座に制限をかけます。
「暴走防止ブレーキ」をかける
- AI が「全額・100 倍レバレッジで！」と叫んでも、SAE は**「待て！今は市場が荒れているし、あなたの信用度も低い。せいぜい 1 倍レバレッジで、1 回だけ！」**と命令を書き換えます。
- これを**「投影（Projection）」**と呼びます。AI の暴力的な要望を、安全な範囲に「投影（変換）」して実行します。
「冷静になる時間」を作る
- AI がパニックになって連打しようとしても、**「一度 2 分間待て」**というルール（クールダウン）を強制します。

3. 実験結果：本当に効果があるのか？

論文では、実際の Binance（仮想通貨取引所）の過去データを使って、この SAE を試しました。

SAE なし（NoSAE）：
- AI が暴走して、最大で資産の 46% が吹き飛ぶ大惨事になりました。
- 攻撃（ハッキングや嘘の命令）が 100% 成功しました。
SAE あり（Full）：
- 最大損失は3% 以下に抑えられました（93% 減！）。
- 最悪のケース（テールリスク）も劇的に減りました。
- 攻撃の成功率は 72% まで下がりました（まだ 0 ではありませんが、大幅改善）。
- 重要： 正常な取引（儲かるチャンス）は邪魔せず、「壊滅的な失敗」だけを防ぎました。

4. 重要なポイント：「AI の頭」ではなく「AI の手」を守る

これまでの AI 研究は、「AI が正しい文章を書くようにする（頭を良くする）」ことに注力していました。
しかし、この論文は**「AI が間違ったことを言っても、実行させないようにする（手を縛る）」**ことが重要だと説いています。

従来の考え方： 「AI に『絶対に損しないように』と教えて、賢くする」
この論文の考え方： 「AI はバカでも悪魔でも構わない。『実行する直前』に、必ず安全なルールでチェックする」

🎯 まとめ：なぜこれが重要なのか？

これからの AI は、単に「チャット」をするだけでなく、**「お金を使ったり、システムを操作したり」するようになります。
もし AI がハッキングされたり、間違った指示を受けたりしても、「実行する直前のブレーキ（SAE）」**があれば、資産を失わずに済みます。

この論文は、**「AI が暴走しても、システム自体が生き残れる（Survivability）」**ための新しい安全基準を提案した、非常に重要な研究です。

一言で言えば：

「AI 運転手には、暴走防止ブレーキと、怪しいパーツを拒否するセキュリティゲートが必要だ！」

Each language version is independently generated for its own context, not a direct translation.

論文サマリー：実行が新たな攻撃対象領域へ

survivability-Aware Agentic Crypto Trading with OpenClaw-Style Local Executors

本論文は、LLM（大規模言語モデル）を駆使した自律エージェントが金融取引（特に暗号資産先物）を実行する際の安全性と生存性（Survivability）に焦点を当てた研究です。OpenClaw 風のアーキテクチャやスキルマーケットプレイス（skills.sh など）の普及により、エージェントの「実行（Execution）」自体が新たな攻撃対象領域（Attack Surface）となっている現状を指摘し、これに対処するための新しい実行層の標準「SAE（Survivability-Aware Execution）」を提案しています。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細をまとめます。

1. 問題定義：実行層における新たなリスク

従来の AI 安全性研究は、LLM が「誤った回答」を生成するリスクに焦点を当てていましたが、エージェントがツールを呼び出し、現実世界（特に金融取引）に作用するようになると、リスクの性質が変化します。

実行が攻撃対象領域となる理由:
- OpenClaw 風のスタックでは、LLM の意図（プロンプト）がツールの呼び出しやローカル実行権限に変換されます。
- スキルマーケットプレイス（skills.sh など）を通じてサードパーティ製のスキルがインストール可能になり、サプライチェーン攻撃（悪意のあるスキルによる権限乗っ取り）やプロンプトインジェクションのリスクが高まっています。
- 暗号資産先物取引では、レバレッジ、資金調達率（Funding Fee）、維持証拠金などのメカニズムにより、小さな実行ミスが非線形的に増幅され、強制決済（Liquidation）や甚大な損失につながります。
核心的な課題:
- 上流（戦略エンジンや LLM）からの意図は「信頼できない（Untrusted）」と仮定する必要がある。
- 意図が実行される直前（Last Mile）で、意図が有害な行動に転換するのを防ぐための制御層が必要である。

2. 提案手法：Survivability-Aware Execution (SAE)

SAE は、戦略エンジン（LLM 等）と取引所エグゼキュータの間に配置されるミドルウェアであり、実行契約（Execution Contract）として機能します。

2.1 中核的な概念

意図されたポリシー仕様（Intended Policy Spec, $S_t$ ）:
ユーザーの自然言語ではなく、構造化された仕様（許可されるツール、リスク予算、市場状態制約、アカウント制約）を定義し、これが「意図された行動範囲（ $A_{intended}$ ）」の基準となります。
委任ギャップ（Delegation Gap, DG）:
実行可能だが意図された範囲外（Out-of-Scope）の行動によって生じる期待損失を定量化する指標です。
$DG \triangleq E[\ell(a_t) \cdot \mathbb{1}\{a_t \notin A_{intended}(S_t)\}]$
これにより、攻撃や誤動作による損失を測定・報告可能にします。
生存性第一の最適化:
収益最大化ではなく、テールリスク（CVaR）の最小化と強制決済の回避を主目的とし、攻撃成功率（AttackSuccess）や誤検知率（FalseBlock）を制約条件として最適化を行います。

2.2 SAE のアーキテクチャと機能

SAE は以下の 4 つのレイヤーで構成され、実行リクエストを処理します。

実行契約（API）:
- ExecutionRequest: 戦略からのリクエスト（銘柄、レバレッジ、数量など）。
- ExecutionContext: アカウント状態、市場状態（ボラティリティ、資金調達率）、信頼状態（Trust State $z_t$ ）。
- ExecutionDecision: 決定（ALLOW, LIMIT, BLOCK）と強制される制約。
信頼状態に基づく予算調整（Trust-conditioned Budgeting）:
スキルの出所（Provenance）、能力リスク、インジェクションアラートに基づき、信頼度 $z_t$ が低い場合はレバレッジや数量の上限を自動的に引き下げます。
射影ベースの執行（Projection-based Enforcement）:
要求された行動 $a_{req}$ を、予算制約を満たす実行可能領域 $F(B)$ へ射影（Projection）します。
$a_{SAE} = \arg \min_{a \in F(B)} D(a, a_{req})$
これにより、過剰なレバレッジやスリッページ要求を、戦略の意図を維持しつつ安全な範囲に「制限（Limit）」します。
時間的不変性の強制:
コールドダウン（一定時間取引禁止）やオーダーレート制限を適用し、攻撃的な高頻度取引やパニック売り/買いを防ぎます。

3. 主要な貢献

実行層の生存性標準（SAE）の提案:
OpenClaw 風のツール仲介やスキルエコシステムに対応し、意図されたポリシーと実行の間に非バイパス可能な制約層を確立しました。
委任ギャップ（DG）の定量的測定プロトコル:
意図された仕様と実際の行動の乖離を、再現性のある「Out-of-Scope」ラベリングと損失プロキシを用いて定量化する手法を確立しました。
理論的保証と実装アルゴリズム:
射影ベースの執行が、最悪ケースの損失増幅を理論的に抑えることを示唆し、実用的なアルゴリズム（予算調整、コールドダウン、スリッページ制限）を提供しました。
再現性のある評価環境:
Binance 先物市場（BTCUSDT/ETHUSDT）の 15 分足データ（2025 年 9 月〜12 月）を用いたオフライン再生（Replay）環境を構築し、攻撃シミュレーションと統計的有意性検証を行いました。

4. 実験結果

Binance 先物市場の再生データを用いた評価において、SAE 導入の有無（NoSAE）および既存のリスク管理（StaticOMS）と比較しました。

最大ドローダウン（MDD）の劇的な改善:
- NoSAE: 0.4643
- SAE (Full): 0.0319 （93.1% の削減）
- SAE (Budget): 0.0325
テールリスク（CVaR0.99）の低減:
- 損失の絶対値が $4.025 \times 10^{-3} $から$ \approx 1.02 \times 10^{-4}$ へ減少（約 97.5% 削減）。
攻撃耐性（AttackSuccess）:
- 意図された範囲外の攻撃が実行される割合が、NoSAE の 1.00 から Full 設定で 0.728 へ低下（27.2 ポイント削減）。
- 誤検知（FalseBlock）はこの実験では 0.00 を維持し、正当な取引を阻害しないことを示しました。
委任ギャップ損失（DG Loss）:
- 0.647 から 0.019 へ大幅に減少（97.0% 削減）。
統計的有意性:
- ブロック・ブートストラップ法やウィルコクソンの符号付き順位検定により、SAE による改善が統計的に有意であることが確認されました。

5. 意義と結論

「実行」を新たなセキュリティ境界として再定義:
AI の安全性は「正しい回答」だけでなく、「実行される行動の安全性」で評価すべきであり、特に金融取引のような副作用（Side Effects）が即座に金銭的損失につながる領域では、実行層での制約が不可欠です。
スキルエコシステムへの対応:
サードパーティ製スキルのインストールがサプライチェーンリスクとなる現代において、SAE は「信頼できない意図」を前提とした設計（Trust-conditioned tightening）により、システム全体の生存性を担保します。
実用性とトレードオフの明確化:
完全なブロック（BLOCK）ではなく、制限（LIMIT）や射影による実行を可能にすることで、戦略の意図を維持しつつリスクを最小化するバランス（Pareto 最適）を提供します。
将来展望:
本アプローチは暗号資産取引に限定されず、支払い、クラウド運用、調達など、特権実行を伴うあらゆる AI エージェントシステムに応用可能な汎用的な安全パターンとして位置づけられます。

結論として、 SAE は、OpenClaw とスキルマーケットプレイスが普及するこれからの AI エージェント時代において、実行層における「生存性（Survivability）」を確保するための必須のインフラストラクチャとして機能します。

Execution Is the New Attack Surface: Survivability-Aware Agentic Crypto Trading with OpenClaw-Style Local Executors