原著者： Ruiqi Xue, Lei Yuan, Kainuo Cheng, Jing-Wen Yang, Yang Yu

公開日 2026-05-05

📖 1 分で読めます☕ さくっと読める

原著者： Ruiqi Xue, Lei Yuan, Kainuo Cheng, Jing-Wen Yang, Yang Yu

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 ✨ これは以下の論文のAI生成解説です。著者が執筆または承認したものではありません。技術的な正確性については原論文を参照してください。免責事項の全文を読む

Each language version is independently generated for its own context, not a direct translation.

ロボットに車の運転を教えることを想像してください。ロボットを教える通常の方法は、ロボットに運転させ、ミスを犯させ、物に衝突させ、その衝突から学習させることです。しかし、現実の世界では、何が起きるかを見るためにロボットが壁や歩行者に衝突させることはできません。それは危険すぎます。

そこで、代わりに、非常に慎重で決して衝突しなかった人間のドライバーによって収集された運転ログのデータセットをロボットに与えます。ロボットが見るのは「安全な」運転だけです。

問題：「ほぼ衝突」の罠
ここが厄介な点です。データに衝突が一度も現れていないからといって、ロボットが衝突が起きる前にそれがどのようなものかを知っているわけではありません。

壁に向かって走る車を想像してください。データセットでは、人間のドライバーは壁に衝突する直前に必ずブレーキを踏んでいます。ロボットは車が安全に停止する様子を見ています。しかし、ロボットは「もしブレーキを踏まなかったら、2 秒後に衝突する」ということに気づいていません。「ああ、この速度で運転しても大丈夫だ」と考えてしまうのです。なぜなら、衝突を見たことがないからです。

これがこの論文が扱う核心的な問題です：危険の例がなく、人々がそれを辛うじて回避する例しかない場合、どのように安全を教えるのでしょうか？

解決策：PROCO（「もしも」シミュレーター）
著者たちは PROCO という新しい手法を提案しています。これは、世界の仕組みをモデル化した水晶玉と、超賢い AI が書いた安全マニュアルという 2 つの主要なツールを使う、安全コーチのようなものです。

その仕組みをステップごとに説明します。

1. 水晶玉（ダイナミクスモデル）

まず、ロボットは安全な運転ログから「水晶玉」を学習します。これは魔法ではなく、「私が今ここにいて、ハンドルをこう切ったら、1 秒後にどこにいるか？」を予測する数学モデルです。

比喩： これはフライトシミュレーターのようなものです。ロボットは車の物理法則を学ぶことで、実際に運転することなく将来のシナリオを想像できます。

2. 安全マニュアル（LLM コスト関数）

次に、ロボットは「安全でない」ことが何かを知る必要があります。衝突データがないため、研究者たちは人間の言語を読み理解する超賢い AI である**大規模言語モデル（LLM）**に「安全マニュアル」を書くよう依頼します。

プロンプト： LLM にこう伝えます。「ルールはこれです：壁に衝突しないでください。ただし、特に慎重に扱ってください。壁に近い場合は、すでに衝突したとみなしてください。」
結果： LLM は「コスト関数」として機能するコンピュータ関数（コードの断片）を記述します。これは壁に衝突することだけでなく、壁に危険なほど近いことにも高い「ペナルティスコア」を割り当てます。これにより「安全マージン」が生まれます。

3. 「もしも」ゲーム（能動的なロールアウト）

ここが巧妙な部分です。ロボットは、手持ちの安全なデータから前方へ運転をシミュレートするために水晶玉を使います。「この安全な地点から直進し続けたら、どうなるか？」と問うのです。

安全マニュアルのおかげで、シミュレーターは壁に近づくことが悪いことを知っています。
シミュレーターはこれらの「もしも」シナリオを実行し、架空の衝突データを生成します。現実世界で実際に起きたことはなく、数学的に予測される「ニアミス」や「衝突」の数千の例を作成します。

4. 架空のデータからの学習

最後に、ロボットはこの新しい混合データセットで訓練します。

元の実際の安全データ。
水晶玉によって生成され、安全マニュアルによってフラグ付けられたシミュレートされた「衝突」データ。

これらのシミュレートされた危険で訓練することで、ロボットは衝突につながる状態（「危険地帯」）を認識し、実際に衝突したことがないにもかかわらず、それらから遠ざかることを学びます。

なぜこれが優れているのか

従来の方法： 安全なデータだけをロボットに見せると、衝突を見たことがないため「壁の近くを高速で運転しても安全だ」と考えてしまう可能性があります。それが危険地帯に漂い、実運用時に衝突するかもしれません。
PROCO の方法： 学習に必要な危険なシナリオを能動的に作成します。「まだ衝突していないことは知っているが、水晶玉は『今速度を落とさなければ衝突する』と言っている」と効果的に言えるのです。

結果

著者たちは、車の運転、ロボットアームの操作、泳ぎなど、17 の異なるロボットタスクでこれをテストしました。

彼らは、同じ「安全のみ」のデータから安全を学習しようとした他の高度な手法と比較しました。
結果： PROCO は劇的に優れていました。多くの場合、他の手法と比較して安全違反（衝突）が400% 以上削減されました。他の手法では見抜けなかった将来の危険を「見る」ことができたため、はるかに確実に安全を維持することを学びました。

要約すると： PROCO は、シミュレーターと賢い言語ガイドを使って「もしも」ゲームをさせることで、ロボットに実際に経験したことのない災害を回避する方法を教える手法です。

Each language version is independently generated for its own context, not a direct translation.

技術的サマリー：限られた違反データを用いたオフラインでの安全な方策学習のためのモデルベース能動的コスト生成

1. 問題定義

安全強化学習（RL）は、自動運転やロボティクスなどの応用において不可欠な、事前に定義された安全制約を満たす方策の導出を目指します。オフライン安全 RL は、リスクのあるオンライン探索なしに事前に収集されたデータセットから学習するパラダイムを提供しますが、既存の手法は高リスクシナリオにおいて根本的な限界に直面しています：安全でないサンプルの不足、あるいは完全な欠如です。

多くの実用的なデータ収集プロセス（例えば、ロボットの操作）では、外部介入がエージェントを安全でない状態に到達するのを防ぐことが多く、その結果、データセットはほぼ完全に安全な軌道で構成されます。安全な境界を定義するために豊富な安全でないサンプルからコスト価値関数を学習することに依存する従来のオフライン安全 RL 手法は、この設定では機能しません。それらは観測されたすべてのデータを均一に安全であるとみなす傾向があり、「安全だが実行不可能な」状態を見落としています。これは、現在の制約を満たしているが、動的特性（例えば、慣性）により数ステップ以内に必然的に制約違反を招く状態です。この見落としは、エージェントが安全でない領域へ漂流する方策の展開失敗につながります。

核心的な課題は以下の通りです：安全でないサンプルが不足している、あるいは全く存在しない場合に、オフラインで安全な方策をどのように学習できるか？

2. 手法：PROCO

著者は、安全でないサンプルがほとんどない、あるいは全くないデータセットから実行不可能な状態を特定し、安全な方策を学習するために設計されたモデルベースのオフライン安全 RL フレームワークであるPROCO（Model-Based Proactive Cost Generation）を提案します。この手法は、以下の 3 つの主要コンポーネントを統合しています。

A. LLM 支援による保守的コスト関数生成

安全でないデータの欠如によるギャップを埋めるため、PROCO は大規模言語モデル（LLM）を活用して、自然言語の知識を学習プロセスに組み込みます。

入力: LLM は、タスク情報（ $L_{task}$ ）、安全制約の自然言語記述（ $L_{cost}$ ）、そして厳密な制約定義よりもより保守的なコスト関数を生成するための明示的な指示（ $L_{inst}$ ）を受けます。
出力: 状態を安全でない（1）または安全（0）とラベル付けする Python 関数 $\bar{c}$ 。
検証とフィードバックループ: LLM の出力は信頼性が低い可能性があるため、PROCO は検証メカニズムを採用します。
1. 安全性チェック: 生成されたコスト関数は、既知の安全でないサンプルの小さなセット（ $D_{unsafe}$ 、 $\le 100$ サンプル）に対して検証されます。既知の安全でない状態を見逃さないことを保証するため、これらに対して 100% の精度を達成する必要があります。
2. 保守性チェック: 関数は安全データセット（ $D$ ）上で評価されます。安全なサンプルのうち安全でないものとしてラベル付けされた割合が測定されます。この割合がハイパーパラメータで制御される範囲 $[p_{min}, p_{max}]$ 内に収まれば、関数は承認されます。
3. 洗練: 関数が過度に保守的すぎるか、あるいは十分に保守的でない場合、フィードバック記述（ $L_{feed}$ ）が生成され、コスト関数を洗練させるために LLM にフィードバックされます。

B. 動的モデルに基づく実行可能性の特定

PROCO はオフラインデータからアンサンブル動的モデル $\hat{T}$ を学習します。観測された違反なしに実行不可能な状態を特定するために、分岐型モデルロールアウトを実行します。

オフラインデータサンプルから開始し、モデルは将来の軌道をシミュレーションします。
保守的実行可能ベルマン演算子（ $\bar{B}^*$ ）が導入されます。標準的な演算子とは異なり、 $\bar{B}^*$ はモデルの不確実性に対する堅牢性を確保するために、動的モデルのアンサンブル内での最悪ケース遷移を考慮します。
このプロセスは、多様な反事実的な安全でないサンプルを能動的に生成します。実際の安全でない状態に近い状態を（保守的コスト関数を通じて）安全でないものとしてラベル付けすることで、この手法は実行不可能な状態から安全でない状態への遷移ステップを実質的に短縮し、実行可能性の特定におけるモデル誤差の影響を軽減します。

C. 方策学習パイプライン

データ拡張: 学習された動的モデル $\hat{T}$ と保守的コスト関数 $\bar{c}$ を用いてモデルロールアウトを実行します。 $\bar{c}$ に基づいて安全性違反を含む軌道は、合成データセット $D_{\hat{T}}$ に追加されます。
ラベル付けの再実施: オフラインデータセット $D$ は、 $\bar{c}$ を用いて制約違反コストで再ラベル付けされます。
価値関数の更新: アルゴリズムは、結合されたデータセット（ $D \cup D_{\hat{T}}$ ）を使用して、制約違反価値関数（ $V_h$ ）と行動価値関数（ $Q_h$ ）を更新します。実行可能ベルマン更新における最小化演算子を近似するために、逆期待値回帰（reverse expectile regression）を採用します。
方策の最適化: 方策は、拡張データから学習されたコストクリティックによって導かれ、元のオフラインデータセット $D$ を用いて更新されます。

3. 主要な貢献

問題定式化: 本論文は、安全でないサンプルなしでは実行不可能な状態を安全な状態と区別できない「安全のみ」のデータセットからの安全な方策学習という課題を特定し、定式化しています。
知識とデータの統合: 自然言語の安全仕様（LLM を通じて）と経験的なオフラインデータを統合して保守的コスト関数を生成する新しいフレームワーク（PROCO）を導入し、観測された違反なしにリスク推定を可能にします。
能動的実行可能性の特定: 学習された動的モデルと保守的コスト関数を組み合わせることで、PROCO は実行不可能な状態を特定するために反事実的な安全でないサンプルを合成し、既存手法の「安全だが実行不可能」という盲点を解決します。
理論的保証: 著者は、モデル誤差の大きさに関する仮定がなくても、安全値の過小評価に起因して安全性のパフォーマンスが低下することなく、PROCO を任意のベースラインオフライン安全 RL アルゴリズムと統合できることを示す理論的分析（定理 4.8）を提供します。

4. 実験結果

著者は、Safety-Gymnasium ベンチマーク（ナビゲーションタスクと速度タスク）の 17 タスクにおいて、OSRL データセットを用いて PROCO を評価しました。具体的には、すべての安全でないデータを削除することで「安全のみ」のデータセットを構築しました。

性能: PROCO は、安全みのデータセットにおいて、元のオフライン安全 RL アルゴリズム（FISOR、LSPC、CAPS）や行動模倣ベースライン（BC、CDT）を大幅に上回りました。
- さまざまなアルゴリズム全体で400% 以上の安全性性能の向上を達成し、一部のタスクでは 1000% を超える改善が見られました。
- 「Ant Circle」のケーススタディでは、PROCO は安全境界付近の実行不可能な状態を正常に特定し、安全性違反をゼロに抑えましたが、ベースラインは実行可能な状態と実行不可能な状態を区別できず、重大な違反を招きました。
堅牢性: 利用可能な安全でないデータの量が極めて限定的な場合（例えば、元の安全でないデータセットの 10%）でも、この手法は効果的であり続けました。
アブレーション研究:
- 動的モデルまたは保守的コスト関数生成を除去すると、安全性性能が大幅に低下しました。
- LLM 生成コスト関数に対するフィードバックメカニズムは、望ましいレベルの保守性を達成するために不可欠でした。
- この手法は異なる LLM（GPT-o4-mini、Gemini 2.5 Pro）間で安定性を示しましたが、性能にはわずかな変動がありました。

5. 意義と主張

本論文は、PROCO が、安全でないデータの収集が不可能または危険である現実世界の高リスク環境における安全 RL の展開における重要なボトルネックに対処していると主張しています。LLM を活用して自然言語の安全制約を保守的コスト関数に変換し、モデルロールアウトを用いて潜在的な失敗を能動的に探索することで、PROCO は、もともと安全性クリティカルな意思決定には不十分であったデータセットからの安全な方策の学習を可能にします。

著者は、安全な方策を学習するために安全でないサンプルを必要としないというアプローチを強調しており、衝突を防止する人間による遠隔操作や外部介入を通じて収集されたデータが利用されるシナリオに適していると述べています。彼らは、この手法が現在、状態ベースの観測と LLM に依存しているものの、知識駆動型のオフライン安全 RL に向けた重要な一歩を表していると結論付けています。今後の研究として、ビジョン・ランゲージモデル（VLM）を用いた視覚タスクへの拡張が提案されています。

Model-Based Proactive Cost Generation for Learning Safe Policies Offline with Limited Violation Data