Each language version is independently generated for its own context, not a direct translation.

この論文は、ロボットが人間のように「試行錯誤しながら」複雑な作業を覚える新しい方法「SymSkill（シンスキル）」について紹介しています。

難しい専門用語を抜きにして、**「ロボットが料理を覚える物語」**というイメージで説明しましょう。

🤖 ロボットの「頭」と「手」の悩み

これまでのロボットには、2 つの大きな悩みがありました。

真似上手な「AI 初心者」：
人間が「皿を洗う」動作を大量に見せれば、ロボットはそれを真似して洗えます。でも、それは「その瞬間の動き」を丸暗記しているだけ。もし「お皿」が「鍋」に変わったり、場所が少しずれたりすると、「あれ？何すればいいんだっけ？」とパニックになって失敗します。
（例：レシピを丸暗記したけど、材料がなくなると料理が作れない人）
計算が得意な「頭の良い計画屋」：
「まずドアを開け、次に棚から皿を取り、最後に洗う」という手順を論理的に組み立てることは得意です。でも、計算に時間がかかりすぎて、実際に動かしている最中に「あ、手が滑った！」とか「人が通ってきた！」というトラブルが起きると、その場で立ち止まって「あらためて計画を立てる」のに何十秒もかかってしまいます。
（例：地図を片手に歩きながら、少し道がずれると「今からルート再計算します」と言って 1 分間立ち止まる人）

✨ SymSkill の解決策：「料理の型」と「直感」の合体

SymSkill は、この 2 つの長所を合体させた**「頭も手も賢いロボット」**を作ります。

1. 5 分間の「遊び」で覚える（データ効率の良さ）

人間が料理を覚えるとき、何千回も練習しなくても、数回見たり試したりするだけで「お皿はここに置く」「蓋はこう開ける」という**「型（パターン）」**を掴みます。
SymSkill も同じで、人間がロボットに「5 分間、ただ料理の真似をさせて（プレイデータ）」あげるだけで、必要な知識をすべて学習します。

仕組み： ロボットは、動画から「今、何に触れているか」「どこに向かっているか」を自動で切り取り、**「蓋を開ける動作」や「皿を置く位置」といった「意味のあるルール（述語）」と「スムーズな動き（スキル）」**をセットで発見します。

2. 「型」を使って、即座に復旧する（リアルタイム性）

これが一番すごいところです。
ロボットが「蓋を開ける」動作をしている最中に、誰かが蓋を少しずらしたとします。

従来の計画屋： 「計画が崩れた！今から 1 分間考えて……」
SymSkill： 「あ、蓋がズレたね？でも『蓋を掴む』という**型（ルール）**は変わらないから、そのまま手を伸ばして掴み直せばいいや！」

SymSkill は、細かい動きを「数式で安定した磁石のような力（力学系）」として覚えています。なので、外から押されても、磁石が中心に戻るように自然に軌道修正します。さらに、もし完全に失敗しても、**「今、何のルール（蓋を開ける、など）を実行中か」**だけを見て、そのルール内で即座にやり直し（再計画）ができます。

例：料理中に鍋が滑っても、「鍋を掴む」というルールさえ守っていれば、手元を微調整して再び掴み直せるような感覚です。

🍳 実際の成果：ロボットが料理人になるまで

この技術をテストしたところ、以下のようなことが実現できました。

シミュレーション（RoboCasa）：
「ドアを開ける」「引き出しを閉める」「鍋に蓋をする」といった 12 種類の簡単な作業を、それぞれ 5〜10 回見せるだけでマスターしました。そして、それらを組み合わせて**「チーズを冷蔵庫から出して、カウンターに置き、ドアを閉める」**という複雑な料理（12 段階の作業）を、追加の練習なしで成功させました。成功率は 85% でした。
実機（Franka ロボット）：
実世界のロボットでも、人間が 5 分間遊んで見せるだけで、**「蓋を外して中身を取り出し、蓋を別の場所に置く」**といった論理的な手順を自ら見つけ出し、実行しました。途中で人が邪魔をしても、ロボットは慌てず、ルールに従って動きを修正して任務を完遂しました。

🌟 まとめ：なぜこれが画期的なのか？

SymSkill は、ロボットに**「暗記（真似）」と「論理（計画）」の両方を同時に教えるのではなく、「物事の仕組み（ルール）」と「体の動き（スキル）」をセットで発見させる**という新しいアプローチです。

まるで、「料理のレシピ（ルール）」と「包丁の使い方のコツ（スキル）」を同時に体得した料理人のように、少ない練習で複雑な作業を覚え、トラブルが起きても冷静に復旧できるロボットを実現しました。これにより、ロボットはもっと柔軟に、私達の生活の中で活躍できるようになるはずです。

Each language version is independently generated for its own context, not a direct translation.

SymSkill: 記号とスキルの共創によるデータ効率化および反応的な長期マニピュレーション

1. 概要と問題設定

ロボットが動的環境において複雑な長期タスク（Long-Horizon Tasks）を実行することは依然として大きな課題です。既存のアプローチには以下の限界があります。

模倣学習 (Imitation Learning, IL): 大規模な高品質データがあれば優れた反応性（Reactivity）を示しますが、単一のモノリシックな方策（Policy）を学習するため、状況変化時にどのスキルを再利用すべきかを判断する「構成的汎化（Compositional Generalization）」が困難です。
タスク・アンド・モーションプランニング (TAMP): 記号レベルの計画と連続的な運動生成を組み合わせることで構成的汎化を実現しますが、手動で記号やスキルを設計する必要があり、また大規模な問題の解決に数十秒〜数百秒を要するため、動的環境でのリアルタイムな失敗回復が不可能です。

SymSkill は、これらの利点を統合し、ラベル付けされていない未分割のデモンストレーションデータから、記号（述語、演算子）と目標指向のスキルを同時に学習する統一フレームワークを提案します。これにより、少量のデータ（タスクあたり 5 回程度）で学習し、記号レベルおよび運動レベルの両方でリアルタイムな失敗回復を可能にします。

2. 手法 (Methodology)

SymSkill は、オフライン学習フェーズとオンライン実行フェーズの 2 つの主要なパイプラインで構成されます。

A. デモ分割と参照フレームの選択 (Demo Segmentation & Reference-Frame Selection)

デモンストレーションを以下の 2 つのセグメントに自動的に分割します。

Premotion（接触前）: エンドエフェクタ（グリッパー）が対象物に接触するまでの移動。
Motion（接触中）: グリッパーと対象物が同時に移動する区間。

参照フレームの決定:

Premotion セグメント: 移動対象物（ $o_{int}$ ）のフレームを基準とし、エンドエフェクタの軌道をこの相対フレームで表現します。
Motion セグメント: 移動対象物（ $o_{int}$ ）が静止している参照物（ $o_{ref}$ 、例：扉、シンク、棚）に対して移動すると仮定します。参照物 $o_{ref}$ の特定には、**大規模言語モデル（VLM: Gemini-2.5-Pro）**をオフラインで軽量に使用し、シーンの文脈から適切な静止参照物を抽出します。これにより、オンライン推論に VLM を依存させずに済みます。

B. 相対姿勢述語の学習 (Relative Pose Predicate Learning)

学習された述語は、相対姿勢の分布に基づいて定義されます。

述語の定義: エンドエフェクタと対象物、あるいは対象物と参照物の間の相対姿勢（位置と姿勢）を、ガウス分布（平均と共分散）でモデル化します。
判定: 新しい姿勢が学習された分布の楕円体（Mahalanobis 距離）内に収まれば、その述語（例：RelPose(Door, Cabinet)）が真（True）とみなされます。
特徴: 単一の終点ではなく、軌道全体の分布を学習することで、少量データでも頑健な述語を生成します。

C. 演算子とスキルの学習 (Operator & Skill Co-Invention)

演算子 (Operator) の発見: デモの遷移を記号状態の列に変換し、同じ効果（Add/Del）を持つ遷移群をクラスタリングすることで、事前条件（Preconditions）、効果（Effects）、維持条件（Maintain conditions）を持つ演算子を自動生成します。
スキル (Skill) の学習: 各演算子に対応する低レベル制御方策として、SE(3) 線形パラメータ可変動力学系 (SE(3) LPV-DS) を学習します。
- DS 方策は、学習された参照フレーム内で収束するベクトル場を形成し、外乱に対して安定した動作を保証します。
- 学習データは最小限（数回）で済み、凸最適化を用いて安定性を保証します。

D. オンライン実行と回復 (Online Execution & Recovery)

記号プランニング: 与えられた目標（述語の論理積）に対して、学習された演算子を用いて A* 探索などで計画（スキルのシーケンス）を生成します。
リアルタイム回復:
1. 運動レベル: 学習された DS 方策はフィードバック制御であるため、外乱に対して自動的に軌道を修正します。また、障害物回避のために局所変調（Local Modulation）を適用します。
2. 記号レベル: 維持条件の違反や効果の達成失敗を検知した場合、現在の状態から記号プランを再計画（Replanning）します。
3. リサンプリング: 失敗時に、学習された効果分布から新しい目標姿勢をサンプリングし、方策をトランスフォームすることで、再試行を成功させます。

3. 主要な貢献 (Key Contributions)

記号とスキルの共創フレームワーク: 未分割・未ラベルのデモンストレーションから、計画用の相対姿勢述語と実行用の DS スキルを同時に学習する手法を提案。
データ効率性と反応性: タスクあたり 5〜10 回のデモで学習可能であり、記号レベルでの再計画と DS 方策の安定性により、リアルタイムな失敗回復を実現。
実世界での検証: RoboCasa シミュレーションおよび実機（Franka Panda）での実験により、長期タスクの構成と実行の成功を確認。

4. 実験結果 (Experimental Results)

A. RoboCasa シミュレーション

単一ステップタスク: 12 のタスク（ドア開閉、棚出し入れなど）において、成功率 85% を達成。
比較:
- 監視機能なし（オープンループ）では成功率が 65% に低下。
- Diffusion Policy (DP) を低レベル方策に置き換えた場合、データ不足により成功率が 3.3% まで激減（DS 方策の優位性が確認）。
- 既存手法 NSIL と比較し、より意味のある述語を学習し、計画に成功。

B. 追加データなしの多段階タスク

StoreCheese タスク: 「棚からチーズを取り出し、カウンターに置き、棚を閉める」という 3 段階タスクを実行。
個別に学習したスキルと演算子を組み合わせるだけで、追加データなしで成功。記号レベルの失敗から複数回回復し、タスクを完了。

C. 実世界での学習 (Learning from Play)

設定: 5 分間の「遊び（Play）」データ（バナナ、皿、鍋、ふたなどの操作）から学習。
結果: 11 の演算子を学習し、ユーザー指定の記号目標（例：「バナナを皿に置く」）を達成。
特徴:
- VLM を用いて参照物体（例：棚、鍋）を正しく特定。
- データセット固有の論理的な前提条件（例：「鍋から物を取り出すには、まずふたを外して棚に置く必要がある」という文脈）を自動学習。
- 人間による干渉（蓋を閉められる、障害物を置く）に対して、DS 方策のモジュレーションや記号レベルの再計画により回復し、タスクを完了。

5. 意義と結論

SymSkill は、従来の TAMP の「手動設計と計算コスト」と、IL の「構成的汎化の欠如」という 2 つの課題を解決します。

データ効率: 少量のデモで複雑なタスクを学習可能。
堅牢性: 動的な外乱や予期せぬ失敗に対して、運動レベルと記号レベルの両方で回復する能力を持つ。
実用性: 実機での動作確認を通じて、一般化されたロボット学習への道筋を示しました。

将来的には、 Egocentric Video（一人称視点動画）からの直接学習や、モバイルマニピュレーションへの拡張が予定されています。

Symskill: Symbol and Skill Co-Invention for Data-Efficient and Reactive Long-Horizon Manipulation