Act-Observe-Rewrite: Multimodal Coding Agents as In-Context Policy Learners for Robot Manipulation

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「ロボットが失敗を自分で分析し、その結果を元に『自分自身の手順書（プログラム）』を書き換えて、徐々に上手くなる」**という新しい仕組みについて説明しています。

従来のロボット学習は、人間が大量のデータを与えて「教える」か、失敗しても「計算上の重み」を微調整するものでした。しかし、この新しい方法（AOR：Act–Observe–Rewrite）は、**「失敗したら、ロボットが『なぜ失敗したのか』を言語で考え、その原因をコード（命令書）そのものとして書き直す」**という点で画期的です。

以下に、難しい専門用語を使わず、身近な例え話で解説します。

🤖 物語：ロボット「クマ」の修行

この論文の主人公は、ロボットアームを持つ「クマ」くん（AI）です。クマくんは、テーブルの上にある「赤い箱」を掴んで、別の箱の上に置くという課題をこなそうとしています。

1. 従来の方法 vs 新しい方法

従来のロボット（暗記型）：
人間が「こうやって掴みなさい」という1000 回分の動画を見せ、クマくんはそれを丸暗記します。でも、もし「机の位置が少し違う」だけで、クマくんはパニックになって失敗します。また、失敗しても「なぜ失敗したか」は分からず、ただ「もっと練習しよう」と計算を繰り返すだけです。
この論文の方法（AOR：書き換え型）：
クマくんは**「天才的なプログラマー兼エンジニア」**です。
1. 行動（Act）： まず、自分の作った「手順書（Python コード）」に従って箱を掴もうとします。
2. 観察（Observe）： 失敗したら、カメラで「どこがズレたか」を見ます。例えば、「箱の位置を計算する式が間違っていた！」とか、「カメラの向きが逆だった！」とか。
3. 書き換え（Rewrite）： 失敗の原因を言語で分析し、「手順書そのもの」を自分で書き直して、新しいバージョンにします。
次回の試行では、書き直された新しい手順書で挑戦します。これを繰り返すだけで、クマくんは失敗を繰り返さずに上手になっていきます。

2. 具体的なエピソード：クマくんの「目」のトラブル

この仕組みがどれほどすごいのか、実際の失敗例で見てみましょう。

エピソード①：カメラの「上下」が逆だった
- 現象： クマくんは箱の位置を計算しようとしたのですが、常に箱の**「上」**を向いてしまい、箱に届きませんでした。
- 従来の方法なら： 「もっと近づけよう」「もっと上に行こう」とパラメータ（数値）を微調整し続けても、根本的な「計算式」が間違っているため、永遠に失敗します。
- AOR の方法： クマくんは失敗した映像を見て、「あ！私の計算式は『カメラの 0 行目は上』と間違えていた。でも、このカメラは『0 行目は下』なんだ！」と気づきます。
- 結果： 彼は**「計算式そのもの」**を修正し、y 座標の符号を反転させる というコードを書き換えました。これで一発で解決しました。
エピソード②：色が見えなかった
- 現象： 箱は「赤」なのに、クマくんは「銀色」の箱を探していました。
- AOR の方法： 「おや？箱は赤いのに、私のプログラムは『銀色』を探している。あ、カメラの映像では箱が赤く映っているんだ！」と気づき、**「銀色を探す」→「赤色を探す」**という命令を書き換えました。

3. なぜこれがすごいのか？（3 つのポイント）

「教える」必要がない：
人間が「こうやってやれ」という動画（デモンストレーション）を 1 回も見せる必要がありません。失敗から自分で学べます。
「理由」が分かる：
従来の AI は「失敗した」という結果だけを知りますが、このクマくんは**「計算式が間違っていたから失敗した」という理由**まで言語で説明できます。まるで、自分が書いたプログラムをデバッグ（修正）しているエンジニアのようです。
「仕組み」そのものを変えられる：
単に「少し左に行こう」という微調整ではなく、「計算のやり方を変えよう」「カメラの使い方を直そう」という根本的な設計変更も可能です。

4. 限界と課題

もちろん、完璧ではありません。
最後の課題（箱を積み上げるタスク）では、クマくんは「掴んだ箱を置くとき、下の箱に指が当たってしまう」という失敗を正確に発見しました。「原因はこれだ！」と分かったのです。
しかし、「では、どうすれば指が当たらずに置けるか？」という解決策（新しい手順）を見つけ出すところで、少し行き詰まりました。これは、AI が「原因の特定」は得意でも、「創造的な解決策の提案」にはまだ限界があることを示しています。

🎯 まとめ

この論文が伝えているのは、**「ロボットに『暗記』させるのではなく、『自分で考えて、自分のルールを書き換える』能力を持たせる」**という新しいアプローチの成功です。

まるで、**「失敗するたびに、自分でマニュアルを書き直し、次はもっと上手にやろうとする、賢い修行中の職人」**のようなロボットです。これにより、新しい作業を教えるために大量のデータを用意する必要がなくなり、ロボットが現実世界でより柔軟に活躍できるようになる可能性があります。

タスク	内容	達成率	必要な LLM 呼び出し回数	備考
Lift	赤い立方体を持ち上げる	100%	3 回	視覚バイアスと静止把持の必要性を自律的に発見・修正。
PickPlaceCan	コカ・コーラ缶をビンに置く	100%	2 回	缶の色の認識ミス（銀色ではなく赤としてレンダリング）と、ビン内のマーカーによる重心計算の誤りを修正。
Stack	赤い立方体を緑の立方体の上に積む	91%	20 回	視覚パイプラインのバグ（座標変換）を修正し精度向上。残りの失敗は把持時の接触によるもので、エージェントは原因を特定したが解決策（配置戦略の回避）は見出せなかった。

Act-Observe-Rewrite: Multimodal Coding Agents as In-Context Policy Learners for Robot Manipulation

🤖 物語：ロボット「クマ」の修行

1. 従来の方法 vs 新しい方法

2. 具体的なエピソード：クマくんの「目」のトラブル

3. なぜこれがすごいのか？（3 つのポイント）

4. 限界と課題

🎯 まとめ

Act–Observe–Rewrite (AOR): 物理的操作におけるマルチモーダルコーディングエージェントによるコンテキスト内ポリシー学習

1. 問題定義と背景

2. 手法：Act–Observe–Rewrite (AOR) フレームワーク

2.1 アーキテクチャ

2.2 セーフティと安定性

3. 主要な貢献

4. 実験結果

5. 意義と将来展望

Act-Observe-Rewrite: Multimodal Coding Agents as In-Context Policy Learners for Robot Manipulation

🤖 物語：ロボット「クマ」の修行

1. 従来の方法 vs 新しい方法

2. 具体的なエピソード：クマくんの「目」のトラブル

3. なぜこれがすごいのか？（3 つのポイント）

4. 限界と課題

🎯 まとめ

Act–Observe–Rewrite (AOR): 物理的操作におけるマルチモーダルコーディングエージェントによるコンテキスト内ポリシー学習

1. 問題定義と背景

2. 手法：Act–Observe–Rewrite (AOR) フレームワーク

2.1 アーキテクチャ

2.2 セーフティと安定性

3. 主要な貢献

4. 実験結果

5. 意義と将来展望

関連論文

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers