Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI の目（認識モデル）を新しく作り直すのではなく、AI の『立ち位置』や『見る角度』を賢く変えるだけで、どんな場所でも上手に物を見られるようにする」**という画期的なアイデアを紹介しています。

タイトルは**「See, Act, Adapt（見て、動いて、適応する）」、略してSea2（シーツー）**と呼ばれています。

以下に、難しい専門用語を使わず、日常の例え話を使って解説します。

🕵️‍♂️ 従来の方法 vs 新しい方法

🚫 従来の方法：「頭脳を鍛え直す」

今までの AI は、インターネット上の写真（屋外や明るい場所）で訓練されていました。これを「屋外で育った天才」と想像してください。
しかし、この天才をいきなり「暗い家の中」や「複雑な部屋」に連れて行くと、パニックになってしまいます。

昔の解決策： 天才に「家のなかでの見方」を教えるために、**大量の正解データ（ラベル）**を用意して、AI の脳みそ（モデル）自体を再教育（微調整）していました。
- 問題点： 勉強しすぎて、元々持っていた「屋外での知識」を忘れてしまう（忘却）。また、正解データを作るのに莫大な時間とコストがかかる。

✅ 新しい方法（Sea2）：「立ち位置を変える」

この論文のアイデアは、「脳みそ（AI モデル）はそのまま凍らせておき、AI が『どこに立って、どう向き直れば』見えるか」を教えるというものです。

比喩：
- AI モデル ＝優秀なカメラマン（でも、屋内撮影の経験はない）。
- 環境＝複雑な屋内の部屋。
- Agent（エージェント） ＝カメラマンを動かすアシスタント。

カメラマンは「この角度だと物が隠れて見えない！」「もっと近づいて、上から見たほうがいい！」と判断できるアシスタントを雇います。アシスタントはカメラマンの知識を変えずに、「カメラの位置と角度」だけを調整して、一番よく見える場所へ移動させます。

🚀 Sea2 がどうやって動くか？（3 つのステップ）

このシステムは、**「VLM（視覚と言語を理解する AI）」**をアシスタントとして使います。

1. 見て（See）：指示を理解する

ユーザーが「ソファの近くにあるコップを見つけて」と言うと、アシスタント（VLM）はそれを理解します。

「あ、これは『分割（セグメンテーション）』のタスクだ」
「コップはソファのそばにあるな」
と、頭の中で状況を整理します。

2. 動く（Act）：賢く移動する

アシスタントは、カメラ（自分の視点）を動かす命令を出します。

「最初はソファに隠れて見えないな。少し前に進んで、右に少しずらそう」
「まだ見にくい。もっと近づいて、上から覗き込んでみよう」
この時、「正解の答え（どこにコップがあるか）」は教えてもらっていません。

3. 適応する（Adapt）：フィードバックで学習する

ここが最も素晴らしい部分です。アシスタントは、カメラマン（AI モデル）が**「自信があるか（スコア）」や「画像の中心に物がきているか」という「感覚的なフィードバック」**だけを頼りに動きます。

例え話：
暗い部屋で手探りで物を探すとき、あなたは「あ、手が当たった！」「もっと奥にある気がする」という感覚だけで位置を調整しますよね？
Sea2 も同じで、「AI モデルが『これだ！』と自信を持って答えた瞬間」や「画面の中心に物が来た瞬間」を報酬として、**「もっとこう動けばいいんだ！」**と学習していきます。

🌟 なぜこれがすごいのか？

正解データが不要（ラベルフリー）：
「この箱はここにある」という正解データが全く不要です。AI が「よく見える角度」を見つけられれば、勝手に学習が進みます。
既存の AI をそのまま使える（プラグ＆プレイ）：
最新の高性能な AI モデルを「改造」する必要がありません。既存のモデルを「凍結（固定）」したまま、動かすアシスタントだけを育てれば OK です。
どんな場所でも通用する：
屋外で訓練された AI でも、このアシスタントがいれば、屋内の複雑な部屋でも、家具の隙間や影に隠れたものでも、「一番見える角度」から撮影することで、見事に認識できるようになります。

📊 結果：どれくらい良くなった？

実験では、3 つのタスクで劇的な改善が見られました。

物体の特定（Visual Grounding）： 13.5% 向上
物体の輪郭をなぞる（Segmentation）： 15.9% 向上
3D の箱のサイズを推測（3D Box）： なんと 27.7% 向上！

特に 3D の推測は、角度が少し変わるだけで精度が激変するため、この「視点の調整」が非常に効果的だったことがわかります。

💡 まとめ

この論文は、**「AI の能力を高めるために、AI 自体を無理やり勉強させるのではなく、AI が活躍しやすい『環境（視点）』を整えてあげれば、もっと簡単に、安く、賢くできる」**という新しい考え方を提案しています。

まるで、**「暗い部屋で物を探すとき、照明を明るくする（モデルを改造）のではなく、自分が動く場所を変えて（視点を変える）一番よく見える位置に立つ」**ような、賢くて効率的な解決策なのです。

Each language version is independently generated for its own context, not a direct translation.

論文要約：See, Act, Adapt (Sea2)

1. 問題設定 (Problem)

大規模な事前学習済み視覚モデル（インターネット規模の画像で学習されたもの）は、一般的な画像認識タスクでは卓越した性能を発揮しますが、屋内シーンなどの新しい「具象的（Embodied）」環境に適用されると、視点分布、遮蔽パターン、空間的意味論のドメインギャップにより、性能が著しく低下します。

従来の解決策は、下流タスクのデータでモデルを微調整（Fine-tuning）することですが、これには以下の重大な欠点があります。

破滅的忘却（Catastrophic Forgetting）: 事前学習で獲得した汎用的な知識が失われる。
高コストなアノテーション: 画素レベルのマスクや 3D ボクセルなどの、シーン固有のラベル付きデータが必要となる。

核心的な問い: 「モデルそのものを変更したり、ラベル付きデータを収集したりすることなく、新しいドメインに適応した知覚を実現できるか？」

2. 提案手法 (Methodology: Sea2)

著者は、知覚モジュールそのものを適応させるのではなく、「どのように知覚モジュールを配置・運用するか」を適応させるというパラダイムシフトを提案します。この手法をSea2（See, Act, Adapt）と呼びます。

基本的なアプローチ

知覚モジュールの凍結: 全ての知覚モデル（検出器、セグメンテーション、3D ボックス推定など）は凍結されたまま使用され、パラメータ更新は行われません。これにより、事前学習知識の保持と破滅的忘却の回避を実現します。
VLM 駆動のアクティブ知覚エージェント: 視覚言語モデル（VLM）を「姿勢制御エージェント（Pose-control Agent）」に変換し、エージェントがカメラの姿勢を能動的に調整することで、情報量の多い視点（Informative Viewpoints）へ移動させます。
教師なし学習: 下流タスクのラベル（Ground Truth）は一切使用せず、凍結された知覚モジュールからのスカラーフィードバック（信頼度スコアや幾何学的整合性）のみを報酬信号として利用します。

2段階のトレーニングパイプライン

VLM を低レベルの姿勢制御器として機能させるために、以下の 2 段階で学習を行います。

段階 1: 教師あり微調整 (SFT)
- ルールベースの探索軌跡（対象物の検索、画像中心への整列、距離調整など）を用いて、VLM に空間推論と制御フォーマットを学習させます。
- これにより、VLM は「思考（Thoughts）」、「タスクタイプ」、「タスクプロンプト」、「アクション」を含む構造化された出力を生成できるようになります。
段階 2: 教師なし強化学習 (RL)
- GRPO (Group Relative Policy Optimization) アルゴリズムを採用。
- 報酬関数: 凍結された知覚モジュールの出力から構成されます。
  - フォーマット報酬 ( $r_f$ ): 出力構造の正しさ。
  - 信頼度報酬 ( $r_c$ ): 連続するステップ間での知覚モデルの信頼度スコアの変化（向上）。
  - 幾何学報酬 ( $r_g$ ): 予測領域の画像内面積（対象に近づく）と画像中心からの整合性（対象を中央に置く）。
- この報酬のみを用いて、エージェントは「どの視点から観測すれば知覚精度が向上するか」を学習します。

特徴

プラグアンドプレイ: 特定の知覚アーキテクチャに依存せず、既存のモデル（GroundingDINO, SAM, 3D ボックス推定器等）をブラックボックスとして利用可能。
オープンワールド対応: 自然言語指示（例：「ドアの近くの冷蔵庫を見つけろ」）に基づき、タスクを分解して実行可能。

3. 主要な貢献 (Key Contributions)

初の VLM ベースのプラグアンドプレイ型アクティブ知覚フレームワーク: 多様な市販のモデルと互換性を持ち、スカラー出力のみを報酬として利用することで、再学習や下流ラベルなしで統合可能。
知覚由来の報酬に基づく教師なし RL パイプライン: タスクレベルの目標と凍結モデルからのスカラー出力のみを利用し、ピクセルレベルや 3D ボックスなどの高密度なアノテーションを不要にする。
複数の視覚タスクでの大幅な性能向上: 検出、セグメンテーション、3D 理解の 3 つのタスクにおいて、ドメインギャップによる性能低下を視点適応のみで効果的に克服することを実証。

4. 実験結果 (Results)

データセット: ReplicaCAD (84 室内シーン) および HM3D (より複雑な実世界再構成)。
評価タスク: 視覚グラウンディング、セグメンテーション、3D ボックス推定。

ReplicaCAD における主な結果:

視覚グラウンディング: 平均 mAP で +13.54% の向上。
セグメンテーション: IoU で +15.92%、Dice で +13.59% の向上。
3D ボックス推定: IoU で +27.68%、センタースコアで +25.35% の大幅な向上。

比較評価:

単純な移動戦略（前方へ進む、ランダム）: 性能が著しく低下（遮蔽や切り取りの増加による）。
ヒューリスティック手法: 初期誤検出から回復できず、性能向上は限定的。
最短経路（Oracle）: 目標位置の 3D 座標を知っているが、単に到達するだけでは高品質な知覚は得られず、視点の戦略的選択が重要であることを示唆。
事前学習済み VLM のみ: 直接プロンプトを与えただけでは性能が低下し、Sea2 の 2 段階学習（SFT+RL）の必要性が確認されました。

HM3D における結果:

ReplicaCAD と同様の傾向が見られ、複雑な実世界環境においてもロバストに機能することが確認されました。

5. 意義と結論 (Significance)

Sea2 は、ドメイン適応において「モデルの微調整」や「高コストなラベル付け」に依存しない新しい方向性を示しました。

効率性: 事前学習モデルの知識を維持しつつ、ラベルなしで新しい環境に適応可能。
汎用性: 特定の知覚モデルに依存せず、多様なタスクやモデル構成に対応可能。
実用性: 具象的 AI（Embodied AI）において、現実世界での展開時に遭遇するドメインギャップを、エージェントの「行動（視点移動）」によって解決する有効なアプローチを確立しました。

結論として、モデルそのものを修正するのではなく、**「賢く視点を選ぶ（Active Perception）」**ことで、ドメインギャップによる性能低下を効果的に回復できることを実証しました。

See, Act, Adapt: Active Perception for Unsupervised Cross-Domain Visual Adaptation via Personalized VLM-Guided Agent