REALM: An MLLM-Agent Framework for Open World 3D Reasoning Segmentation and Editing on Gaussian Splatting

本論文は、3D ガウススプラッティング表現とマルチモーダル大規模言語モデルエージェントを組み合わせ、曖昧な指示にも対応可能なオープンワールドでの 3D 推論セグメンテーションおよび編集タスクを実現する「REALM」フレームワークを提案し、新規な「Global-to-Local Spatial Grounding」戦略によって高い精度と汎用性を達成したことを報告しています。

Changyue Shi, Minghao Chen, Yiping Mao, Chuxiao Yang, Xinyuan Hu, Jiajun Ding, Zhou Yu

公開日 2026-03-12
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「REALM(リアム)」**という新しい AI の仕組みについて紹介しています。

一言で言うと、**「AI に『3D の部屋』を見せながら、難しい指示を出して、特定の物を見つけさせたり、消したり、変えたりできる技術」**です。

従来の AI は、2 次元の画像(写真)なら「赤いリンゴ」や「机の上のぬいぐるみ」を見つけるのが得意でしたが、**「リンゴの近くにある、青い色の椅子」**のような、複雑な関係性や文脈(状況)を理解して 3 次元空間で物を特定するのは苦手でした。

REALM は、この「3 次元空間での推理」を得意にするために、以下のような工夫をしています。

1. 3D 空間の「透明なホログラム」を作る

まず、REALM は部屋を「3D ガウススプラッティング(3DGS)」という技術で表現します。
これを**「部屋全体を、無数の透明な光の粒子(ホログラム)で埋め尽くした状態」**と想像してください。この粒子たちは、どの角度から見てもリアルな映像を映し出すことができます。

2. 「探偵 AI」と「大勢の目撃者」のチームワーク

ここが REALM の一番のすごいところです。
AI が「リンゴの近くの青い椅子を消して」と言われたとき、ただ 1 枚の写真を見て「あ、椅子だ!」と判断すると、**「角度が悪くて椅子が見えていない」とか「リンゴが隠れている」**といったミスが起きがちです(これを「視点依存」と言います)。

そこで、REALM は**「探偵 AI(MLLM)」に、「大勢の目撃者(複数の視点)」**を配置します。

  • 第一段階(全体調査):
    部屋をぐるぐる回る 8 人(くらい)の目撃者に、同時に「リンゴの近くにある青い椅子はどれ?」と聞きます。
    一人ひとりが「あ、こっちに椅子がある!」「あそこにもあるかも?」と答えます。
    探偵 AI は、これらの回答をまとめて**「おっと、この椅子が一番確実だな」**と、大まかな場所を特定します。
    (例:「リンゴの近く」を特定するために、リンゴが見える角度と、椅子が見える角度を両方確認する)

  • 第二段階(詳細調査):
    特定した椅子の周りに、さらに**「望遠鏡を持った目撃者」を配置します。
    彼らは椅子のアップ画像を撮って、「本当に青い?本当にリンゴの近く?」と細かく確認します。
    これにより、
    「完璧に椅子の形を切り抜く」**ことが可能になります。

この「全体を見て大まかに探し、その後、対象物を囲んで詳しく調べる」という**「全体→局部(グローバル→ローカル)」**という手順が、REALM の核心です。

3. 何ができるのか?(魔法のような操作)

この仕組みがあれば、以下のような魔法のようなことが可能になります。

  • 推理して探す:
    • 「青い色が好きな子供を喜ばせるおもちゃは?」→ AI が「青い象のおもちゃ」を見つけ出す。
    • 「寝ている人たちがいる部屋で、動画を見るために必要なものは?」→ AI が「イヤホン」を見つけ出す。
  • 3D 編集:
    • 「消す」: 「リンゴの近くの椅子を消して」と言うと、その椅子だけがピュッと消え、背景の壁や他の家具はそのまま残ります。
    • 「変える」: 「黄色い足長いおもちゃを赤いリンゴに変えて」と言うと、形や色が変わります。
    • 「素材を変える」: 「アイスクリームを金色の金属に変えて」と言うと、質感が変化します。

まとめ

これまでの AI は「写真を見て名前を当てる」のが得意でしたが、REALM は**「3D の部屋の中で、人間のように『文脈』や『関係性』を考えて、目的の物を見つけ出し、自由に操作できる」**という、ロボットや未来の AI アシスタントにとって非常に重要な技術です。

まるで、**「部屋に無数の目撃者を配置し、彼らの話を総合して、目的の物を正確に特定し、その場で魔法のように変えてしまう」**ようなシステムだと言えます。