InterCoG: Towards Spatially Precise Image Editing with Interleaved Chain-of-Grounding Reasoning

複雑な多物体シーンにおける空間的推論を要する微細な画像編集を可能にするため、テキストによる位置推論と視覚的グラウンディングを交互に行う「InterCoG」という新しいフレームワークと、それに対応する大規模データセット「GroundEdit-45K」を提案し、高い空間的精度を実現した。

Yecong Wan, Fan Li, Chunwei Wang, Hao Wu, Mingwen Shao, Wangmeng Zuo

公開日 2026-03-04
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

InterCoG:画像編集の「名探偵」が解く、複雑な写真の謎

この論文は、**「InterCoG(インターコグ)」という新しい AI 技術について紹介しています。一言で言うと、「写真の中の『誰』や『どこ』を正確に特定し、その部分だけを思い通りに書き換える」**という、これまで難しかった画像編集を、まるで名探偵が謎を解くようにして行う仕組みです。

従来の AI は「青い服を着た人」のように、単純な特徴で対象を探すのが得意でしたが、「左から 3 番目の、赤い帽子をかぶっているが、影に隠れて半分しか見えていない人」のような、複雑な状況や文脈(コンテキスト)が必要な指示には弱かったのです。

InterCoG は、この問題を**「推理(Reasoning)」と「指し示し(Grounding)」を交互に行う**ことで解決しました。


🕵️‍♂️ 名探偵の 3 段階推理プロセス

InterCoG が画像を編集する様子は、まるで名探偵が事件現場を調査しているような 3 つのステップで進みます。

1. 言葉での推理(テキスト・グラウンディング)

まず、AI は写真とユーザーの指示(例:「一番右の男の子のシャツを緑にして」)を読み込みます。
ここで AI は、いきなり画像をいじらずに、**「言葉だけで思考」**します。

「あ、この写真には子供が 3 人いるな。左から順に、赤、青、黄色の服を着ている。指示は『一番右』だから、黄色の服を着た子供がターゲットだ。位置は画面の右端で、木の下にいるな」

このように、**「誰が、どこにいて、どんな特徴があるか」**を言葉で論理的に特定する段階です。

2. 目での確認(ビジュアル・グラウンディング)

次に、言葉で特定した情報を元に、AI は実際に写真の上で「ここだ!」と指し示します

「よし、黄色い服の子供だ。よし、この枠(バウンディングボックス)と、この半透明のマスク(領域)で囲んでおこう」

AI は、自分が「どこを編集するつもりか」を、赤い枠やマスクとして画像上に可視化します。これにより、AI は「言葉で考えたこと」と「実際に見るべき場所」を一致させます。

3. 編集の実行と説明

最後に、この「推理」と「指し示し」を踏まえて、実際に画像を編集します。

「黄色い服の子供のシャツを緑に変える。他の子供や背景は触らないように注意しよう」

そして、編集が終わった後にもう一度、「なぜこうなったか」を言葉で説明します。

「編集後、黄色いシャツが緑になり、子供が目を引くようになった。他の部分はそのまま」

このように、**「言葉で考え → 目で確認 → 実行 → 言葉で説明」**というサイクルを繰り返す(Interleaved)ことで、非常に正確な編集が可能になります。


🧩 従来の AI と InterCoG の違い:料理の例えで

この違いを料理に例えてみましょう。

  • 従来の AI(レシピの読み間違い):
    「鍋に入っている野菜を炒めて」と言われたとき、AI は「鍋」という言葉に反応して、鍋そのものを炒めてしまったり、一番上にある野菜だけを選んで、裏にある野菜を無視したりすることがありました。複雑な状況(鍋の中に具材が重なり合っているなど)だと、混乱してしまうのです。

  • InterCoG(熟練のシェフ):
    「鍋の中で、一番下に隠れているじゃがいもを、皮をむいて焼いて」と言われたとき、InterCoG はまず**「じゃがいもがどこにあるか、他の具材とどう重なっているか」を頭の中でシミュレーションします(推理)。
    次に、
    「ここだ!」とスプーンでじゃがいもを指し示し**(指し示し)、それから実際に皮をむいて焼きます。
    これにより、他の野菜を傷つけずに、正確に「隠れていたじゃがいも」だけを処理できます。


📚 名探偵を育てるための「訓練セット」

この名探偵のような AI を育てるために、研究者たちは**「GroundEdit-45K」**という特別な教材(データセット)を作りました。
これは、4 万 5 千枚もの写真と、それに対する「推理の過程(なぜその対象を選んだか)」が詳しく書かれたノート付きの教材です。

  • 「この写真で、誰を消すか?」
  • 「なぜその人がターゲットなのか?」
  • 「どう編集すればいいか?」

これらを AI に徹底的に学習させることで、複雑な状況でも「正解」を導き出せるようにしました。

🌟 なぜこれがすごいのか?

これまでの画像編集 AI は、「何(What)」を変えるかは得意でしたが、「どこ(Where)」を変えるかが苦手でした。特に、人物が重なり合っていたり、同じようなものがたくさんあったりする複雑な写真では、間違った場所を編集してしまいがちでした。

InterCoG は、「考える(推理)」と「見る(指し示す)」を交互に行うことで、この「どこを変えるか」という難問を解決しました。
これにより、現実世界の複雑な写真でも、**「左から 2 番目の、笑っている人の帽子を、右側の木の色に合わせる」**といった、非常に高度で繊細な編集が可能になりました。

まとめ

InterCoG は、単に画像をいじるだけでなく、**「写真の状況を理解し、論理的にターゲットを特定し、正確に手を加える」**という、人間に近い思考プロセスを AI に持たせた画期的な技術です。これにより、写真編集はより直感的で、かつ精密なものへと進化しました。