Imagine a City: CityGenAgent for Procedural 3D City Generation

本論文は、自然言語による指示に基づき、構造的整合性と視覚的整合性を確保するための教師あり微調整と強化学習を段階的に適用する「CityGenAgent」というフレームワークを提案し、高品質で編集可能なプロシージャルな 3D 都市の自動生成を実現するものです。

Zishan Liu, Zecong Tang, RuoCheng Wu, Xinzhe Zheng, Jingyu Hu, Ka-Hei Hui, Haoran Xie, Bo Dai, Zhengzhe Liu

公開日 2026-03-02
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

想像の都市:AI による「3D 都市づくり」の革命

この論文は、**「CityGenAgent(シティー・ジェン・エージェント)」という新しい AI システムについて紹介しています。簡単に言うと、「言葉で指示するだけで、高品質な 3D 都市を自動で作ってくれる魔法の建築士」**です。

これまでの技術では、都市を作るのは大変で、AI が作った都市は「形が崩れている」「指示と違う」「編集しにくい」といった問題がありました。この新しいシステムは、それらをすべて解決しようとしています。

以下に、専門用語を使わず、身近な例え話で解説します。


1. 従来の課題:なぜ都市作りは難しかったのか?

これまでの AI による都市作りは、大きく分けて 2 つの悩みがありました。

  • 絵画のような AI(レンダリング系):
    絵を描くのは上手ですが、3 次元の「中身」がボヤけています。まるで**「立体的な写真」**を作っているようなもので、建物の壁を触ったり、窓の位置を動かしたりするのは不可能です。
  • ルールベースの AI(従来のプログラム):
    正確な 3D 模型は作れますが、「マニュアル(ルール)」を人間が全部書かないと動かないため、自由度が低く、手間がかかります。

2. CityGenAgent の仕組み:2 人の天才建築士チーム

このシステムは、都市を作るのを**「2 人の専門家のチーム」**に分けて行います。これが最大の特徴です。

① 都市の設計士(BlockGen):街のレイアウトを決める

まず、この AI は**「街全体の地図」**を描きます。

  • 役割: 「ここに学校、あそこに公園、建物はここに並べて」という配置図を作ります。
  • 工夫: 単にランダムに置くのではなく、「建物が道路に重ならない」「緑地が適度に配置されている」といった物理的なルールを厳守します。
  • 例え: 料理で言えば、**「献立と食材の配置を決めるシェフ」**です。どこに何を入れるかを決めます。

② 建物の職人(BuildingGen):建物のデザインを細かく決める

次に、設計図に基づいて、**「個々の建物の外観」**をデザインします。

  • 役割: 「窓は青く、壁はレンガ調、屋根は平らに」といった細部のデザインを指定します。
  • 工夫: 言葉の指示(プロンプト)と、実際に描かれた建物の見た目が一致しているかを確認します。
  • 例え: 料理で言えば、**「食材を切り、味付けをして盛り付けるシェフ」**です。

3. 学習の秘密:2 段階のトレーニング

この AI は、ただ本(データ)を読むだけでなく、**「試行錯誤して上手くなる」**という 2 段階の学習を行います。

  1. 基礎学習(SFT):
    まず、大量の「指示と正解のペア」を見て、**「正しいフォーマットで答えること」**を学びます。
    • 例え: 見習い職人が、先輩の真似をして「正しい手順」を覚える段階です。
  2. 実践強化(RL:強化学習):
    ここが重要です。AI が作ったものを評価し、**「良い点にはご褒美(報酬)、悪い点には罰則」**を与えて、さらに上手にさせます。
    • 空間の報酬: 「建物が重なり合っていないか?」「街のバランスは良いか?」をチェック。
    • 見た目の報酬: 「指示した『赤い壁』が本当に赤く描けているか?」をチェック。
    • 例え: 見習いが実際に料理を作り、味見して「もっと塩を足せ」「火加減を弱めろ」と指導され、**「本物のプロ」**になる段階です。

4. すごいところ:言葉で「編集」できる!

これが最も画期的な点です。
完成した 3D 都市に対して、**「あの建物を中国風に変えて」「建物の高さを低くして」**と自然な言葉で指示すると、AI が即座にプログラムを書き換え、都市を再構築してくれます。

  • 従来の方法: 3D ソフトで一つ一つ手作業で動かす必要があり、大変でした。
  • CityGenAgent: **「魔法の杖(言葉)」**を振るだけで、都市の構造やデザインが瞬時に変化します。

5. まとめ:なぜこれが重要なのか?

この技術は、「自動運転のテスト場」「VR ゲームの世界」、**「都市計画のシミュレーション」**などに使えます。

  • リアル: 写真のように美しいだけでなく、3D として正確な形を持っています。
  • 制御可能: 言葉で自由に編集できます。
  • 効率的: 人間が何時間もかけて作る都市を、数分で作れてしまいます。

一言で言うと:

「CityGenAgent は、『言葉という魔法』で、現実の物理法則も守った、自由自在に編集できる 3D 都市を瞬時に創造する、新しい時代の建築マスターです。」

これにより、未来の都市作りや、没入感のある仮想空間作りが、誰でも簡単に、そして高品質に行えるようになるでしょう。