Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

Die Arbeit stellt Yo'City vor, ein neuartiges agentic Framework, das mithilfe von Large Language Models eine personalisierte, hierarchisch geplante und unendlich erweiterbare Generierung realistischer 3D-Stadtlandschaften ermöglicht und dabei bestehende Methoden in allen Bewertungskriterien übertrifft.

Keyang Lu, Sifan Zhou, Hongbin Xu, Gang Xu, Zhifei Yang, Yikai Wang, Zhen Xiao, Jieyi Long, Ming Li

Veröffentlicht 2026-03-10
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest eine ganze Stadt aus dem Nichts erschaffen – nicht nur ein einzelnes Haus, sondern ein riesiges, lebendiges Metropolis mit Parks, Wolkenkratzern, Einkaufszentren und sogar einem Harry-Potter-Themenpark. Und das alles nur, indem du einen einfachen Satz in eine Maschine tippst.

Das ist genau das, was die Forscher mit Yo'City erreicht haben. Hier ist eine einfache Erklärung, wie das funktioniert, ohne komplizierte Fachbegriffe:

1. Das Problem: Warum Städte bauen so schwer ist

Bisher war es wie ein riesiges Puzzle, bei dem man die Teile einzeln aneinanderkleben musste. Frühere Methoden haben entweder:

  • Zu starre Regeln benutzt (wie ein Baumeister, der nur nach einem alten Bauplan arbeitet).
  • Oder sie haben die Stadt Stück für Stück "herumgetippt" (wie ein Kind, das Legosteine nacheinander auf einen Haufen legt). Das Problem dabei: Wenn man zu weit geht, passt das Ende nicht mehr zum Anfang, und die Stadt wirkt chaotisch oder wie eine Karikatur.

2. Die Lösung: Yo'City als "Super-Architekt-Team"

Yo'City ist kein einzelner Roboter, sondern ein Team aus intelligenten Agenten (wie ein gut organisiertes Architekturbüro), das mit modernster KI arbeitet. Sie nutzen eine clevere Strategie, die man sich wie einen Bauplan in drei Ebenen vorstellen kann:

Ebene 1: Der Stadtplaner (Der "Chef")

Stell dir vor, du sagst: "Ich will eine moderne Stadt mit einem großen Einkaufszentrum und einem ruhigen Wohnviertel."
Der Global Planner (der Chef) hört zu und denkt sich sofort einen groben Plan aus:

  • Wie groß soll die Stadt sein?
  • Wo kommt das Einkaufszentrum hin? (Nicht direkt neben dem Wohngebiet, oder doch?)
  • Wie viele Blöcke braucht man?
    Er teilt die Stadt in große Zonen ein, ähnlich wie ein Stadtplaner, der zuerst die Bezirke auf einer Landkarte markiert.

Ebene 2: Der Detail-Designer (Der "Handwerker")

Jetzt kommt der Local Designer ins Spiel. Er nimmt die groben Zonen des Chefs und füllt sie mit Leben. Er denkt sich für jeden einzelnen kleinen Stadtblock (einen "Grid") genau aus:

  • "Hier stehen drei hohe Glasgebäude."
  • "Dort ist ein kleiner Park mit Bäumen."
  • "Die Häuser hier haben rote Ziegeldächer."
    Er sorgt dafür, dass alles, was in einem Viertel passiert, auch stilistisch zusammenpasst.

Ebene 3: Der 3D-Baumeister (Der "Maler")

Jetzt wird aus dem Text ein Bild. Aber nicht irgendein Bild, sondern eine isometrische Ansicht (eine Art schräge Draufsicht, wie bei einem Brettspiel).
Hier passiert das Magische:

  1. Malen: Die KI malt das Bild.
  2. Kritik: Ein "Kritiker" (ein selbstreflektierender KI-Teil) schaut sich das Bild an. "Hey, die Gebäude sehen zu krumm aus" oder "Hier fehlt ein Fenster".
  3. Verbessern: Die KI malt es nochmal, bis es perfekt ist.
  4. 3D-Form: Aus diesem perfekten Bild wird dann ein echtes 3D-Modell gezaubert.

3. Das Besondere: Die Stadt wächst mit dir (Selbstkritische Erweiterung)

Das Coolste an Yo'City ist, dass die Stadt unendlich wachsen kann.
Stell dir vor, du spielst ein Videospiel und sagst: "Ich möchte noch ein großes Stadion hinzufügen."
Yo'City schaut sich die bestehende Stadt an und fragt sich:

  • "Wo passt das Stadion am besten hin?"
  • "Es sollte nicht direkt neben dem Wohngebiet sein (zu viel Lärm), aber nicht zu weit weg (die Leute wollen es erreichen können)."

Die KI nutzt eine Art soziales Netzwerk der Stadt (ein "Szene-Graph"), um zu verstehen, welche Teile der Stadt "Freunde" sind (z. B. Schule und Wohngebiet) und welche "Feinde" (z. B. Fabrik und Wohngebiet). Sie sucht den perfekten Platz, baut das Stadion und fügt es nahtlos ein, ohne dass die Stadt kaputt aussieht.

Warum ist das so toll?

  • Keine Vorkenntnisse nötig: Du musst kein Architekt sein. Du sprichst einfach mit der KI.
  • Unendlich groß: Du kannst die Stadt immer weiter erweitern, ohne dass sie "kaputtgeht".
  • Realistisch: Die Gebäude sehen nicht aus wie aus einem Cartoon, sondern haben echte Texturen, Fenster und Logik.
  • Persönlich: Du kannst jede Art von Stadt bauen – von einer futuristischen Cyberpunk-Stadt bis zu einer mittelalterlichen Handelsstadt.

Zusammenfassend:
Yo'City ist wie ein unendlicher Lego-Satz, der von einem Team aus genialen Architekten gesteuert wird. Sie hören dir zu, planen die Stadt von oben nach unten, bauen jedes Haus mit Liebe zum Detail und sorgen dafür, dass alles, was du später hinzufügst, perfekt in das bestehende Bild passt. Es ist der erste Schritt zu einer Welt, in der jeder seine eigene, lebendige 3D-Stadt erschaffen kann, einfach durch Reden.