Streetscape Analysis with Generative AI (SAGAI): Vision-Language Assessment and Mapping of Urban Scenes

Der Artikel stellt SAGAI vor, einen modularen Workflow, der OpenStreetMap-Daten, Google Street View-Bilder und das Vision-Language-Modell LLaVA nutzt, um ohne spezifisches Training skalierbare und interpretierbare Bewertungen von Straßenszenen für stadtplanerische Anwendungen zu automatisieren.

Joan Perez, Giovanni Fusco

Veröffentlicht 2026-03-18
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

🏙️ SAGAI: Der digitale Straßen-Inspektor mit KI-Magie

Stellen Sie sich vor, Sie wollen herausfinden, wie lebenswert, sicher oder grün eine Stadt ist. Früher mussten dafür ganze Teams von Stadtplanern mit Klemmbrettern durch die Straßen laufen, Fotos machen und stundenlang zählen: „Hier ist ein Geschäft, dort ein breiter Gehweg, hier ein Baum." Das ist mühsam, teuer und langsam.

Die Forscher Joan Perez und Giovanni Fusco haben eine Lösung entwickelt, die wie ein super-schneller, digitaler Assistent funktioniert. Sie nennen es SAGAI.

1. Was ist SAGAI eigentlich?

SAGAI ist wie ein Roboter-Detektiv, der die Stadt nicht mit seinen eigenen Augen, sondern durch die Linse von Google Street View betrachtet. Aber er ist kein gewöhnlicher Roboter. Er hat ein Gehirn, das nicht nur Bilder sieht, sondern sie auch verstehen und beschreiben kann.

  • Die alte Methode: Ein Computer, der nur nach bestimmten Mustern sucht (wie ein Suchbild im Kinderbuch: „Finde den roten Ball"). Wenn der Ball blau ist, sieht er ihn nicht.
  • Die neue Methode (SAGAI): Ein KI-Modell (ein sogenanntes „Vision-Language-Modell"), das wie ein neugieriger Tourist funktioniert. Sie können ihm einfach sagen: „Hey, zähle mal die Geschäfte auf diesem Bild" oder „Wie breit ist der Gehweg?". Der KI-Assistent schaut sich das Bild an und antwortet in normaler Sprache oder mit Zahlen.

2. Wie funktioniert das? (Die 4 Schritte)

Stellen Sie sich SAGAI als eine Fertigfabrik vor, die in vier Schritten arbeitet:

  1. Der Kartograph (Punkte setzen):
    Der Roboter nimmt eine digitale Landkarte (OpenStreetMap) und setzt automatisch kleine Markierungen (Punkte) entlang aller Straßen. Das ist wie das Setzen von kleinen Flaggen auf einer Landkarte, um zu sagen: „Hier schauen wir uns etwas genauer an."
  2. Der Fotograf (Bilder holen):
    An jedem dieser Punkte holt sich der Roboter automatisch Fotos von Google Street View – so, als würde er sich an jeder Ecke umdrehen und ein Foto in alle vier Himmelsrichtungen machen.
  3. Der Analytiker (Das Gehirn):
    Jetzt kommt die Magie. Diese Fotos werden an die KI (ein Modell namens LLaVA) geschickt. Sie erhalten eine Frage, zum Beispiel: „Ist das hier eine Stadt oder ein Dorf?" oder „Wie viele Geschäfte siehst du?". Die KI schaut sich das Bild an und gibt eine Antwort.
    • Der Clou: Man muss die KI nicht erst mühsam „beibringen" (trainieren). Man kann ihr einfach eine neue Frage stellen, und sie versteht sofort, was gemeint ist. Das nennt man „Zero-Shot" – wie ein Schauspieler, der jede Rolle sofort spielen kann, ohne Proben.
  4. Der Maler (Die Karte):
    Alle Antworten werden gesammelt und wieder auf die Landkarte zurückprojiziert. Plötzlich hat man eine bunte Karte, die zeigt: „Hier ist es sehr urban (dunkelviolett)", „Hier gibt es viele Geschäfte" oder „Hier sind die Gehwege schmal".

3. Was hat das Team herausgefunden? (Die Testergebnisse)

Die Forscher haben SAGAI in zwei sehr unterschiedlichen Städten getestet: Nizza (Frankreich) und Wien (Österreich).

  • Das große Talent: Die KI ist ein Meister darin, Städte von Dörfern zu unterscheiden. Das klappt zu über 90 % perfekt. Sie erkennt sofort, ob sie sich in einer dichten Bebauung oder in einer grünen Gegend befindet.
  • Das mittlere Talent: Geschäfte zu zählen klappt ganz gut, aber manchmal verwechselt die KI ein Werbeplakat oder einen Lieferwagen mit einem echten Laden.
  • Die Herausforderung: Gehwege zu messen ist schwierig. Die KI ist manchmal unsicher, ob ein Grasstreifen ein Gehweg ist oder nicht. Sie gibt oft Schätzwerte ab, die nicht ganz genau sind, aber immerhin einen Hinweis geben.

4. Warum ist das revolutionär?

Stellen Sie sich vor, Sie könnten die ganze Welt in wenigen Stunden analysieren, ohne dass ein einziger Mensch ein Foto machen muss.

  • Es ist kostenlos und einfach: Jeder kann das Programm nutzen, es läuft sogar auf kostenlosen Cloud-Computern (Google Colab). Man braucht keine teuren Supercomputer.
  • Es ist flexibel: Wenn Sie morgen nicht mehr wissen wollen, wie viele Geschäfte es gibt, sondern wie sicher eine Gegend wirkt, ändern Sie einfach die Frage (den „Prompt") und die KI passt sich sofort an.
  • Es ist offen: Der Code ist frei verfügbar. Jeder kann ihn nutzen, verbessern oder für eigene Projekte anpassen.

Fazit

SAGAI ist wie ein digitaler Stadtplaner, der nie müde wird. Er hilft uns, Städte nicht nur als graue Linien auf einer Karte zu sehen, sondern als lebendige Orte mit Gehwegen, Geschäften und Grünflächen. Auch wenn er bei Details wie der exakten Breite eines Gehwegs noch manchmal „nachhelfen" muss, ist er ein riesiger Schritt hin zu einer schnelleren, faireren und datengestützten Stadtplanung.

Kurz gesagt: SAGAI nimmt die langweilige Zählarbeit weg und gibt uns die Zeit, die Stadt wirklich zu verstehen und zu verbessern. 🌆🤖🗺️