Learning Street View Representations with Spatiotemporal Contrast

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie wollen eine Stadt verstehen. Dazu schauen Sie sich Fotos von der Straße an (sogenannte „Street View"-Bilder). Das Problem ist: Eine Stadt ist wie ein lebendiges Wesen. Sie ändert sich ständig. Mal ist es hell, mal dunkel, mal fahren viele Autos vorbei, mal sind die Bäume grün, mal braun.

Die Forscher in diesem Papier haben sich gefragt: Wie kann man einem Computer beibringen, das Wesentliche einer Stadt zu erkennen, ohne sich von diesen ständigen Veränderungen verwirren zu lassen?

Hier ist die einfache Erklärung ihrer Lösung, mit ein paar bildhaften Vergleichen:

Das große Problem: Der laute Marktplatz

Stellen Sie sich vor, Sie versuchen, ein bestimmtes Café in einer Stadt wiederzufinden.

Der alte Weg (herkömmliche KI): Die KI schaut sich das Foto an und merkt sich alles: Das rote Auto davor, die Person, die gerade lacht, die Sonne, die blendet. Wenn Sie morgen wiederkommen und das Auto weg ist, die Person eine andere ist und es regnet, denkt die KI: „Das ist ein anderes Café!" Das ist, als würde man sich einen Freund nur an seinem heutigen T-Shirt erinnern und ihn nicht wiedererkennen, wenn er morgen ein anderes trägt.
Das Ziel: Wir wollen, dass die KI das Gebäude und die Straßenstruktur erkennt (das, was immer gleich bleibt), aber die Autos und Menschen (die sich ständig ändern) ignoriert.

Die Lösung: Drei verschiedene „Brillen" für die KI

Die Forscher haben eine neue Methode entwickelt, bei der die KI sich selbst unterrichtet (ohne dass Menschen jede Antwort korrigieren müssen). Sie nutzen die Tatsache, dass sie viele Fotos vom gleichen Ort zu verschiedenen Zeiten und von benachbarten Orten haben.

Sie haben drei verschiedene „Brillen" (Lernstrategien) entwickelt:

1. Die Zeit-Brille (Das „Zeit-Filter")

Wie es funktioniert: Die KI bekommt zwei Fotos vom gleichen Ort, aber eines aus dem Jahr 2018 und eines aus dem Jahr 2023.
Die Aufgabe: „Finde heraus, was auf beiden Bildern gleich ist!"
Die Analogie: Stellen Sie sich vor, Sie schauen sich Ihr altes Schulfoto und ein aktuelles Foto an. Ihr Haar ist anders, Sie tragen andere Kleidung, aber Ihr Gesicht und Ihre Nase sind gleich. Die KI lernt, sich nur auf das „Gesicht" der Stadt (Gebäude, Straßen) zu konzentrieren und das „Kleid" (Autos, Jahreszeiten, Licht) zu ignorieren.
Wofür ist das gut? Perfekt, um Orte wiederzufinden (z. B. für Navigation), egal ob es Sommer oder Winter ist.

2. Die Raum-Brille (Der „Nachbarschafts-Check")

Wie es funktioniert: Die KI bekommt Fotos von zwei verschiedenen Orten, die aber ganz nah beieinander liegen (z. B. zwei Häuserblocks weiter), und zwar zur gleichen Zeit.
Die Aufgabe: „Finde heraus, wie ähnlich sich die Stimmung dieser beiden Orte ist!"
Die Analogie: Stellen Sie sich vor, Sie gehen durch ein Viertel. Sie sehen ein altes Backsteinhaus und dann zwei Häuser weiter ein anderes altes Backsteinhaus. Die KI lernt: „Aha, hier herrscht eine bestimmte Atmosphäre: Es ist ein altes, teures Viertel." Sie ignoriert, dass auf dem einen Bild ein rotes Auto steht und auf dem anderen ein blaues. Sie lernt den „Vibe" der Nachbarschaft.
Wofür ist das gut? Perfekt, um vorherzusagen, wie reich oder arm ein Viertel ist, wie sicher es wirkt oder wie die Gesundheit der Bewohner ist.

3. Die Globale-Brille (Der „Gesamt-Eindruck")

Wie es funktioniert: Die KI nimmt ein einziges Foto und schneidet es ein bisschen zu oder dreht es, als würde man durch eine Lupe schauen.
Die Aufgabe: „Erkenne, dass dies immer noch dasselbe Bild ist, auch wenn es anders aussieht."
Wofür ist das gut? Um zu verstehen, wie sicher oder gefährlich ein Ort wirkt, basierend auf allen Details (Bäume, Licht, Menschenmenge) zusammen.

Was haben sie herausgefunden?

Die Forscher haben getestet, welche „Brille" für welche Aufgabe am besten ist:

Für die Navigation (Wo bin ich?): Die Zeit-Brille war der absolute Gewinner. Sie konnte Orte auch dann wiedererkennen, wenn sich die Jahreszeiten oder die Verkehrssituation komplett verändert hatten.
Für soziale Vorhersagen (Wie gut geht es den Menschen hier?): Die Raum-Brille war am besten. Sie konnte den „sozialen Vibe" eines Viertels am genauesten erfassen.
Für Sicherheitsgefühle (Fühlt man sich hier sicher?): Die Globale-Brille (die einfachste Methode) funktionierte überraschend gut, weil sie alle Details gleichzeitig betrachtet.

Das Fazit in einem Satz

Statt einen Computer wie einen starren Fotografen zu programmieren, der alles genau so sieht, wie er es sieht, haben die Forscher ihm beigebracht, wie ein weise alter Stadtplaner zu denken: Er ignoriert den vorübergehenden Lärm (Autos, Wetter) und konzentriert sich darauf, was die Stadt wirklich ausmacht – ihre Struktur und ihre Atmosphäre.

Das ist ein großer Schritt, um Städte mit Hilfe von Daten besser zu verstehen und zu verbessern.

Each language version is independently generated for its own context, not a direct translation.

Problemstellung

Straßenansichtsbilder (Street View Imagery) sind eine wertvolle Datenquelle für das Verständnis urbaner Umgebungen und werden für Aufgaben wie Umweltwahrnehmung und sozioökonomische Bewertungen genutzt. Bestehende Bildrepräsentationsmethoden (sowohl überwachte als auch unüberwachte) stoßen jedoch an Grenzen, wenn es darum geht, spezifische Merkmale der Stadtlandschaft gezielt zu kodieren:

Dynamische vs. Statische Elemente: Es ist schwierig, zwischen statischen Strukturen (Gebäude, Straßen) und dynamischen Elementen (Fußgänger, Fahrzeuge, Vegetation, Lichtverhältnisse) zu unterscheiden.
Aufgabenspezifische Anforderungen: Verschiedene Downstream-Aufgaben benötigen unterschiedliche Informationen.
- Visuelle Ortserkennung (VPR) benötigt zeitinvariante Merkmale (Gebäude), während dynamische Elemente herausgefiltert werden müssen.
- Sozioökonomische Vorhersagen erfordern eine räumlich konsistente Darstellung der Nachbarschaftsatmosphäre.
- Menschliche Sicherheitswahrnehmung profitiert von der Erfassung aller visuellen Details, einschließlich dynamischer Elemente.
  Herkömmliche Datensätze (wie ImageNet oder Places) und Methoden können diese komplexen, raum-zeitlichen Nuancen urbaner Umgebungen nicht adäquat abbilden, da sie oft keine spezifischen Labels für dynamische/statische Elemente erfordern oder diese nicht trennen können.

Methodik

Die Autoren schlagen ein selbstüberwachtes Lernframework vor, das die einzigartigen raum-zeitlichen Attribute von Straßenansichtsbildern nutzt, um maßgeschneiderte Repräsentationen zu lernen. Das Framework basiert auf drei Hypothesen und nutzt den kontrastiven Lernansatz (Contrastive Learning) mit der InfoNCE-Verlustfunktion.

1. Drei Lernstrategien (Kontrastive Ziele)

Das Framework trainiert drei verschiedene Encoder, je nach Ziel der Downstream-Aufgabe:

Zeitliche Invarianz (Temporal Invariance):
- Ziel: Lernen der statischen Merkmale der gebauten Umwelt (Gebäude, Infrastruktur) unter Ausblendung dynamischer Elemente.
- Methode: Positive Paare werden aus Bildern desselben Ortes, aber zu verschiedenen Zeitpunkten (historische Aufnahmen) gebildet.
- Annahme: Statische Elemente bleiben über die Zeit konstant, während dynamische Elemente (Verkehr, Licht, Vegetation) variieren. Der Encoder lernt somit zeitstabile Features.
- Einsatzgebiet: Visuelle Ortserkennung (VPR).
Räumliche Invarianz (Spatial Invariance):
- Ziel: Lernen der allgemeinen Nachbarschaftsatmosphäre (sozioökonomischer Kontext) unter Ausblendung spezifischer lokaler Details.
- Methode: Positive Paare werden aus Bildern benachbarter Orte zur gleichen Zeit gebildet.
- Annahme: Benachbarte Gebiete teilen ähnliche architektonische Stile und Funktionen, auch wenn die exakten visuellen Details variieren. Der Encoder lernt eine räumlich konsistente Umgebungsdarstellung.
- Einsatzgebiet: Sozioökonomische Vorhersage.
Globale Informationsrepräsentation (Self-Contrastive):
- Ziel: Erfassung des gesamten Bildinhalts, einschließlich aller dynamischen und statischen Elemente.
- Methode: Positive Paare werden durch Data Augmentation desselben Bildes erzeugt (Standard-Ansatz wie bei SimCLR/MoCo).
- Einsatzgebiet: Aufgaben, die eine ganzheitliche Wahrnehmung erfordern, wie die Sicherheitswahrnehmung.

2. Datensatz und Training

Daten: Es wurden über 42 Millionen Straßenansichtsbilder von 10 globalen Städten (z. B. New York, London, Peking) sowie lokale Daten aus Los Angeles gesammelt.
Datensätze: Es wurden drei spezifische Kontrast-Datensätze erstellt (jeweils 1 Million Bildpaare): Zeitlich, Räumlich und Selbst-Kontrast.
Modell: Ein Vision Transformer (ViT-Base) wurde als Backbone verwendet und mit AdamW optimiert.

Wichtige Beiträge

Neues Framework: Einführung eines selbstüberwachten Frameworks, das die raum-zeitlichen Eigenschaften von Street-View-Daten explizit nutzt, um unterschiedliche Repräsentationen (statisch vs. dynamisch vs. atmosphärisch) zu lernen.
Hypothesenvalidierung: Nachweis, dass unterschiedliche Kontrast-Ziele (zeitlich vs. räumlich) zu unterschiedlichen Feature-Verteilungen führen, die für spezifische städtische Aufgaben optimiert sind.
Benchmark: Bereitstellung eines umfassenden Benchmarks für urbane visuelle Repräsentationen, der zeigt, dass spezialisierte selbstüberwachte Methoden auf Street-View-Daten besser abschneiden als generische Modelle (z. B. ImageNet-vor-trainiert).
Interpretierbarkeit: Tiefgehende Analyse der gelernten Merkmale mittels Aufmerksamkeitskarten (Attention Maps) und Frequenzanalyse, um zu verstehen, was die Modelle lernen (z. B. Filterung von Dynamik vs. Fokus auf Texturen).

Ergebnisse

Die Experimente wurden auf drei Downstream-Aufgaben durchgeführt:

Visuelle Ortserkennung (VPR):
- Das GSV-Temporal-Modell (zeitliche Invarianz) übertraf alle anderen Modelle (inkl. ImageNet-Baselines) deutlich auf Benchmarks wie CrossSeason, Essex und Pitts.
- Es erreichte z. B. auf CrossSeason eine Recall@K von 100 %, da es dynamische Störungen (Jahreszeiten, Fahrzeuge) effektiv ignorierte.
Sozioökonomische Indikatoren-Vorhersage:
- Das GSV-Spatial-Modell (räumliche Invarianz) erzielte die besten Ergebnisse bei der Vorhersage von 18 sozioökonomischen Indikatoren (z. B. Einkommen, Gesundheit, Kriminalität) in Los Angeles.
- Es erreichte einen durchschnittlichen $R^2$ von 0,5888, verglichen mit 0,5209 für ImageNet-Modelle. Dies zeigt, dass die Erfassung der Nachbarschaftsatmosphäre für sozioökonomische Analysen entscheidend ist.
Sicherheitswahrnehmung (Safety Perception):
- Das GSV-Self-Modell (globale Repräsentation) schnitt am besten ab (Accuracy: 88,68 %, F1-Score: 83,33 %).
- Dies bestätigt, dass für die Bewertung der Sicherheit alle Elemente (Bäume, Autos, Menschen) relevant sind und nicht herausgefiltert werden sollten.
Analyse der gelernten Merkmale:
- Aufmerksamkeit: GSV-Temporal ignoriert dynamische Objekte (z. B. Autos) in den Attention-Maps, während GSV-Spatial den gesamten räumlichen Kontext erfasst.
- Frequenzanalyse: GSV-Temporal konzentriert sich stark auf Niederfrequenz-Informationen (globale Struktur, Straßenlayout), während GSV-Spatial stärker auf Hochfrequenz-Informationen (Texturen, Fassadendetails) reagiert, die für die Nachbarschaftsatmosphäre wichtig sind.

Bedeutung und Fazit

Die Studie demonstriert, dass „One-Size-Fits-All"-Ansätze im Bereich der urbanen Bildanalyse unzureichend sind. Durch die gezielte Nutzung von raum-zeitlichen Datenstrukturen in selbstüberwachten Lernverfahren können Modelle entwickelt werden, die spezifische Aspekte der städtischen Umgebung (Stabilität vs. Atmosphäre vs. Gesamtwahrnehmung) präzise kodieren.

Dies bietet einen neuen Standard (Benchmark) für die Anwendung von Computer-Vision-Methoden in den Geowissenschaften und der Stadtplanung und verbessert die Anwendbarkeit visueller Daten für nachhaltige Entwicklungsziele erheblich. Der Code ist öffentlich verfügbar, was die Reproduzierbarkeit und Weiterentwicklung fördert.