Streetscape Analysis with Generative AI (SAGAI): Vision-Language Assessment and Mapping of Urban Scenes

Il paper introduce SAGAI, un flusso di lavoro modulare che utilizza modelli visione-linguaggio su dati aperti per generare indicatori spaziali strutturati e mappe cartografiche delle scene urbane, permettendo un'analisi scalabile e personalizzabile degli ambienti urbani senza necessità di addestramento specifico.

Joan Perez, Giovanni Fusco

Pubblicato 2026-03-18
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di voler capire come "si sente" una città camminando per le sue strade. Non ti interessa solo la forma degli edifici (la loro "scheletro"), ma anche i dettagli che rendono la vita piacevole o difficile: c'è un marciapiede largo? Ci sono negozi accoglienti? L'aria è verde o grigia?

Fino a poco tempo fa, per ottenere queste informazioni, bisognava assumere squadre di persone con taccuini e telecamere per percorrere chilometri a piedi. Era lento, costoso e impossibile da fare per intere città.

Questo articolo presenta SAGAI, un nuovo "super-assistente" digitale che fa questo lavoro per te, ma in modo completamente automatico e gratuito.

Ecco come funziona, spiegato con un'analogia semplice:

🕵️‍♂️ SAGAI: Il Detective Digitale delle Città

Immagina SAGAI come un detective molto curioso che ha due superpoteri:

  1. Occhi di falco (per vedere le foto delle strade).
  2. Un cervello che parla (per capire cosa vede e descriverlo in parole semplici).

Il detective non ha bisogno di studiare per mesi per imparare a riconoscere un marciapiede o un negozio. Basta che tu gli dica: "Ehi, guarda questa foto e dimmi se è una strada di città o di campagna, conta i negozi e misura la larghezza del marciapiede". Lui lo fa istantaneamente.

🛠️ Come lavora SAGAI? (I 4 Passi Magici)

Il sistema funziona come una catena di montaggio digitale composta da quattro passaggi:

  1. Il Mappatore (La Bussola):
    Prima di tutto, SAGAI prende una mappa digitale gratuita (OpenStreetMap) e disegna dei puntini lungo tutte le strade della città che vuoi analizzare. Immagina di spargere dei semi lungo un sentiero: ogni seme è un punto dove il detective dovrà guardare.

  2. Il Fotografo (La Macchina):
    Per ogni puntino, il sistema va automaticamente su Google Street View e scatta (o scarica) quattro foto: una davanti, una dietro, una a destra e una a sinistra. È come se il detective girasse su se stesso per vedere tutto l'angolo.

  3. L'Analista (Il Cervello):
    Qui entra in gioco l'Intelligenza Artificiale (un modello chiamato LLaVA). SAGAI mostra le foto all'AI e le fa una domanda in linguaggio naturale, proprio come se parlassi con un amico.

    • Domanda: "Vedi dei negozi?"
    • Risposta dell'AI: "Sì, ne vedo due."
    • Domanda: "Quanto è largo il marciapiede?"
    • Risposta dell'AI: "Circa 1 metro."
      L'AI non ha bisogno di essere addestrata specificamente per ogni città; capisce tutto grazie alla sua capacità di leggere le immagini e rispondere in parole.
  4. Il Cartografo (La Mappa Finale):
    Infine, SAGAI prende tutte queste risposte e le disegna su una mappa colorata. Se una zona è piena di negozi, diventa rossa; se i marciapiedi sono larghi, diventa verde. In pochi minuti ottieni una mappa completa della "salute" visiva della città.

🌍 Cosa ha scoperto? (Le Prove sul Campo)

Gli autori hanno provato SAGAI in due città molto diverse: Nizza (Francia) e Vienna (Austria).

  • Il successo: L'AI è bravissima a distinguere se una foto è di una zona urbana (piena di case e strade) o rurale (campagna). È quasi perfetta, come un umano esperto.
  • Il buon lavoro: Nel contare i negozi, va bene, ma a volte confonde un cartellone pubblicitario con un negozio vero. È come se un bambino confondesse un'immagine su un libro con un oggetto reale.
  • La sfida: Misurare la larghezza esatta del marciapiede è difficile. L'AI a volte esita o sbaglia di poco, perché le foto possono essere ingannevoli (erba che sembra marciapiede, ombre, ecc.). Tuttavia, anche con questi errori, fornisce dati molto utili per capire le tendenze generali.

🚀 Perché è una rivoluzione?

Prima, per fare questo lavoro servivano:

  • Soldi per assumere persone.
  • Computer potenti e costosi.
  • Mesi di tempo.

Ora, con SAGAI:

  • È gratis: Funziona su Google Colab (un computer nel cloud gratuito).
  • È veloce: Analizza migliaia di immagini in poche ore.
  • È flessibile: Se domani vuoi sapere "quanto è pulita la strada" invece di "quanto è largo il marciapiede", non devi riscrivere il codice. Basta cambiare la domanda (il "prompt") che fai all'AI.

In sintesi

SAGAI è come dare a ogni urbanista, studente o cittadino curioso una lente magica che può scansionare l'intera città in un batter d'occhio, trasformando milioni di foto in dati comprensibili. Non sostituisce l'occhio umano, ma ci aiuta a vedere il quadro generale di tutte le città del mondo, rendendo la pianificazione urbana più intelligente, veloce e accessibile a tutti.