Streetscape Analysis with Generative AI (SAGAI): Vision-Language Assessment and Mapping of Urban Scenes

Cet article présente SAGAI, un flux de travail modulaire utilisant des modèles de vision-langage et des données ouvertes pour évaluer et cartographier automatiquement les qualités des rues urbaines sans nécessiter d'entraînement spécifique ni de logiciels propriétaires.

Joan Perez, Giovanni Fusco

Publié 2026-03-18
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🌆 SAGAI : Le "Détective Visuel" des Villes

Imaginez que vous voulez évaluer la qualité de vie dans une ville. Traditionnellement, il fallait envoyer des équipes de chercheurs avec des carnets et des mètres rubans pour marcher dans chaque rue, compter les arbres, mesurer les trottoirs et noter la propreté. C'est long, coûteux et impossible à faire partout en même temps.

SAGAI (Streetscape Analysis with Generative Artificial Intelligence) est une nouvelle méthode qui remplace ces équipes par un robot très intelligent et très rapide, capable de "lire" les rues comme un humain, mais à l'échelle d'une ville entière.

Voici comment cela fonctionne, étape par étape, avec des analogies simples :

1. Le Plan de la Ville (Le Squelette) 🗺️

Avant de regarder les rues, il faut savoir où elles sont. SAGAI commence par télécharger une carte numérique gratuite (OpenStreetMap), un peu comme si on prenait le plan du métro.

  • L'analogie : C'est comme tracer des points le long des rails du métro. Le robot place un "point de contrôle" tous les 40 mètres sur chaque rue.

2. La Visite Virtuelle (Les Yeux du Robot) 👁️

Une fois les points placés, SAGAI va chercher des photos de ces endroits précis sur Google Street View.

  • L'analogie : Imaginez que le robot envoie 4 petits drones invisibles à chaque point pour prendre une photo dans toutes les directions (Nord, Sud, Est, Ouest). Il ne se contente pas de regarder, il "voit" la rue.

3. Le Cerveau Magique (L'IA Générative) 🧠

C'est ici que la magie opère. Au lieu d'utiliser un vieux logiciel qui ne reconnaît que des formes simples (comme un détecteur de voitures), SAGAI utilise un cerveau artificiel moderne (appelé LLaVA) qui comprend le langage humain et les images en même temps.

  • L'analogie : C'est comme si vous montriez une photo à un expert en urbanisme très intelligent et que vous lui disiez : "Regarde cette photo. Est-ce que c'est une rue de ville ou de campagne ? Combien de magasins vois-tu ? Et quelle est la largeur du trottoir ?".
  • Le robot répond instantanément avec des chiffres précis, sans avoir besoin d'être rééduqué pour chaque nouvelle ville. C'est ce qu'on appelle l'inférence "zéro-shot" : il comprend la consigne du premier coup.

4. La Carte Finale (Le Rapport) 🎨

Le robot répète ce processus des milliers de fois. Ensuite, il rassemble toutes ces petites notes pour créer une grande carte colorée.

  • L'analogie : C'est comme faire un pointillisme. Chaque point de couleur représente une note donnée par le robot. Quand on recule, on voit une image claire : les zones très urbaines sont en violet, les zones rurales en jaune, les rues commerçantes en rouge, etc.

🧪 Ce que le robot a appris (Les Résultats)

Les chercheurs ont testé ce système dans deux villes très différentes : Nice (en France) et Vienne (en Autriche). Voici ce qu'ils ont découvert :

  1. Le détective est excellent pour les grandes idées : Il arrive à distinguer une rue de ville d'une route de campagne avec une précision de 90 %. C'est comme si vous lui demandiez "C'est la ville ou la forêt ?" et qu'il avait raison presque tout le temps.
  2. Il est moyen pour compter les objets : Pour compter les devantures de magasins, il fait des erreurs parfois (il peut confondre une affiche publicitaire avec un magasin), mais il donne une bonne idée générale de la vitalité commerciale.
  3. Il a du mal avec les mesures précises : Demander la largeur exacte d'un trottoir est difficile pour lui. Il peut confondre une bande d'herbe avec un trottoir ou sous-estimer la largeur. C'est comme si on lui demandait de mesurer un objet avec une règle en caoutchouc : ce n'est pas parfait, mais ça donne une estimation utile.

🚀 Pourquoi c'est révolutionnaire ?

  • Gratuit et accessible : N'importe qui peut utiliser cet outil sur un ordinateur standard (via Google Colab), sans avoir besoin de superordinateurs coûteux.
  • Flexible : Si demain vous voulez analyser la "sécurité" ou la "propreté" des rues, il suffit de changer la phrase que vous donnez au robot (le "prompt"). Pas besoin de le réapprendre de zéro !
  • Rapide : Là où un humain mettrait des mois à analyser une ville, le robot le fait en quelques heures.

En résumé

SAGAI, c'est comme donner à la ville un miroir intelligent. Au lieu de devoir marcher partout pour juger de la beauté ou de la fonctionnalité d'une rue, on laisse l'IA regarder des milliers de photos et nous dire : "Voici où il fait bon marcher, où il y a des commerces, et où les trottoirs sont larges".

C'est un outil puissant pour les urbanistes, les maires et les citoyens qui veulent comprendre leur ville mieux et plus vite, en utilisant l'intelligence artificielle non pas pour remplacer l'humain, mais pour lui donner des super-pouvoirs d'analyse.