Streetscape Analysis with Generative AI (SAGAI): Vision-Language Assessment and Mapping of Urban Scenes

Este artigo apresenta o SAGAI, um fluxo de trabalho modular que utiliza modelos de visão-linguagem e dados abertos para automatizar a avaliação e mapeamento de paisagens urbanas, permitindo a análise escalável de características como caminhabilidade e segurança sem necessidade de treinamento específico.

Joan Perez, Giovanni Fusco

Publicado 2026-03-18
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você quer saber como é a vida nas ruas de uma cidade: se é segura para caminhar, se tem muitas lojas, se as calçadas são largas ou se o bairro parece mais um parque ou um centro urbano. Antigamente, para descobrir isso, era necessário que uma equipe de pessoas andasse a pé por quilômetros, tirando fotos e anotando tudo num caderno. Era lento, caro e difícil de fazer em cidades grandes.

Este artigo apresenta uma nova ferramenta chamada SAGAI (Análise de Paisagem Urbana com Inteligência Artificial Generativa). Pense no SAGAI como um "detetive digital super-rápido" que usa os olhos de uma IA para olhar as ruas do mundo inteiro, sem precisar sair de casa.

Aqui está como funciona, explicado de forma simples:

1. O Que é o SAGAI?

O SAGAI é um "receituário" (um conjunto de instruções) que ensina um computador a olhar para fotos de ruas (como as do Google Street View) e responder perguntas específicas. Em vez de apenas ver a foto, ele "entende" o que está nela.

  • A Analogia: Imagine que você tem um amigo muito inteligente que nunca saiu da sua casa, mas que viu milhões de fotos de ruas. Se você perguntar: "Tem loja aqui?", ele responde "Sim". Se perguntar: "A calçada é larga?", ele estima o tamanho. O SAGAI é esse amigo, mas ele faz isso para milhares de ruas ao mesmo tempo.

2. Como o "Detetive" Trabalha? (Os 4 Passos)

O processo é dividido em quatro etapas, como se fosse uma linha de montagem de um carro:

  1. O Mapa (Gerador de Pontos): Primeiro, o sistema olha para um mapa digital gratuito (OpenStreetMap) e coloca "pontos de controle" ao longo de todas as ruas da cidade que você escolheu. É como se ele espalhasse sementes ao longo das estradas para saber onde olhar.
  2. As Fotos (Baixador de Imagens): Para cada semente, o sistema vai ao Google Street View e baixa 4 fotos (uma para cada lado: frente, trás, esquerda e direita). É como se ele girasse em 360 graus em cada ponto.
  3. O Cérebro (A IA LLaVA): Aqui entra a mágica. O sistema usa uma Inteligência Artificial chamada LLaVA (que é como um cérebro que vê e fala). Você dá a ele uma pergunta em linguagem natural (ex: "Quantas lojas você vê?"). A IA olha a foto e responde com um número ou uma classificação.
    • Diferença importante: Antigamente, precisava-se ensinar a IA com milhares de exemplos de "lojas" antes de ela funcionar. O SAGAI não precisa disso! Ele usa Zero-Shot, o que significa que ele já nasce sabendo entender o mundo. É como pedir para uma criança inteligente olhar uma foto e dizer o que é, sem precisar de um curso prévio sobre o que é uma loja.
  4. O Mapa Final (Agregação): Por fim, o sistema pega todas as respostas e desenha um mapa colorido da cidade. Se uma rua tem muitas lojas, ela fica vermelha. Se é uma área rural, fica verde. Isso permite ver padrões que o olho humano não conseguiria ver em uma cidade inteira.

3. O Que Eles Testaram?

Os pesquisadores testaram essa ferramenta em duas cidades muito diferentes:

  • Nice, França: Uma área com muitas casas e ruas retas.
  • Viena, Áustria: Uma área com colinas, jardins e ruas mais sinuosas.

Eles pediram para a IA fazer três tarefas:

  1. Classificar: É uma rua de cidade ou de campo? (A IA acertou quase 92% das vezes!).
  2. Contar: Quantas lojas de fachada existem? (A IA foi razoável, acertando bem quando não havia lojas ou muitas, mas às vezes confundia placas de propaganda com lojas).
  3. Medir: Qual a largura da calçada? (Aqui foi mais difícil. A IA às vezes confundia uma faixa de grama com uma calçada, ou subestimava o tamanho, mas ainda dava uma ideia útil).

4. Por Que Isso é Importante?

  • É Gratuito e Acessível: Você não precisa de supercomputadores. O sistema roda em computadores comuns (até na versão gratuita do Google Colab).
  • É Flexível: Se você quiser estudar segurança, acessibilidade para cadeirantes ou áreas verdes, você só precisa mudar a "pergunta" (o prompt) que dá para a IA. Não precisa reprogramar o software inteiro.
  • Escala: O que levaria meses para uma equipe humana fazer, a IA faz em algumas horas.

5. Onde a IA Ainda "Trava"?

A IA não é perfeita. Às vezes, ela se confunde:

  • Pode achar que uma placa de propaganda é uma loja.
  • Pode confundir uma faixa de grama com uma calçada.
  • Em lugares muito complexos ou com pouca luz, ela pode errar.

Mas, mesmo com esses erros, o sistema é muito melhor do que nada. Ele oferece uma visão geral rápida e barata, permitindo que planejadores urbanos e pesquisadores tomem decisões melhores sobre onde melhorar as cidades.

Resumo Final

O SAGAI é como dar óculos de visão de raio-X para o urbanismo. Ele transforma fotos de ruas em dados numéricos que podem ser mapeados, permitindo que qualquer pessoa, de qualquer lugar, entenda a "pele" da cidade (calçadas, lojas, árvores) de forma rápida e barata, usando a inteligência de uma máquina que aprendeu a "ler" imagens através da linguagem.