Space Syntax-guided Post-training for Residential Floor Plan Generation

Each language version is independently generated for its own context, not a direct translation.

Imagine que você pediu a um robô muito inteligente para desenhar o plano de uma casa para você. O robô olhou para milhares de fotos de casas reais e aprendeu a desenhar paredes, portas e quartos. Ele é rápido e cria muitas opções.

Mas há um problema: O robô é ótimo em desenhar paredes retas e colocar janelas, mas ele não entende a "alma" da casa. Ele pode colocar a sala de estar num canto escondido e o banheiro bem no meio da casa, como se fosse o centro das atenções. Isso é estranho, não é? Em uma casa real, a sala de estar deve ser o "coração" da casa, o lugar mais acessível e conectado, enquanto os quartos devem ser mais reservados.

Os autores deste artigo criaram uma solução chamada SSPT (que é um nome complicado para uma ideia simples: Treinamento Guiado pela Lógica Espacial).

Aqui está a explicação, passo a passo, usando analogias do dia a dia:

1. O Problema: O Robô que só segue regras, não sente a casa

Os modelos de IA atuais são como estudantes que decoraram um livro de receitas, mas nunca cozinhou de verdade. Eles sabem que "sala" e "quarto" são palavras, mas não entendem a hierarquia. Eles geram plantas que parecem corretas geometricamente, mas que, se você morasse nelas, se sentiria desconfortável porque a circulação está errada.

2. A Solução: O "Arquiteto Crítico" (O Oracle)

Para consertar isso, os autores criaram um "Arquiteto Crítico" digital. Vamos chamá-lo de O Oráculo.

Como funciona: O Oráculo não é um humano. É um programa que pega o desenho feito pelo robô e o transforma em um mapa de conexões (como um mapa de metrô).
O que ele mede: Ele calcula a "integração". Pense nisso como a popularidade de um lugar. Se a sala de estar é o lugar onde todos passam para ir a qualquer outro quarto, ela é "integrada" (popular). Se o banheiro está no meio do caminho, ele é "integrado demais" (o que é ruim).
A Regra de Ouro: O Oráculo verifica: "A sala de estar é o lugar mais popular e central? Os quartos privados estão mais escondidos?" Se a resposta for não, o desenho é rejeitado ou corrigido.

3. O Treinamento: Duas Maneiras de Ensinar o Robô

O artigo testa duas formas de ensinar o robô a obedecer a esse Arquiteto Crítico:

Método A: "Filtrar e Repetir" (SSPT-Iter)

Imagine que você está treinando um cachorro.

O robô desenha 1.000 casas.
O Oráculo olha todas e diz: "Essas 900 estão erradas. Joguem fora. Essas 100 estão boas."
Você pega as 100 boas e manda o robô estudar apenas elas de novo.
Repete o processo.

Resultado: Funciona, mas é lento e gasta muito tempo de computador, como tentar aprender a tocar piano jogando fora 90% das notas que você erra.

Método B: "Recompensa Inteligente" (SSPT-PPO) - O Vencedor

Agora imagine que você está treinando um atleta.

O robô desenha a casa.
O Oráculo dá uma nota (recompensa) baseada na qualidade da casa.
O robô não joga fora o desenho; ele usa a nota para ajustar seus "músculos" (seus parâmetros internos) e tenta fazer melhor na próxima vez, aprendendo diretamente com o erro e o acerto.

Resultado: É muito mais rápido (cerca de 10 vezes mais rápido que o método anterior) e o robô aprende a fazer casas melhores com muito menos esforço.

4. O Teste Final: A Prova de Fogo

Para garantir que o robô não apenas "decorou" as casas que ele viu durante o treino, eles criaram um teste especial chamado SSPT-Bench.

A Regra: Eles ensinaram o robô com casas de até 7 cômodos.
O Desafio: Eles pediram para ele desenhar casas de 8 cômodos (algo que ele nunca viu no treino).
O Resultado: O robô treinado com o método "Recompensa Inteligente" (PPO) conseguiu desenhar casas de 8 cômodos que seguiam perfeitamente a lógica de que a sala de estar é o centro, mesmo sendo um tamanho novo para ele. Ele generalizou o aprendizado!

Resumo da Ópera

Este artigo mostra que, para criar inteligências artificiais que desenhem casas reais e funcionais, não basta apenas mostrar muitos desenhos para a máquina. É preciso dar a ela um critério de qualidade baseado na teoria arquitetônica (como a importância da sala de estar).

Eles provaram que é possível "afinar" (post-training) esses robôs usando um "professor" digital (o Oráculo) que dá feedbacks sobre a lógica da casa. O método mais eficiente é aquele que usa recompensas (como um jogo de pontos) em vez de apenas jogar fora os erros.

Em suma: Eles ensinaram a IA a não apenas desenhar paredes, mas a entender que a sala de estar é o coração da casa, criando planos que são não apenas bonitos, mas verdadeiramente habitáveis.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

Os modelos generativos pré-treinados para plantas residenciais (como os baseados em Difusão) são otimizados para ajustar-se a distribuições de dados em larga escala (ex: dataset RPLAN). Embora sejam capazes de gerar layouts geometricamente coerentes, eles frequentemente falham em capturar priors arquitetônicos críticos, especificamente:

Domínio de Espaços Públicos: A tendência de que espaços públicos (sala de estar, hall) funcionem como núcleos integradores topológicos, enquanto espaços privados (quartos, banheiros) sejam mais segregados.
Hierarquia Funcional: A falta de uma distinção clara entre zonas públicas e privadas, resultando em plantas que satisfazem restrições geométricas, mas violam princípios lógicos de habitabilidade e circulação humana.
Limitações de Avaliação: As métricas atuais focam em precisão geométrica (IoU, FID) ou adjacências simples, ignorando a lógica configuracional profunda (centralidade e acessibilidade) que define a qualidade arquitetônica.
Qualidade dos Dados: Grandes datasets contêm layouts com lógica espacial problemática ou erros de anotação, que são propagados durante o treinamento.

2. Metodologia

O artigo propõe o SSPT (Space Syntax-guided Post-training), um paradigma de pós-treinamento que injeta explicitamente conhecimento de Sintaxe de Espaços (Space Syntax) no processo de geração.

A. Oráculo de Sintaxe de Espaços (Não Diferenciável)

Para superar a impossibilidade de backpropagation direta através de regras arquitetônicas complexas, os autores criaram um "oráculo" determinístico:

Conversão Mask-to-Graph: Transforma máscaras de planta (estilo RPLAN) em um grafo de espaços retangulares.
Decomposição: Usa um algoritmo ganancioso de "maior retângulo" para decompor os núcleos das salas em átomos convexos.
Cálculo de Integração: Constrói um grafo de conectividade (baseado em proximidade e portas) e calcula métricas de Integração Global (baseadas em profundidade média e assimetria relativa).
Validação: O oráculo verifica se os espaços públicos (sala de estar) possuem maior integração topológica que os espaços privados, atuando como um filtro de qualidade.

B. Estratégias de Pós-treinamento

O framework SSPT implementa duas abordagens para alinhar o modelo com o oráculo:

SSPT-Iter (Retreinamento Iterativo):
- Gera candidatos, filtra-os usando o oráculo (seleção Top-K baseada em pontuação de integração e domínio da sala de estar) e retreina o modelo de difusão no subconjunto filtrado.
- É uma abordagem de "curadoria de dados".
SSPT-PPO (Otimização por Política Próxima - PPO):
- Trata o processo de difusão reversa como um Processo de Decisão de Markov (MDP).
- Utiliza Reinforcement Learning (RL) para otimizar diretamente a política do gerador.
- A recompensa é esparsa e terminal: apenas o layout final ( $x_0$ ) é avaliado pelo oráculo, gerando uma recompensa escalar que guia o ajuste dos parâmetros do modelo via PPO.

C. Benchmark Unificado (SSPT-Bench / Eval-8)

Para garantir uma avaliação justa e robusta, foi criado um protocolo de Out-of-Distribution (OOD):

Treinamento: Modelos são ajustados em plantas com $\le 7$ salas.
Avaliação: Testados em plantas com exatamente 8 salas (condição não vista durante o pós-treinamento).
Métricas: Incluem Public-Space Dominance (domínio do espaço público), Living-Room Advantage (vantagem da sala de estar) e distância de perfil de integração.

3. Principais Contribuições

Prior Arquitetônico Computável: Formaliza a "dominância do espaço público" como um objetivo de otimização mensurável e escalável, baseado em teoria arquitetônica consolidada.
Oráculo Automatizado: Desenvolveu um pipeline robusto para converter layouts vetoriais em grafos topológicos e calcular métricas de integração em larga escala, permitindo a triagem automática de datasets.
SSPT-Bench (Eval-8): Introduziu um benchmark unificado e reproduzível para avaliar a generalização de modelos generativos sob restrições de configuração não vistas durante o treino.
Framework de Pós-treinamento: Demonstrou que o RL (PPO) é superior ao retreinamento iterativo tradicional para alinhar modelos generativos com objetivos não diferenciáveis, oferecendo maior eficiência computacional.

4. Resultados

Os experimentos compararam o modelo base (HouseDiffusion), o SSPT-Iter e o SSPT-PPO contra dados reais (RPLAN8).

Desempenho Arquitetônico:
- O SSPT-PPO obteve os melhores resultados, aumentando significativamente o public_score (domínio da sala de estar) e o living_adv (vantagem da sala de estar sobre outros cômodos).
- Reduziu a variância (dispersão) dos resultados, tornando a geração mais estável e controlável.
- Alinhou melhor o perfil de integração global com o dos dados reais, corrigindo erros comuns como "entradas super-centralizadas" ou "quartos excessivamente integrados".
Eficiência Computacional:
- O SSPT-PPO foi >10x mais eficiente em tempo de processamento por iteração (0,75h vs 8,30h) comparado ao SSPT-Iter.
- Ajuste de timesteps: O uso de um horizonte de difusão encurtado para o PPO (focando nas etapas de baixo ruído) foi crucial para a eficiência sem perda de qualidade.
Generalização OOD: Ambos os métodos melhoraram o desempenho em plantas de 8 salas (não vistas no treino), provando que o modelo aprendeu a lógica espacial e não apenas memorizou padrões de tamanho.

5. Significado e Impacto

Ponte entre Teoria e IA: O trabalho demonstra como integrar teorias arquitetônicas complexas (Sintaxe de Espaços) em fluxos de trabalho de IA puramente baseados em dados, sem depender de anotações manuais extensivas.
Mudança de Paradigma: Sugere que o ajuste fino (fine-tuning) via RL com recompensas baseadas em oráculos é uma rota mais viável e eficiente do que o retreinamento cíclico de dados para tarefas de design generativo com restrições não diferenciáveis.
Aplicabilidade: O framework é agnóstico ao modelo gerador (funciona com Difusão, Transformers, etc.), desde que haja um oráculo de avaliação confiável. Isso abre caminho para a geração de plantas que não apenas "parecem reais", mas são funcionalmente e topologicamente racionais, atendendo a critérios de habitabilidade humana.

Em resumo, o SSPT oferece um caminho escalável para transformar geradores de plantas residenciais de ferramentas que apenas copiam distribuições estatísticas em sistemas que compreendem e aplicam a lógica fundamental do design arquitetônico.