Tokenization Allows Multimodal Large Language Models to Understand, Generate and Edit Architectural Floor Plans
O artigo apresenta o HouseMind, um modelo de linguagem grande multimodal que utiliza tokens discretos de instâncias de cômodos para unificar a compreensão, geração e edição de plantas baixas arquitetônicas, permitindo a criação de layouts coerentes e controláveis a partir de instruções textuais.