Tokenization Allows Multimodal Large Language Models to Understand, Generate and Edit Architectural Floor Plans

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous demandez à un architecte de dessiner le plan d'une maison en lui disant simplement : « Je veux une grande cuisine au nord-est, un salon spacieux au centre, et une chambre à coucher juste à côté ».

Pour un humain, c'est facile. Pour une intelligence artificielle classique, c'est un cauchemar. Les IA actuelles sont comme des peintres qui regardent une photo et essaient de la copier : elles peuvent créer une image belle, mais elles ne comprennent pas la logique. Si vous leur demandez de déplacer une porte, elles peuvent dessiner un mur qui traverse le plafond ou une cuisine qui flotte dans les airs. Elles manquent de « bon sens spatial ».

C'est là qu'intervient HouseMind, une nouvelle invention présentée par des chercheurs de Tsinghua et de Berkeley. Voici comment cela fonctionne, expliqué simplement.

1. Le problème : L'IA qui dessine sans réfléchir

Les modèles d'IA actuels (comme ceux qui génèrent des images) voient un plan d'étage comme une simple image de pixels. Ils ne savent pas qu'une « cuisine » est une pièce qui doit avoir des murs, un sol et une porte. Ils ne comprennent pas la relation entre les pièces. C'est comme si un enfant essayait de construire une maison avec des blocs de Lego en regardant une photo, sans savoir comment les blocs s'assemblent réellement.

2. La solution de HouseMind : Le langage des briques

Au lieu de traiter le plan comme une image floue, HouseMind le transforme en un langage de briques.

Imaginez que le plan d'étage n'est pas une image, mais une phrase écrite dans un livre.

La tokenisation (La magie des briques) : HouseMind prend chaque pièce (cuisine, salon, chambre) et la transforme en un « mot » spécial (un token). Il fait de même avec les murs extérieurs.
- Au lieu de voir un dessin de cuisine, l'IA voit le mot <cuisine_123>.
- Au lieu de voir un dessin de salon, elle voit <salon_456>.
L'analogie du Lego : C'est comme si l'IA apprenait à parler le langage des Lego. Elle ne dessine pas la maison ; elle assemble des mots qui représentent des pièces. Cela lui permet de raisonner : « Ah, si je mets <cuisine> ici, je dois mettre <porte> à côté, sinon c'est impossible ».

3. Les trois super-pouvoirs de HouseMind

Grâce à cette méthode, HouseMind peut faire trois choses que les autres IA peinent à faire ensemble :

A. Comprendre (Le détective)

Si vous montrez un plan existant à HouseMind, il ne se contente pas de le regarder. Il le « lit ». Il peut vous dire : « Il y a 3 chambres, la cuisine est à droite du salon, et la salle de bain est au-dessus de la chambre ». Il comprend la logique derrière le dessin, pas juste les couleurs.

B. Générer (L'architecte créatif)

Vous lui donnez une instruction : « Je veux une maison avec un grand salon, une cuisine ouverte et deux chambres ».

Les anciennes IA : Dessinent une image qui ressemble à une maison, mais qui pourrait avoir des murs qui ne se touchent pas ou des portes qui mènent nulle part.
HouseMind : Assemble les « mots-briques » logiquement. Il construit le plan pièce par pièce, en s'assurant que tout est connecté correctement, comme un architecte qui vérifie que les murs portent bien le toit.

C. Modifier (Le rénovateur intelligent)

C'est le plus impressionnant. Imaginez que vous avez un plan et que vous dites : « Enlève la terrasse et ajoute une petite buanderie à la place ».

Les anciennes IA : Souvent, elles effacent tout et redessinent une nouvelle maison, ou elles ajoutent la buanderie n'importe où, en détruisant la structure.
HouseMind : Il agit comme un éditeur de texte. Il trouve le mot « terrasse » dans sa phrase, l'efface, et insère le mot « buanderie » à l'endroit exact où vous l'avez demandé, sans casser le reste de la maison. Il comprend que changer une pièce ne doit pas effondrer tout le bâtiment.

Pourquoi c'est révolutionnaire ?

Avant, pour faire cela, il fallait trois robots différents : un pour comprendre, un pour dessiner, un pour modifier. HouseMind est un seul cerveau qui fait les trois.

De plus, c'est léger. Vous n'avez pas besoin d'un super-ordinateur de la taille d'un immeuble pour le faire tourner ; cela peut tourner sur un ordinateur portable standard. C'est comme passer d'un camion de déménagement à une voiture de ville : plus rapide, plus agile, et tout aussi efficace.

En résumé

HouseMind est comme un architecte qui a appris à lire et à écrire. Au lieu de simplement copier des dessins, il comprend la grammaire de l'espace. Il sait que si vous mettez une cuisine, il faut une porte. Si vous ajoutez une chambre, il faut de la place.

C'est un pas de géant vers une IA qui ne se contente pas de « faire joli », mais qui comprend vraiment comment nous vivons dans nos maisons, et qui peut nous aider à les concevoir, les comprendre et les améliorer, simplement en discutant avec nous.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La conception de plans d'étage architecturaux exige un raisonnement conjoint sur la géométrie, la sémantique et la hiérarchie spatiale. Les systèmes d'IA actuels, bien que performants dans la fidélité visuelle (via des modèles de diffusion ou des LLMs), rencontrent des difficultés majeures :

Manque de cohérence spatiale globale : Ils génèrent souvent des plans localement plausibles mais dépourvus de relations d'adjacence ou de circulation cohérentes.
Boîte noire et manque de contrôle : Les modèles existants agissent comme des générateurs peu interprétables, offrant un contrôle limité sur la structure spatiale.
Fragmentation des tâches : Il n'existe pas de cadre unifié capable de gérer simultanément la compréhension, la génération et l'édition de plans dans une seule architecture.
Déploiement : La plupart des solutions sont trop lourdes pour un déploiement local ou en temps réel.

2. Méthodologie : HouseMind

HouseMind est un modèle de langage multimodal (MLLM) léger et déployable localement qui unifie ces trois tâches. Son innovation centrale réside dans la tokenisation hiérarchique des plans d'étage.

A. Tokenisation des Instances de Pièces (Room-Instance Tokenization)

Au lieu de traiter l'image comme un flux de pixels continu, HouseMind discrétise le plan en séquences de tokens symboliques via un VQ-VAE (Vector-Quantized Variational Autoencoder) :

Discrétisation du contour (Outline) : Un encodeur CNN transforme le masque binaire du contour global du bâtiment en une séquence de tokens discrets ( $z_o$ ).
Discrétisation conditionnelle des pièces (Room) : Chaque pièce est encodée conjointement avec le contexte du contour global. Cela permet au modèle d'apprendre des représentations de pièces conscientes du contexte (géométrie + adjacence spatiale).
Vocabulaire unifié : Le plan complet est représenté comme une séquence entrelacée de tokens géométriques (contour et pièces) et de tokens sémantiques (étiquettes de type de pièce).

B. Alignement Multimodal et Instruction Tuning

Le modèle repose sur un pipeline d'entraînement en trois étapes pour aligner les représentations spatiales et linguistiques :

Initialisation des embeddings : Les codes discrets du VQ-VAE sont intégrés au vocabulaire du LLM (basé sur Qwen3-0.6B) en tant que tokens trainables, créant un espace tokenique unifié pour la géométrie et le texte.
Pré-entraînement Multimodal : Le modèle apprend à prédire le token suivant dans des séquences mixtes (texte + tokens spatiaux), établissant une correspondance bidirectionnelle entre les descriptions textuelles et la structure géométrique.
Instruction Tuning (SFT) : Un affinage supervisé sur des données d'instructions permet au modèle d'exécuter trois tâches spécifiques :
- Compréhension : Déduire la topologie et les relations à partir d'un plan existant.
- Génération : Créer un plan cohérent à partir d'une description textuelle et d'un contour.
- Édition : Modifier un plan existant selon des instructions naturelles (ajout/suppression de pièces) tout en préservant la logique spatiale globale.

3. Contributions Clés

Représentation Tokenisée Unifiée : Première approche à modéliser les plans d'étage comme des séquences de tokens discrets (pièces et contours) permettant un raisonnement symbolique au niveau de l'instance de pièce.
Cadre Unifié Multitâche : Un seul modèle gère la compréhension, la génération et l'édition, garantissant une cohérence des représentations internes.
Efficacité et Déploiement Local : Grâce à une architecture compacte (0.6B paramètres) et à la tokenisation, HouseMind permet une inférence en temps réel et un déploiement sur des GPU grand public (ex: RTX 3090), contrairement aux modèles de diffusion lourds.
Contrôlabilité et Interprétabilité : La génération token par token offre un contrôle fin sur la structure spatiale, évitant les artefacts géométriques courants des modèles purement visuels.

4. Résultats Expérimentaux

Les évaluations ont été menées sur le jeu de données RPLAN avec un benchmark unifié couvrant les trois tâches.

Compréhension (Understanding) : HouseMind surpasse largement les modèles VLMs de pointe (LLaVA, Qwen-VL, InternVL). Il atteint un taux de correspondance des pièces (RMR) de 99,8 % et une précision d'adjacence de 99,0 %, réduisant l'erreur de surface moyenne à moins de 0,55 m².
Génération (Generation) : HouseMind obtient un Micro IoU de 0,71 et un Macro IoU de 0,65, surpassant les méthodes basées sur la diffusion (ChatHouseDiffusion) et les modèles LLMs spécialisés. Il démontre une meilleure cohérence topologique (Node F1 > 0,99) et une distribution plus réaliste (FID de 1,91 contre 11,3 pour le meilleur concurrent).
Édition (Editing) : Le modèle excelle dans les modifications localisées, préservant l'intégrité structurelle du reste du plan. Il obtient un $\Delta$ IoU de 0,608 et un GED (Graph Edit Distance) très faible, indiquant des modifications spatiales précises et cohérentes.
Efficacité : Le temps d'inférence est d'environ 2 à 3 secondes par échantillon, contre plusieurs minutes pour les approches par diffusion.

5. Signification et Impact

HouseMind marque un changement de paradigme dans la conception générative architecturale :

Du Pixel au Symbole : Il démontre que la tokenisation des structures spatiales permet aux LLMs de raisonner sur la géométrie de manière aussi naturelle que sur le langage, comblant le fossé entre le raisonnement symbolique et la géométrie continue.
Cohérence Structurelle : En traitant les pièces comme des entités discrètes, le modèle garantit la validité topologique (connexions, adjacences) souvent négligée par les modèles génératifs d'images.
Accessibilité : Sa capacité à fonctionner localement sur du matériel standard rend l'IA générative accessible aux architectes et aux designers pour des flux de travail pratiques, favorisant l'intégration de l'IA dans les processus de conception réels.

En résumé, HouseMind établit la tokenisation comme un mécanisme clé pour connecter les grands modèles de langage à l'intelligence de conception spatiale, ouvrant la voie à une conception architecturale assistée par IA plus contrôlable, interprétable et alignée avec les standards humains.