Tokenization Allows Multimodal Large Language Models to Understand, Generate and Edit Architectural Floor Plans

Het paper introduceert HouseMind, een multimodaal groot taalmodel dat discrete tokens gebruikt om vloerplannen te begrijpen, te genereren en te bewerken, waardoor het coherente en controleerbare architecturale ontwerpen kan creëren op basis van tekstuele instructies.

Sizhong Qin, Ramon Elias Weber, Xinzheng Lu

Gepubliceerd 2026-03-13
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

HuisMind: De Vertaler tussen Woorden en Woonplannen

Stel je voor dat je een architect bent, maar in plaats van met potlood en papier te werken, praat je gewoon met een slimme robot. Je zegt: "Ik wil een grote woonkamer in het midden, met een keuken erboven en een slaapkamer links."

Vroeger was dit voor computers een nachtmerrie. Ze konden prachtige plaatjes maken, maar de ruimtes waren vaak onlogisch: de keuken hing in de lucht, de slaapkamer had geen deur, of de muren liepen dwars door elkaar. Computers zagen de kleuren, maar begrepen niet de logica van een huis.

Dat is waar HouseMind (van onderzoekers van Tsinghua University en UC Berkeley) verandert. Het is als een nieuwe taal voor ruimtes. Hier is hoe het werkt, vertaald naar alledaags taalgebruik:

1. Het Geheim: Ruimtes als Lego-blokjes

Stel je een vloerplan voor als een ingewikkeld legpuzzel. De oude computers probeerden het hele plaatje in één keer te tekenen, zoals een schilder dat probeert een landschap te schilderen zonder te weten waar de bomen staan.

HouseMind doet het anders. Het breekt het huis op in kleine, losse blokjes (de auteurs noemen dit "tokens").

  • De contouren: De buitenkant van het huis wordt omgezet in een reeks code-blokjes.
  • De kamers: Elke kamer (keuken, slaapkamer, badkamer) wordt een eigen blokje met een eigen "naam" en "vorm".

Het is alsof je in plaats van een tekening te maken, een zin schrijft: "Hier komt een blokje 'Keuken', daar een blokje 'Slaapkamer', en ze moeten aan elkaar grenzen." Door ruimtes om te zetten in deze blokken, kan de computer net zo met een huis redeneren als een mens met woorden.

2. De Drie Superkrachten

HouseMind is een "meervoudig slimme" robot die drie dingen kan doen, allemaal met één brein:

  • Het Begrijpen (De Vertaler):
    Je geeft het een tekening van een huis. HouseMind kijkt ernaar en zegt: "Ah, dit is een woonkamer van 30 m², links daarvan zit een slaapkamer, en de keuken is erboven." Het vertaalt de visuele tekening naar een logische beschrijving, net als een tolk die een foto in een verhaal omzet.
  • Het Maken (De Bouwer):
    Je zegt: "Maak een huis met drie slaapkamers en een grote tuin." HouseMind pakt zijn blokjes en bouwt een compleet, logisch vloerplan. Geen zwevende muren, geen kamers die in de muur zitten. Het bouwt het alsof het een lego-constructie is die perfect in elkaar past.
  • Het Aanpassen (De Renovateur):
    Je hebt al een plan, maar je zegt: "Verwijder de balkon en maak er een extra badkamer van." HouseMind pakt precies dat stukje, verwijdert het en plaatst de nieuwe badkamer, zonder dat de rest van het huis in elkaar stort. Het is alsof je een kamer in een huis verbouwt zonder de muren van de buren aan te raken.

3. Waarom is dit zo speciaal?

Stel je voor dat je een tekst naar een ander land stuurt. Een oude vertaler zou misschien woorden letterlijk vertalen, maar de betekenis verliezen. HouseMind is als een cultuur-expert.

  • Het begrijpt de regels: Het weet dat een badkamer niet in de lucht hangt en dat een keuken vaak dicht bij de woonkamer zit.
  • Het is snel en lokaal: Veel slimme AI-modellen zijn enorme, dure supercomputers die in de cloud zitten. HouseMind is zo efficiënt ontworpen dat het op een gewone krachtige computer (zelfs lokaal) kan draaien. Het is als een slimme smartphone-app in plaats van een fabriek.
  • Het is betrouwbaar: Andere modellen maken soms mooie plaatjes die eruitzien als een huis, maar als je erin zou lopen, zou je tegen een muur lopen. HouseMind zorgt dat de "logica" klopt, zodat het plan ook echt bouwbaar is.

De Grootste Les

HouseMind toont aan dat we niet hoeven te kiezen tussen "mooie plaatjes" en "slimme logica". Door ruimtes te vertalen naar een taal die computers begrijpen (die blokken-codes), kunnen we AI gebruiken om echt creatief en praktisch te bouwen.

Het is alsof we de architectuur hebben gegeven een stem, zodat we niet meer hoeven te tekenen, maar gewoon hoeven te praten om ons droomhuis te creëren.