MANSION: Multi-floor lANguage-to-3D Scene generatIOn for loNg-horizon tasks

Dit paper introduceert MANSION, het eerste taalgestuurde raamwerk voor het genereren van realistische, meervoudige verdiepingen tellende 3D-gebouwen, en introduceert MansionWorld, een dataset met meer dan 1.000 diverse gebouwen, om langdurige robottaken die complexe ruimtelijke redenering vereisen te evalueren.

Lirong Che, Shuo Wen, Shan Huang, Chuang Wang, Yuzhe Yang, Gregory Dudek, Xueqian Wang, Jian Su

Gepubliceerd 2026-03-13
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt bouwen die niet alleen in één kamer kan werken, maar een heel gebouw kan verkennen: van de kelder tot de zolder, van de supermarkt tot het ziekenhuis. Dat is precies wat de onderzoekers van MANSION hebben gedaan.

Hier is een uitleg in gewoon Nederlands, met een paar creatieve vergelijkingen om het begrijpelijk te maken.

1. Het Probleem: De "Eén-Kamer" Robot

Tot nu toe waren de meeste robots getraind in virtuele huizen die slechts uit één verdieping bestonden. Het was alsof je een piloot traint om vliegtuig te vliegen, maar je hem alleen laat oefenen in een hangar zonder dak.

  • De realiteit: In het echte leven moeten robots vaak lange taken uitvoeren die over meerdere verdiepingen gaan (bijvoorbeeld: "Haal een pakketje op de 3e verdieping en breng het naar de kelder").
  • Het probleem: Er waren geen digitale "testvelden" die groot genoeg waren of die trappen en liften goed nabootsten. Bestaande software kon niet begrijpen hoe een gebouw verticaal is opgebouwd.

2. De Oplossing: MANSION (De Digitale Architect)

MANSION is een slim systeem dat een robot vertelt: "Hier is een gebouw, en hier is hoe je erdoorheen moet navigeren."

  • De Metafoor: Stel je voor dat je een architect bent die een opdracht krijgt van een klant: "Ik wil een drie verdiepingen tellend kantoor met een lift en een vergaderruimte."
  • Hoe het werkt: In plaats dat een mens urenlang tekeningen maakt, doet MANSION dit in een handomdraai. Het gebruikt een AI-architect (een taalmodel) die de woorden van de klant begrijpt en direct een compleet, 3D-gebouw tekent.
  • Het Magische: Het systeem weet dat een lift of een trappenhuis door alle verdiepingen moet lopen. Het bouwt het gebouw niet als losse blokken op elkaar, maar als één samenhangend geheel, net als een echt gebouw.

3. MansionWorld: De "Supermarkt" van Gebouwen

Op basis van MANSION hebben de onderzoekers MansionWorld gemaakt.

  • De Vergelijking: Stel je een grote speelgoedwinkel voor. In plaats van alleen maar één type poppenhuis te hebben, heb je hier duizenden verschillende gebouwen: ziekenhuizen, supermarkten, kantoren en appartementen.
  • De Variatie: Elke keer als je een nieuw gebouw wilt, kun je zeggen: "Maak een ziekenhuis met 5 verdiepingen en een grote wachtkamer." En poef, daar staat hij. Het is de eerste keer dat er zo'n grote, diverse collectie van volledige gebouwen bestaat voor robots om in te oefenen.

4. De "Twee-in-één" Agent: De Chef en de Klusjesman

Het systeem heeft een slimme truc om de gebouwen aan te passen aan specifieke taken.

  • De Chef: Eerst bouwt MANSION het skelet van het gebouw (de muren, de vloeren, de trappen).
  • De Klusjesman (Scene Editing Agent): Daarna komt er een tweede AI-agent die het gebouw "op maat" maakt voor een specifieke opdracht.
    • Voorbeeld: Als de robot moet leren "een blikje cola uit de koelkast halen", maar er staat geen koelkast in de kamer, pakt deze agent een koelkast en zet hij die erin. Als er geen koekjes op tafel liggen, legt hij die erbij.
    • Het voordeel: Je hoeft niet voor elke nieuwe taak een heel nieuw gebouw te bouwen. Je kunt hetzelfde kantoor gebruiken om eerst post te bezorgen, en daarna om koffie te halen, door simpelweg de inhoud aan te passen.

5. Waarom is dit belangrijk? (De "Gymzaal" voor Robots)

Vroeger waren robots getraind in simpele, platte omgevingen. Nu hebben ze een gymzaal nodig met trappen, liften en lange routes om echt sterk te worden.

  • De onderzoekers hebben getest hoe goed bestaande robots dit aankunnen. Het nieuws is: ze zakken er zwaar doorheen.
  • Dit is eigenlijk goed nieuws! Het betekent dat we eindelijk een echte test hebben gevonden die laat zien waar robots nog tekortschieten. Het dwingt de wetenschap om slimme nieuwe manieren te bedenken om robots te leren plannen en zich te herinneren waar ze zijn geweest.

Samenvattend

MANSION is als een magische bouwmachine die op commando complete gebouwen creëert, inclusief trappen en liften. MansionWorld is de enorme bibliotheek van deze gebouwen. Samen zorgen ze ervoor dat robots eindelijk kunnen oefenen voor de echte wereld, waar taken vaak complex zijn en over meerdere verdiepingen gaan. Het is de eerste stap naar robots die echt kunnen helpen in onze grote, veelzijdige gebouwen.