MANSION: Multi-floor lANguage-to-3D Scene generatIOn for loNg-horizon tasks

O artigo apresenta o MANSION, o primeiro framework baseado em linguagem para gerar ambientes 3D realistas e navegáveis em escala de edifício com múltiplos andares, acompanhado do dataset MansionWorld e de um agente de edição semântica, visando superar as limitações dos benchmarks atuais e impulsionar o desenvolvimento de tarefas robóticas de longo horizonte que exigem raciocínio espacial complexo.

Lirong Che, Shuo Wen, Shan Huang, Chuang Wang, Yuzhe Yang, Gregory Dudek, Xueqian Wang, Jian Su

Publicado 2026-03-13
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você quer ensinar um robô a trabalhar em um prédio real: um hospital, um escritório grande ou até um shopping. O problema é que a maioria dos robôs hoje em dia só foi treinada em "casas de boneca" digitais: ambientes pequenos, de um só andar, onde não há escadas, elevadores ou a complexidade de subir e descer andares.

O papel que você apresentou, chamado MANSION, vem para resolver exatamente isso. Ele é como um "arquiteto robô" que cria prédios inteiros, andares múltiplos e cenários complexos, tudo a partir de uma simples frase escrita por você.

Aqui está uma explicação simples, usando analogias do dia a dia:

1. O Problema: Robôs "Cegos" para Prédios Altos

Atualmente, os robôs são como crianças que aprenderam a andar apenas no quarto. Se você pedir para elas irem para o quintal ou para o andar de cima, elas ficam perdidas. Os testes existentes para robôs (benchmarks) são todos de um só andar. O mundo real, porém, é vertical: temos elevadores, escadas, corredores longos e tarefas que levam muito tempo (long-horizon), como "pegue um remédio no 3º andar, leve para a sala de espera no 1º andar e depois traga um café".

2. A Solução: O Arquiteto MANSION

O MANSION é um sistema inteligente que transforma uma ideia em texto em um prédio 3D completo e navegável.

  • A Analogia do "Lego Infinito": Imagine que você tem um conjunto de Lego, mas em vez de montar uma casa pequena, você pede: "Monte um hospital de 5 andares com uma ala de emergência e um laboratório". O MANSION não apenas monta o prédio, mas garante que as escadas e elevadores conectem tudo corretamente. Ele não deixa buracos no meio do caminho.
  • O "Alinhamento Vertical": Um dos maiores desafios é garantir que o elevador do 1º andar chegue exatamente no 2º andar, e não no meio da parede. O MANSION trata a estrutura vertical como uma regra rígida, como se fosse o "esqueleto" do prédio, garantindo que o robô possa realmente subir e descer.

3. O Grande Banco de Dados: MansionWorld

Com esse sistema, os criadores lançaram o MansionWorld.

  • A Analogia do "Parque de Diversões": Pense no MansionWorld como um parque de diversões gigante onde cada atração é um prédio diferente (um shopping, um escritório, um hospital). Eles criaram mais de 1.000 desses prédios.
  • Por que isso é importante? Antes, os cientistas tinham que construir cada cenário manualmente, o que demorava anos. Agora, eles podem pedir um "supermercado de 4 andares" e o sistema gera em segundos. Isso permite testar robôs em situações muito mais variadas e difíceis.

4. O "Mágico" que Arruma a Casa: O Agente de Edição

Às vezes, você gera um prédio, mas esqueceu de colocar um item importante (como uma caixa de primeiros socorros no hospital).

  • A Analogia do "Detetive de Sala": O MANSION inclui um agente especial que age como um detetive. Se você disser: "Preciso que o robô pegue um remédio no 2º andar", o agente verifica: "Tem remédio lá? Não? Ok, eu vou colocar um agora". Ele modifica o cenário em tempo real para garantir que a tarefa seja possível, sem precisar reconstruir o prédio todo.

5. O Teste de Fogo: Os Robôs Falham (e é bom!)

Os autores testaram os robôs mais inteligentes do mundo (os "campeões" atuais) dentro desses novos prédios.

  • O Resultado: Os robôs caíram muito mal. Eles se perderam, não souberam usar o elevador ou esqueceram onde estavam.
  • A Lição: Isso não é uma derrota, é uma vitória para a ciência! Significa que o MANSION criou um "campo de treinamento" difícil o suficiente para mostrar que ainda temos muito a evoluir. Se o robô consegue navegar em um prédio de 4 andares com elevadores, ele está pronto para o mundo real.

Resumo em uma Frase

O MANSION é um sistema que usa inteligência artificial para desenhar prédios inteiros e complexos a partir de uma frase, criando um "parque de diversões" digital onde podemos treinar robôs para fazerem tarefas difíceis e reais, como entregar pacotes em um hospital de vários andares, algo que os robôs de hoje ainda não conseguem fazer bem.

É como passar de ensinar um robô a andar em um tapete de sala para ensinar um piloto a voar em um arranha-céu!