MANSION: Multi-floor lANguage-to-3D Scene generatIOn for loNg-horizon tasks

이 논문은 실제 세계의 복잡한 다층 환경과 장기 작업을 평가하기 위해 언어 기반의 전체 건물 규모 3D 장면 생성 프레임워크인 'MANSION'과 이를 활용한 대규모 데이터셋 'MansionWorld'를 제안합니다.

Lirong Che, Shuo Wen, Shan Huang, Chuang Wang, Yuzhe Yang, Gregory Dudek, Xueqian Wang, Jian Su

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"MANSION(맨션)"**이라는 이름의 새로운 AI 시스템을 소개합니다. 쉽게 말해, **"로봇이 일할 수 있는 거대한 3D 건물을 말로만 지어주는 마법 같은 설계사"**라고 생각하시면 됩니다.

기존의 로봇 연구들은 대부분 '작은 아파트 한 층'이나 '단순한 방'에서만 테스트했습니다. 하지만 현실의 로봇은 우편물을 배달하거나 병원 물건을 나르려면 건물 전체를 돌아다니며 여러 층을 오가야 합니다. 문제는 이런 복잡한 건물을 직접 만들거나 스캔하는 데는 너무 돈이 많이 들고, 로봇이 연습할 환경을 쉽게 고칠 수 없다는 점입니다.

이 논문은 이 문제를 해결하기 위해 세 가지 핵심 아이디어를 제시합니다.

1. MANSION: 말로만 지어지는 마법의 건축가

기존의 AI들은 그림을 그리듯 방을 하나씩 쌓아 올리다가, 층이 높아지면 계단이나 엘리베이터가 연결되지 않아 엉망이 되는 경우가 많았습니다.

  • 비유: 마치 레고 블록을 쌓을 때, 1 층은 잘 쌓아도 2 층으로 넘어가면 기둥이 맞지 않아 무너지는 것과 같습니다.
  • 해결책: MANSION 은 **"수직 구조 (Vertical Structure)"**를 가장 중요한 규칙으로 삼습니다. 사용자가 "3 층짜리 병원 만들어줘"라고 말하면, AI 는 먼저 건물의 뼈대 (기둥, 계단, 엘리베이터) 를 1 층부터 3 층까지 완벽하게 연결된 상태로 설계합니다. 그 다음에 방들을 채워 넣습니다.
  • 결과: 말로만 명령하면, 로봇이 실제로 걸어 다니고 엘리베이터를 타고 이동할 수 있는 완벽한 3D 건물이 자동으로 생성됩니다.

2. MansionWorld: 로봇을 위한 거대한 놀이터 (데이터셋)

이 시스템으로 만든 건물을 모아 **MansionWorld(맨션월드)**라는 거대한 데이터셋을 공개했습니다.

  • 규모: 병원, 학교, 쇼핑몰, 사무실 등 1,000 개 이상의 다양한 건물이 포함되어 있습니다.
  • 특징: 단순히 방만 있는 게 아니라, 로봇이 계단을 오르고 엘리베이터를 타고 1 층에서 4 층까지 이동하며 임무를 수행할 수 있도록 설계되었습니다.
  • 의미: 이전까지 로봇 연구자들은 '작은 방'에서만 연습했지만, 이제 실제 도시의 건물 크기만큼 복잡한 환경에서 로봇의 두뇌 (계획 능력) 를 테스트할 수 있게 되었습니다.

3. 장면 편집 에이전트: "이건 좀 바꿔줘"라고 말하는 마법 지팡이

건물을 다 지었는데, 로봇이 "냉장고에 콜라가 없으면 안 돼!"라고 요구할 때, 건물을 다시 다 짓는 건 비효율적입니다.

  • 비유: 마치 레고로 만든 성에, "여기 식탁 위에 사과를 좀 더 추가해 줘"라고 말하면, AI 가 알아서 사과를 가져와서 식탁 위에 올려주는 것과 같습니다.
  • 기능: 사용자가 "2 층 테이블에 간식을 두고, 냉장고에 음료를 넣어줘"라고 말하면, AI 는 건물의 구조를 해치지 않으면서 필요한 물건을 찾아와서 적절한 곳에 배치합니다.
  • 장점: 하나의 건물을 가지고도 수천 가지의 다른 임무 (예: 물건 찾기, 배달하기) 를 쉽게 만들어낼 수 있어, 로봇 훈련 비용을 획기적으로 줄여줍니다.

실험 결과: 로봇들은 아직 이 정도는 못 합니다

이 논문은 최신 로봇 AI 들을 이 새로운 '맨션월드'에서 테스트해 보았습니다.

  • 결과: 기존에 잘하던 로봇들도 2 층 이상 넘어가거나, 엘리베이터를 타는 상황에서는 거의 실패했습니다.
  • 의미: 로봇들이 '한 층'을 잘 돌아다닌다고 해서 '건물 전체'를 잘 돌아다니는 건 아닙니다. 앞으로 로봇이 현실 세계 (병원, 쇼핑몰 등) 에서 일하려면, 공간을 이해하고 장기적인 계획을 세우는 능력이 훨씬 더 필요하다는 것을 증명했습니다.

요약

이 논문은 **"로봇이 현실 세계의 복잡한 건물에서 일할 수 있도록, 말로만 지을 수 있는 거대한 3D 놀이터를 만들었다"**는 것입니다. 이제 연구자들은 더 이상 작은 방에서 로봇을 훈련시키지 않고, 실제와 똑같은 고층 빌딩에서 로봇의 두뇌를 시험해 볼 수 있게 되었습니다.