Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

이 논문은 오프더셸 대형 모델의 추론 및 구성 능력을 활용하여 'Yo'City'라는 새로운 에이전트 프레임워크를 제안함으로써, 사용자의 맞춤형 요구를 반영하고 무한히 확장 가능한 사실적인 3D 도시 장면을 생성하는 방법을 제시합니다.

Keyang Lu, Sifan Zhou, Hongbin Xu, Gang Xu, Zhifei Yang, Yikai Wang, Zhen Xiao, Jieyi Long, Ming Li

게시일 2026-03-10
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

요시티 (Yo'City): 상상만 해도 도시가 만들어지는 마법 같은 AI

이 논문은 **"요시티 (Yo'City)"**라는 새로운 기술을 소개합니다. 쉽게 말해, **"사용자가 말로만 설명하면 AI 가 그 말대로 현실처럼 생생하고 끝없이 넓어지는 3D 도시를 만들어주는 시스템"**입니다.

기존의 방법들은 도시를 만들 때 한 번에 다 만들거나, 지도 데이터가 꼭 필요했지만, 요시티는 인간처럼 생각하면서 (Reasoning) 도시를 설계하고, 사용자와 대화하며 도시를 확장해 나갑니다.

이 복잡한 기술을 누구나 이해할 수 있도록 창의적인 비유로 설명해 드릴게요.


1. 기존 방식 vs 요시티: "레고 조립"과 "건축가 팀"의 차이

  • 기존 방식 (SynCity 등):

    • 비유: 마치 한 장의 종이 위에 점 하나씩 찍어가며 그림을 그리는 사람 같습니다.
    • 문제점: 한 칸을 그릴 때 앞의 칸만 보고 그리기 때문에, 도시가 커지면 전체적인 균형이 깨집니다. (예: 왼쪽은 고층 빌딩이 빽빽하고 오른쪽은 빈 들판이 되는 식) 또한, 사용자가 "해리포터 테마파크를 만들어줘"라고 해도, 그걸 어떻게 도시 전체에 자연스럽게 녹여낼지 모릅니다.
  • 요시티 (Yo'City):

    • 비유: 현명한 건축가 팀 (에이전트) 이 모여 회의를 하는 것 같습니다.
    • 해결책: 도시를 만들 때 한 번에 다 그리지 않고, 상위 계획 (전체 구도) → 중위 계획 (구획 나누기) → 하위 계획 (개별 건물 디자인) 순서로 단계별로 생각하며 만듭니다.

2. 요시티가 도시를 만드는 4 단계 과정

요시티는 도시를 만들기 위해 4 명의 '전문가 (AI 에이전트)'가 팀을 이루어 일합니다.

① 글로벌 플래너 (Global Planner) = "도시의 총괄 기획자"

  • 역할: 사용자가 "활기찬 비즈니스 도시를 만들어줘"라고 하면, 이 기획자가 도시의 큰 그림을 그립니다.
  • 비유: 마치 도시 계획 위원회처럼, "여기는 주거 지역, 저기는 상업 지구, 저기엔 공원"처럼 큰 구역을 나누고, 각 구역이 얼마나 커야 하는지, 어디에 위치해야 하는지 지도 (그리드) 위에 대략적으로 표시합니다.
  • 특이사항: 만약 "뉴욕 스타일"이라고 하면, AI 는 위키피디아 같은 자료를 찾아 뉴욕의 실제 구조를 참고하여 더 현실적인 계획을 세웁니다.

② 로컬 디자이너 (Local Designer) = "세부 설계사"

  • 역할: 기획자가 그린 큰 구역을 **하나하나의 작은 블록 (그리드)**으로 세분화합니다.
  • 비유: 총괄 기획자가 "여기는 아파트 단지"라고 했다면, 이 설계사는 **"30 층짜리 회색 콘크리트 아파트가 줄지어 있고, 사이사이에 작은 광장이 있다"**처럼 아주 구체적인 묘사를 합니다.
  • 핵심: 각 블록이 서로 어울리도록 스타일과 분위기를 통일시킵니다.

③ 3D 생성기 (3D Generator) = "현실 구현자"

  • 역할: 설계사가 쓴 텍스트를 보고 실제 3D 건물을 만듭니다.
  • 비유: 이 부분은 화려한 그림을 그리는 화가가 아니라, **작업실 (공방)**에서 일하는 장인 같습니다.
    1. 만들기 (Produce): 먼저 2D 정면 그림을 그립니다.
    2. 다듬기 (Refine): 그림이 이상하면 (건물이 비뚤어지거나, 바닥이 남았으면) 고칩니다.
    3. 평가 (Evaluate): "이거 진짜 도시 같아?"라고 스스로 평가합니다. 만족스럽지 않으면 다시 그립니다.
    4. 3D 로 변환: 최종적으로 2D 그림을 입체적인 3D 모델로 바꿉니다.

④ 확장 모듈 (Expansion Module) = "도시의 미래 설계자"

  • 역할: 이미 만들어진 도시에 새로운 건물을 추가할 때, 가장 적절한 위치를 찾아줍니다.
  • 비유: 도시가 이미 있는데 "여기에 대형 쇼핑몰을 짓고 싶어"라고 하면, 이 모듈은 **도시의 관계 지도 (Scene Graph)**를 봅니다.
    • "쇼핑몰은 사람들이 많은 주거 지역 가까이 있어야 해."
    • "하지만 공장이나 시끄러운 지역과는 멀리 떨어져 있어야 해."
    • 이런 논리적 거리와 의미를 고려하여, 도시 전체가 자연스럽게 이어지도록 최적의 자리에 새로운 블록을 배치합니다.

3. 왜 이 기술이 특별한가요? (핵심 장점)

  1. 끝없는 확장 (Boundless):

    • 기존 기술은 도시가 커지면 망가졌지만, 요시티는 사용자가 "더 넓게 만들어줘"라고 할 때마다 새로운 구역을 자연스럽게 붙여나갈 수 있습니다. 마치 레고를 계속 쌓아 올리는 것처럼요.
  2. 개인화된 디자인 (Personalized):

    • "해리포터 테마파크", "고대 실크로드 도시", "미래형 스페이스 시티"처럼 아주 특이하고 구체적인 요청도 잘 받아들여 구현합니다.
  3. 현실감 (Realism):

    • 건물의 질감, 창문, 거리 배치 등이 실제 도시처럼 매우 정교합니다. 단순히 블록을 쌓은 게 아니라, 실제 도시의 리듬을 가지고 있습니다.
  4. 스스로 비판하고 고침 (Self-Critic):

    • AI 가 만든 결과물을 스스로 "이건 너무 비뚤어졌네", "건물이 너무 적네"라고 **비판 (Self-Critic)**하고 다시 고치는 과정을 거칩니다. 덕분에 결과물의 품질이 매우 높습니다.

4. 결론: "상상하는 대로 도시가 펼쳐진다"

요시티는 단순히 그림을 그리는 AI 가 아니라, **도시를 계획하고 설계하고, 확장까지 생각하는 '지능형 건축가'**입니다.

이 기술이 발전하면, 가상 현실 (VR) 게임, 디지털 트윈 (실제 도시의 가상 복제), 영화 배경 등을 만들 때, 개발자가 복잡한 코드를 짜거나 수작업으로 건물을 쌓을 필요 없이, **"이런 도시가 필요해"**라고 말하기만 하면 AI 가 바로 현실 같은 3D 도시를 만들어줄 것입니다.

마치 마법 지팡이를 휘두르면 도시가 생기는 것과 같은 경험을 제공하는 것이 바로 요시티의 목표입니다.