RnG: A Unified Transformer for Complete 3D Modeling from Partial Observations

RnG 는 부분적인 2D 관측으로부터 완전한 3D 구조를 추론하기 위해 재구성과 생성 작업을 통합한 새로운 퓨드-포워드 Transformer 로서, 재구성 유도 인과 어텐션 메커니즘을 통해 가시 영역의 정밀한 재구성과 보이지 않는 영역의 타당한 생성을 동시에 수행하여 실시간 고충실도 3D 모델링을 가능하게 합니다.

Mochu Xiang, Zhelun Shen, Xuesong Li, Jiahui Ren, Jing Zhang, Chen Zhao, Shanshan Liu, Haocheng Feng, Jingdong Wang, Yuchao Dai

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'RnG(Reconstruction and Generation)'**라는 새로운 인공지능 기술을 소개합니다. 이 기술을 쉽게 이해할 수 있도록 일상적인 비유와 이야기로 설명해 드리겠습니다.

🎨 핵심 아이디어: "보이지 않는 부분도 상상해 내는 3D 스캐너"

상상해 보세요. 여러분이 친구의 사진을 한 장만 가지고 있습니다. 그 친구는 옆을 보고 있어서 얼굴의 한쪽 면만 보입니다.

  • 기존 기술 (VGGT 등): "오, 이쪽 면은 이렇게 생겼구나!"라고 정확히 분석하지만, 보이지 않는 뒷머리나 다른 쪽 얼굴은 그냥 빈 공간으로 남겨둡니다. 마치 조각상이 잘려나간 것처럼 불완전합니다.
  • RnG (이 논문): "이쪽 면을 보면, 저쪽 면은 아마 이렇게 생겼을 거야!"라고 **상상력 (생성 능력)**을 발휘합니다. 보이지 않는 뒷부분까지 완벽하게 채워서, 친구의 얼굴을 360 도 돌려볼 수 있는 완벽한 3D 모델을 만들어냅니다.

🏗️ RnG 가 어떻게 작동할까요? (비유로 설명)

RnG 는 두 가지 일을 동시에 하는 초고속 3D 건축가입니다.

1. "재건축 (Reconstruction)"과 "신축 (Generation)"을 하나로

기존에는 3D 모델을 만드는 일 (재건축) 과 새로운 각도에서 그림을 그리는 일 (신축) 을 따로따로 하는 로봇들이 있었습니다.

  • RnG 의 혁신: 이 두 가지 일을 하는 단 하나의 로봇을 만들었습니다.
  • 비유: 마치 요리사가 재료를 다듬는 일 (재건축) 과 새로운 요리를 창조하는 일 (신축) 을 동시에 할 줄 아는 셰프와 같습니다.

2. "기억 창고 (KV-Cache)"라는 비밀 무기

이 로봇의 가장 큰 특징은 **'기억 창고'**를 활용한다는 점입니다.

  • 과정:
    1. 먼저 친구의 사진 (입력 이미지) 을 보고 "이 친구의 뼈대 (3D 구조) 는 이렇구나"라고 파악합니다.
    2. 이 뼈대 정보를 **기억 창고 (KV-Cache)**에 저장해 둡니다. 이때는 아직 새로운 각도의 그림을 그리지 않습니다.
    3. 이제 "앞에서 봤을 때 어떻게 생겼지?", "위에서 봤을 때 어떨지?"라고 질문하면, 로봇은 기억 창고에서 정보를 꺼내와서 순식간에 새로운 그림을 그려냅니다.
  • 효과: 처음 뼈대를 파악하는 데만 시간이 걸리고, 그 이후에는 새로운 각도를 그리는 데 0.1 초도 걸리지 않습니다. (기존 기술보다 100 배 이상 빠름)

3. "가이드"가 있는 방향성 (Causal Attention)

로봇이 기억을 정리할 때, 질서를 중요하게 생각합니다.

  • 비유: 선생님이 학생들에게 설명할 때, "앞으로 배운 내용 (기존 사진) 을 바탕으로 앞으로의 내용 (새로운 그림) 을 상상해 봐"라고 말합니다. 하지만 "앞으로의 내용을 미리 알려주면, 앞 내용을 배울 때 혼란이 생기니까 안 돼"라고 규칙을 정합니다.
  • 이유: 이렇게 하면 로봇이 원래 사진의 특징을 왜곡하지 않으면서, 자연스럽게 보이지 않는 부분을 채워 넣을 수 있습니다.

🚀 이 기술이 왜 대단한가요?

  1. 불완전한 조각을 완성합니다: 사진 몇 장만 있어도, 마치 그 물체를 3D 스캐너로 빔을 쏘아 모든 각도에서 볼 수 있는 완전한 3D 객체를 만들어냅니다.
  2. 실시간으로 작동합니다: 기존에 고화질 3D 를 만들려면 몇 분씩 걸리거나, 컴퓨터가 과열될 정도로 무거웠습니다. 하지만 RnG 는 A800 이라는 고성능 그래픽 카드에서 1 초도 안 되어 결과를 보여줍니다.
  3. 현실적인 질감: 단순히 모양만 만드는 게 아니라, 빛과 그림자, 질감까지 자연스럽게 만들어냅니다. 마치 실제 물체를 찍은 것처럼 보입니다.

📝 한 줄 요약

"RnG 는 몇 장의 사진만으로도, 보이지 않는 뒷부분까지 상상해 내어 완벽한 3D 물체를 1 초 만에 만들어내는 '초고속 3D 마법사'입니다."

이 기술은 증강현실 (AR), 로봇이 물체를 인식하는 능력, 그리고 게임이나 영화 속 3D 콘텐츠 제작 등 다양한 분야에서 혁신을 일으킬 것으로 기대됩니다.