Monocular Open Vocabulary Occupancy Prediction for Indoor Scenes

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"로봇이나 AR 안경이 우리 집 안을 완벽하게 이해할 수 있게 해주는 새로운 기술"**에 대한 이야기입니다.

기존 기술들은 로봇이 "의자", "테이블"처럼 미리 정해진 이름만 알 수 있었지만, 이 새로운 기술은 로봇이 "책상 위에 있는 빨간 컵"이나 "소파 옆의 낡은 신발"처럼 아무 이름이나 물어봐도 알아볼 수 있게 만들어줍니다.

이 기술의 핵심 아이디어를 일상적인 비유로 설명해 드릴게요.

1. 문제: 로봇의 "눈"이 너무 단순함

지금까지 로봇이 방을 볼 때는 마치 미리 찍힌 스티커만 붙일 수 있는 아이처럼 행동했습니다.

기존 방식 (Closed Vocabulary): 로봇은 학습할 때 "의자"와 "테이블"만 배웠습니다. 그래서 방에 "의자"가 있으면 인식하지만, "의자 위에 올라간 고양이"나 "책상 옆에 떨어진 신발"은 보지 못하거나 "의자"로 잘못 인식합니다.
실제 상황: 우리 집은 의자나 테이블 말고도 수많은 사물 (책, 장난감, 컵 등) 이 있고, 모양도 복잡하게 얽혀 있습니다. 로봇이 이 복잡한 공간을 이해하려면 정해진 이름표가 없는 사물도 알아볼 수 있어야 합니다.

2. 해결책: "투명한 구슬"로 공간을 재구성

이 논문은 **"3D 언어가 새겨진 가우스 (Gaussian) 구슬"**이라는 새로운 방식을 사용합니다.

비유: imagine you are building a 3D model of a room using thousands of tiny, glowing, transparent marbles (구슬).
- 기존 방식: 이 구슬들은 그냥 "여기에 물체가 있다/없다"는 정보만 담고 있었습니다.
- 이 논문의 방식 (LegoOcc): 이 구슬 하나하나에 "이곳은 '의자'와 관련된 곳이야", **"저곳은 '신발'과 관련된 곳이야"**라는 **언어 정보 (라벨)**가 함께 저장되어 있습니다.
- 결과: 로봇이 "신발"이라고 말하면, "신발"이라는 언어 정보와 가장 잘 맞는 구슬들이 빛나며 3D 공간에 신발의 위치를 보여줍니다.

3. 기술적 난제와 해결 (두 가지 핵심 기술)

이 구슬들을 잘 조립하기 위해 두 가지 큰 문제를 해결했습니다.

A. 문제 1: "투명도"를 잘못 계산해서 공간이 뭉개짐

상황: 구슬들이 겹쳐 있을 때, "여기에 물체가 진짜로 있는가?"를 판단하는 게 어렵습니다. 기존 방식은 구슬의 투명도 (Opacity) 를 제대로 반영하지 못해, 빈 공간도 물체가 있는 것처럼 착각하거나 그 반대 현상이 일어났습니다.
해결책 (포아송 방식):
- 비유: 빗방울이 떨어지는 것을 상상해보세요.
- 기존 방식은 "빗방울이 하나라도 떨어지면 비가 온다"고 단순히 계산했습니다.
- 이 논문은 **"포아송 과정"**이라는 수학적 원리를 써서, "빗방울이 얼마나 자주 떨어질 확률이 있는가?"를 계산합니다.
- 효과: 구슬의 투명도를 정교하게 계산해서, 빈 공간과 물체가 있는 공간을 정확하게 구분하게 만들었습니다.

B. 문제 2: 여러 사물이 섞여서 의미가 흐려짐

상황: 카메라로 방을 볼 때, 의자와 책이 겹쳐 보일 수 있습니다. 이때 "의자"와 "책"의 정보가 섞여서 로봇이 무엇을 봐야 할지 헷갈립니다 (Feature Mixing).
해결책 (점진적인 온도 낮추기):
- 비유: 처음에는 흐릿하게 보는 안경을 쓰고, 시간이 지나면 점점 선명한 안경으로 바꿔 끼는 과정입니다.
- 과정:
  1. 초반: 구슬들의 투명도를 부드럽게 섞어서 (온도 높음) 전체적인 구조를 먼저 익힙니다.
  2. 후반: 점차 투명도를 날카롭게 만들어 (온도 낮음) "이 구슬은 100% 의자", "저 구슬은 100% 책"처럼 정확하게 분리시킵니다.
- 효과: 처음엔 전체적인 모양을 배우고, 나중엔 세부적인 사물까지 정확히 구분할 수 있게 됩니다.

4. 왜 이것이 중요한가요? (결과)

이 기술은 **스캔넷 (Occ-ScanNet)**이라는 복잡한 실내 데이터셋에서 실험되었습니다.

기존 기술: "의자", "테이블" 같은 11 가지 카테고리만 인식 가능.
이 기술 (LegoOcc): "의자", "테이블"뿐만 아니라 "신발", "종이", "화분" 등 학습하지 않은 어떤 사물이라도 텍스트로 물어보면 찾아냅니다.
성능: 기존 방법들보다 훨씬 정확하게 3D 공간을 이해하고, 특히 **어떤 사물인지 구분하는 능력 (mIoU)**이 2 배 이상 뛰어났습니다.

요약

이 논문은 **"로봇에게 눈을 뜨게 하고, 언어를 가르쳐서 복잡한 우리 집 안의 모든 사물을 이름 없이도 알아볼 수 있게 만든 기술"**입니다.

핵심: 투명한 구슬 (Gaussian) 에 언어 정보를 심음.
기술 1: 구슬 겹침을 정확히 계산하는 '포아송' 방법.
기술 2: 흐릿한 시야에서 선명한 시야로 점진적으로 바꾸는 '온도 조절' 방법.

이 기술이 발전하면, 로봇이 "저기 빨간 컵 치워줘"라고 하면, 로봇이 컵의 위치를 정확히 찾아내어 집안일을 도와주는 날이 머지않았다는 것을 보여줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

배경: 서비스 로봇, 드론, AR/VR 등 embodied agent(구현체 에이전트) 는 복잡한 실내 환경을 이해하기 위해 3D 공간의 기하학적 구조와 의미론적 (semantic) 정보를 동시에 파악해야 합니다.
현황: 기존 occupancy(점유) 예측 연구는 주로 야외 주행 시나리오에 집중되어 있으며, 실내 환경에서는 제한된 고정된 카테고리 (Closed-vocabulary) 만 학습하는 경우가 많습니다.
한계점:
- 실내 환경의 복잡성: 야외에 비해 기하학적 구조가 훨씬 밀집되어 있고, 레이아웃이 복잡하며, 의미론적 카테고리가 매우 세분화되고 장꼬리 (long-tailed) 분포를 보입니다.
- 기존 방법의 실패: 야외용 오픈 보카불러리 (Open-vocabulary) 방법을 실내에 직접 적용하면 성능이 크게 저하됩니다.
- 데이터 부족: 3D occupancy 데이터의 기하학적 정보 (Binary occupancy) 는 비교적 쉽게 얻을 수 있지만, 세밀한 의미론적 레이블 (Semantic labels) 을 수집하는 것은 비용이 매우 높고 어렵습니다.
목표: 단안 (Monocular) 이미지를 입력으로 받아, 기하학적 레이블 (Binary occupancy) 만으로 학습하면서도 임의의 텍스트 쿼리에 반응하여 실내 공간의 3D occupancy 를 예측하는 오픈 보카불러리 (Open-vocabulary) 시스템을 개발하는 것입니다.

2. 방법론 (Methodology)

저자들은 LegoOcc라는 프레임워크를 제안하며, 핵심은 **3D 언어 임베디드 가우스 (3D Language-Embedded Gaussians, LE-Gaussians)**를 중간 표현으로 사용하는 것입니다.

2.1. 핵심 아키텍처: LegoOcc Framework

LE-Gaussians: 각 가우스 원소는 기하학적 파라미터 (위치, 회전, 스케일, 불투명도) 와 언어 정렬된 의미론적 임베딩 (Language-aligned embedding) 을 결합합니다.
학습 프로세스:
1. 기하학적 학습 (Geometry Learning): 입력 이미지에서 LE-Gaussians 를 생성하고, 이를 3D occupancy 로 변환합니다. 이때 **이진 occupancy 레이블 (점유/비점유)**만 감독 신호로 사용합니다.
2. 의미론적 학습 (Semantic Learning): 생성된 가우스의 특징을 이미지로 렌더링하여, 학습이 필요 없는 오픈 보카불러리 세그멘테이션 모델 (예: Trident) 의 특징과 정렬합니다. 이 과정은 2D 의미 레이블 없이도 가능합니다.

2.2. 주요 기술적 기여 (Key Technical Components)

A. Poisson 기반 불투명도 인식 가우스 -to-Occupancy 연산자 (Poisson-based Opacity-aware G2O)

문제: 기존 가우스 기반 occupancy 변환 (GaussianFormer2 등) 은 이진 occupancy 레이블만 사용할 때 수렴이 불안정합니다. 이는 2D 렌더링 시 사용되는 '불투명도 (Opacity)' 정보가 3D occupancy 집계 과정에서 무시되기 때문입니다.
해결: 각 가우스의 기여도를 '비음수 사건 강도 (nonnegative event intensity)'로 간주하고, **포아송 과정 (Poisson process)**을 기반으로 occupancy 확률을 모델링합니다.
- occupancy $p(x) = 1 - \exp(-\sum \alpha_i p_i(x))$
- 이 방식은 불투명도를 명시적으로 고려하여 기하학적 집계와 2D 렌더링 간의 불일치를 해소하고 안정적인 학습을 가능하게 합니다.

B. 점진적 온도 감소 스케줄 (Progressive Temperature Decay)

문제: 실내 장면은 객체가 겹치는 경우가 많아, 가우스 스플래팅 (Gaussian Splatting) 시 여러 카테고리의 특징이 섞여 (Feature mixing) 언어 정렬이 약화됩니다.
해결: 가우스의 불투명도를 시그모이드 함수를 통해 조절하는 온도 (Temperature, $\tau$ ) 파라미터를 도입합니다.
- 훈련 초기에는 높은 온도 ( $\tau \approx 1$ ) 를 사용하여 부드러운 혼합을 허용하고, 훈련이 진행됨에 따라 온도를 점차 낮춰 ( $\tau \to 10^{-3}$ ) 불투명도를 0 또는 1 로 날카롭게 만듭니다.
- 이는 **지수적 감소 스케줄 (Exponential decay)**을 사용하여 저온 구간에서 더 많은 반복을 할당함으로써, 특징의 희석을 방지하고 개별 가우스의 언어 정렬을 강화합니다.

3. 주요 기여 (Key Contributions)

LegoOcc 제안: 대규모 실내 환경에서 단안 이미지를 기반으로 오픈 보카불러리를 지원하는 첫 번째 프레임워크 중 하나로, 고정된 카테고리 제한 없이 임의의 객체를 3D 로 추론할 수 있습니다.
새로운 G2O 연산자: 기하학적 레이블 (이진 occupancy) 만으로 학습이 가능하도록 하는 Poisson 기반의 불투명도 인식 연산자를 개발하여, 기존 방법의 수렴 불안정성을 해결했습니다.
점진적 온도 감소 스케줄: 스플래팅 과정에서의 특징 혼합을 줄이고 언어 정렬을 강화하기 위한 새로운 학습 전략을 제안했습니다.
성능 입증: Occ-ScanNet 데이터셋에서 기존 오픈 보카불러리 방법론을 압도하는 성능을 기록했습니다.

4. 실험 결과 (Results)

데이터셋: Occ-ScanNet (실내 3D occupancy 데이터셋, 11 개 카테고리)
평가 지표: IoU (Intersection over Union), mIoU (mean IoU)

주요 수치 (Open-vocabulary 설정, 기하학적 레이블만 사용):
- IoU: 59.50 (기존 최상위 방법 대비 3.02 포인트 향상)
- mIoU: 21.05 (기존 오픈 보카불러리 방법 대비 11.80 포인트 향상, 이전 최고 성능의 2 배 이상)
비교 분석:
- 재현된 기존 오픈 보카불러리 방법들 (POP-3D, LOcc) 은 실내 환경에서 매우 낮은 성능 (mIoU < 10) 을 보였습니다.
- LegoOcc 는 완전한 주석 (Full annotation) 을 사용하는 폐쇄형 (Closed-vocabulary) 방법들과 비교해도 기하학적 정확도 (IoU) 에서 가장 높은 수치를 기록했습니다.
Ablation Study:
- Poisson 기반 G2O 연산자를 사용하면 Bernoulli 방식보다 IoU 가 12.85 포인트, mIoU 가 3.80 포인트 향상되었습니다.
- 점진적 온도 감소 스케줄을 적용하지 않으면 mIoU 가 18.15 에서 21.05 로 크게 개선되었습니다.

5. 의의 및 결론 (Significance & Conclusion)

실용성: 고비용인 3D 의미론적 레이블 없이도, 상대적으로 쉽게 수집 가능한 기하학적 데이터만으로 실내 공간의 복잡한 의미론적 이해를 가능하게 합니다.
확장성: embodied agent 가 고정된 카테고리 목록에 구애받지 않고, 자연어 명령을 통해 임의의 물체나 공간 구조를 인식하고 행동할 수 있는 기반을 마련합니다.
기술적 진보: 3D 가우스 스플래팅을 occupancy 예측과 언어 정렬에 성공적으로 통합하여, 실내 환경의 밀집된 기하학과 세분화된 의미론적 특성을 동시에 처리하는 새로운 패러다임을 제시했습니다.

이 논문은 실내 환경에서의 오픈 보카불러리 3D occupancy 예측이라는 난제를 해결하기 위해, 기하학적 감독 신호의 효율적 활용과 가우스 기반 표현의 정교한 최적화를 결합한 혁신적인 접근법을 제시했습니다.