TREND: Unsupervised 3D Representation Learning via Temporal Forecasting for LiDAR Perception

Each language version is independently generated for its own context, not a direct translation.

1. 문제: "눈을 뜨기 위해 너무 많은 돈을 써야 한다"

자율주행 차는 **라이다 (LiDAR)**라는 장치를 통해 주변을 3D 점 (Point Cloud) 으로 봅니다. 마치 어둠 속에서 레이저로 사물을 스캔해서 그림을 그리는 것과 비슷하죠.

하지만 여기서 큰 문제가 생깁니다.

수작업의 고통: 이 3D 점들을 컴퓨터가 이해할 수 있게 "이건 차야, 저건 사람이다"라고 사람이 일일이 표시 (레이블링) 해줘야 합니다.
비용: 전문가가 1 초 분량의 데이터를 표시하는 데 10 분 이상 걸린다고 합니다. 1 시간 분량의 데이터를 표시하려면 1,000 일 이상이 걸린다고 하네요. 이는 너무 비싸고 비효율적입니다.

그래서 연구자들은 **"레이블 없이도 학습할 수 있는 방법"**을 찾고 있었습니다.

2. 기존 방법의 한계: "사진을 잘게 자르거나 뒤집기"

지금까지의 방법들은 주로 두 가지였습니다.

마스크 (가리기): 점 cloud 의 일부를 가리고, 컴퓨터가 그 빈칸을 채우게 하는 것 (퍼즐 맞추기).
대조 학습 (비교): 같은 장면을 약간 다르게 변형시켜서 "이건 같은 사물이야"라고 가르치는 것.

하지만 이 방법들은 시간의 흐름을 무시했습니다. 차는 움직이고, 사람은 걷습니다. 정적인 사진만 보고는 사물이 어떻게 움직일지, 그 의미가 무엇인지 배우기 어렵습니다.

3. TREND 의 해결책: "내일의 날씨를 예보하듯 내일의 모습을 예측하다"

저자들은 **"과거를 보고 미래를 예측하는 것"**이 가장 좋은 학습 방법이라고 생각했습니다.

비유: 날씨 예보관

기존 방법: 어제 찍은 구름 사진만 보고 구름 모양을 외우는 것.

TREND 방법: "지금 바람이 불고 구름이 서쪽으로 가고 있네? 그럼 10 분 뒤에는 구름이 어디에 있을지 예측해 봐!"라고 시키는 것.

TREND 는 자율주행차의 현재 모습을 보고, 앞으로 1~2 초 뒤의 모습을 예측하게 훈련시킵니다.

4. TREND 가 어떻게 작동하는지 (두 가지 핵심 기술)

이 예측을 잘하기 위해 두 가지 마법 같은 도구를 썼습니다.

① "시간을 기억하는 메모리" (Recurrent Embedding)

상황: 차가 갑자기 급정거하면 보행자는 멈추고, 차가 빠르게 지나가면 보행자는 기다립니다. 차의 움직임이 다른 사물의 움직임을 바꿉니다.
해결: TREND 는 차가 **"어디로, 얼마나 움직였는지 (자차량 동작)"**를 기억하고 다음 순간의 특징을 만들어냅니다. 마치 연속된 만화책을 볼 때, 이전 장면을 기억하고 다음 장면을 상상하는 것과 같습니다.

② "투명한 3D 유령 시야" (Temporal LiDAR Neural Field)

상황: 라이다는 빈 공간도 스캔합니다. 사물이 없는 공간도 중요합니다.
해결: TREND 는 점들만 보는 게 아니라, **사물이 있는 곳과 빈 공간 전체를 하나의 연속된 3D 유령 (Neural Field)**처럼 표현합니다. 그리고 이 유령이 시간이 지남에 따라 어떻게 변할지 예측합니다.
- 마치 투명한 유리벽을 통해 사물의 형체뿐만 아니라 그 주변 공간의 흐름까지 느끼는 것과 같습니다.

5. 왜 TREND 가 더 좋은가?

기존 방법들은 "퍼즐 맞추기"나 "사진 비교"에 집중했지만, TREND 는 **"세상의 움직임 (동역학)"**을 배웁니다.

결과: TREND 를 사용하면, 적은 양의 레이블 데이터로도 기존 최고 기술 (SOTA) 보다 최대 4 배 더 좋은 성능을 냈습니다.
의미: 자율주행차가 더 적은 비용으로, 더 빠르게, 그리고 더 안전하게 세상을 이해할 수 있게 된 것입니다.

6. 한 줄 요약

"TREND 는 자율주행차에게 '과거의 모습을 보고 미래를 예측하는 능력'을 가르쳐서, 사람이 일일이 가르쳐 주지 않아도 스스로 세상의 움직임을 이해하게 만든 혁신적인 기술입니다."

이 기술이 상용화되면, 더 안전하고 저렴한 자율주행차가 우리 곁에 올 수 있을 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

자율주행 분야에서 LiDAR (Light Detection and Ranging) 는 정밀한 3D 환경 인식을 위해 필수적이지만, LiDAR 포인트 클라우드에 대한 레이블링 (Annotation) 은 매우 시간과 비용이 많이 드는 작업입니다. 한 전문가가 coarse-level 에서도 1 프레임당 최소 10 분 이상 소요되며, 고해상도 레이블링은 더 많은 시간이 필요합니다.
이러한 레이블링 부담을 완화하기 위해 기존 연구들은 **Unsupervised 3D Representation Learning (비지도 3D 표현 학습)**을 통해 사전 학습 (Pre-training) 을 수행해 왔습니다. 그러나 기존 방법들은 다음과 같은 한계가 있었습니다:

Masked Autoencoding (MAE): 포인트 클라우드의 일부를 마스킹하고 복원하는 방식.
Contrastive Learning: 서로 다른 뷰 (View) 간의 유사도를 최대화하는 방식.
공통된 결함: 이 두 가지 접근법은 모두 '시간적 (Temporal)' 정보를 활용하지 못하거나, 단순한 데이터 증강 (Transformation) 에 의존합니다. LiDAR 시퀀스에는 객체의 운동과 상호작용에 대한 중요한 시맨틱 (Semantic) 정보가 내재되어 있음에도 불구하고, 이를 효과적으로 활용하지 못했습니다.

2. 제안 방법론: TREND (Methodology)

저자들은 **TREND (Temporal REndering with Neural fielD)**라는 새로운 비지도 3D 표현 학습 프레임워크를 제안합니다. 핵심 아이디어는 LiDAR 시퀀스의 **미래 관측치 (Future Observation) 를 예측 (Forecasting)**하는 것을 사전 학습 목표로 삼는 것입니다. 이를 통해 객체의 운동과 시맨틱 정보를 암묵적으로 인코딩합니다.

TREND 는 크게 두 가지 주요 구성 요소로 이루어집니다:

A. Recurrent Embedding Scheme (순환 임베딩 방식)

목적: 현재 LiDAR 스캔과 자율주행 차량의 동작 (Ego-action) 을 기반으로 미래 시점의 3D 임베딩을 생성합니다.
동작:
1. 현재 프레임 ( $t_0$ ) 의 3D 임베딩을 생성합니다.
2. 자율주행 차량의 이동 정보 (이동 거리 $\Delta x, \Delta y$ 및 회전 $\Delta \theta$ ) 를 Sinusoidal Encoding과 MLP 를 통해 인코딩합니다.
3. 이 동작 정보를 이전 시점의 임베딩과 결합하여 **재귀적 (Recurrent)**으로 미래 시점 ( $t_1, t_2, ...$ ) 의 3D 임베딩을 생성합니다.
의의: 차량의 동작이 보행자나 다른 차량의 움직임에 미치는 상호작용 (예: 차량이 멈추면 보행자가 길을 건너는 등) 을 모델링할 수 있게 합니다.

B. Temporal LiDAR Neural Field (시간적 LiDAR 신경장)

목적: 생성된 3D 임베딩을 기반으로 3D 장면을 표현하고, LiDAR 포인트 클라우드를 렌더링하여 손실 (Loss) 을 계산합니다.
특징: 기존 신경장 (Neural Field) 연구들이 카메라 모달리티에 집중했던 것과 달리, LiDAR 의 고유한 특성 (기하학적 구조 및 강도/Intensity) 을 고려합니다.
- 입력: 공간 좌표 ( $p$ ), 시간 ( $t$ ), 그리고 쿼리된 3D 특징 ( $f_p$ ).
- 출력: 기하학적 특징 ( $f_{geo}$ ) 과 부호付き 거리 함수 (SDF, Signed Distance Function) 값.
- 렌더링: 차분 가능한 렌더링 (Differentiable Rendering) 을 통해 레이 (Ray) 를 따라 거리 (Range) 와 강도 (Intensity) 를 예측합니다.
- 손실 함수: 예측된 거리/강도와 실제 관측값 간의 L1 손실과, 관측된 점의 SDF 값이 0 이어야 한다는 제약을 함께 사용합니다.

C. 커리큘럼 러닝 (Curriculum Learning)

초기화 단계에서 여러 프레임의 미래를 한 번에 예측하는 것은 어렵기 때문에, 예측할 프레임 수를 점진적으로 늘려가며 학습합니다 (단기 예측 $\rightarrow$ 장기 예측).

3. 주요 기여 (Key Contributions)

새로운 패러다임: LiDAR 사전 학습을 위해 '마스킹 복원'이나 '대조 학습' 대신 **시간적 예측 (Temporal Forecasting)**을 도입했습니다.
Ego-action 통합: 자율주행 차량의 동작 (Ego-motion) 을 명시적으로 모델링하여, 차량과 교통 참여자 간의 상호작용을 학습할 수 있게 했습니다.
LiDAR 특화 신경장: LiDAR 의 기하학적 구조뿐만 아니라 강도 (Intensity) 정보를 포함하는 Temporal LiDAR Neural Field 를 설계하여, 카메라 기반 신경장과의 차별화를 이루었습니다.
차분 가능한 렌더링: 예측된 3D 장면을 실제 LiDAR 관측치와 비교할 수 있도록 차분 가능한 렌더링 파이프라인을 구축했습니다.

4. 실험 결과 (Results)

저자들은 Once, Waymo, NuScenes, SemanticKITTI 등 4 개의 주요 자율주행 데이터셋에서 TREND 를 평가했습니다.

3D 객체 감지 (Object Detection):
- Once 데이터셋: 기존 SOTA 비지도 사전 학습 방법들보다 최대 400% 더 큰 향상을 보였습니다. (5% 퓨샷 (Few-shot) 설정에서 mAP 1.77% 향상).
- NuScenes 데이터셋: mAP 에서 2.11% 향상, NDS (NuScenes Detection Score) 에서 1.46% 향상을 기록했습니다. 이는 기존 최첨단 방법 (UniPAD) 대비 약 90% 이상의 추가 개선을 의미합니다.
- Waymo 데이터셋: Once 에서 학습된 모델을 Waymo 로 전이 (Transfer) 했을 때도 성능 향상을 보이며, 모델의 일반화 능력을 입증했습니다.
LiDAR 시맨틱 세그멘테이션 (Semantic Segmentation):
- SemanticKITTI 데이터셋에서 mIoU 2.89%, 정확도 9.14% 향상으로 다양한 작업에서의 유효성을 입증했습니다.
수렴 가속화: 학습 반복 횟수를 고정했을 때, TREND 로 초기화된 모델이 무작위 초기화나 다른 방법들보다 더 높은 성능을 달성했습니다.

5. 의의 및 결론 (Significance)

레이블 효율성 극대화: TREND 는 레이블이 없는 LiDAR 데이터의 시퀀스 정보를 활용하여, 소량의 레이블로도 높은 성능을 달성할 수 있게 함으로써 자율주행 시스템의 개발 비용과 시간을 크게 절감할 수 있습니다.
동적 환경 이해: 정적인 3D 구조뿐만 아니라, 시간에 따른 객체의 운동과 상호작용을 학습함으로써 더 역동적이고 복잡한 도로 환경에서의 인식을 가능하게 합니다.
미래 방향: 이 연구는 LiDAR 기반 3D 인식 분야에서 비지도 학습의 새로운 방향성을 제시하며, 향후 2D 이미지 사전 학습 정보와 결합하거나 더 긴 시퀀스 예측으로 확장될 수 있는 가능성을 열었습니다.

요약하자면, TREND 는 LiDAR 데이터의 **시간적 동역학 (Temporal Dynamics)**을 활용하여 비지도 방식으로 3D 표현을 학습하는 혁신적인 방법론이며, 다양한 벤치마크에서 기존 방법들을 압도하는 성능 향상을 보여주었습니다.