Each language version is independently generated for its own context, not a direct translation.

🚗 DriveTok: 자율주행차를 위한 '만능 뇌' 만들기

이 논문은 자율주행 기술의 미래를 바꿀 수 있는 획기적인 아이디어, DriveTok을 소개합니다. 쉽게 말해, "자율주행차가 눈으로 보는 세상을 이해하고 기억하는 방식을 완전히 새로 고쳐 만든 것"입니다.

상상해 보세요. 자율주행차는 주변에 6 개 이상의 카메라가 달려 있습니다. 기존 방식은 이 카메라들이 찍은 사진을 하나씩 따로따로 분석했습니다. 마치 여섯 명의 친구가 각자 다른 각도에서 사진을 찍어서 보고, "저기 차 있네", "저기 사람 있네"라고 따로따로 이야기하는 상황과 비슷합니다. 문제는 이 방식이 너무 비효율적이고, 서로의 이야기를 연결하기 어렵다는 점입니다.

DriveTok은 이 문제를 해결하기 위해 **"하나의 통합된 기억 (Scene Tokens)"**을 만들어냅니다.

🧩 핵심 비유: 레고 블록 vs. 완성된 조형물

기존의 이미지 토크나이저 (이미지를 작은 조각으로 나누는 기술) 는 레고 블록을 하나씩 따로 분류하는 것과 같습니다. 각 카메라의 이미지를 작은 조각 (패치) 으로 잘라내서 따로 저장합니다. 하지만 이 조각들은 3D 공간의 깊이감이나 서로의 연결고리가 부족합니다.

DriveTok은 이 조각들을 바로 완성된 3D 조형물로 만듭니다.

3D 공간으로의 변환: 카메라들이 찍은 2D 평면 이미지를, 마치 **3D 공간에 있는 가상의 구름 (Scene Tokens)**으로 변환합니다.
위치와 모양을 아는 지능: 이 구름들은 단순히 색만 있는 게 아니라, "이것은 차이고, 저것은 보도이며, 저기는 5 미터 앞에 있다"는 위치, 모양, 의미를 모두 알고 있습니다.

🛠️ DriveTok 이 어떻게 작동할까요? (3 단계 과정)

1. 지능적인 스캐너 (Encoder)

먼저, DriveTok 은 거대한 AI(비전 파운데이션 모델) 를 이용해 카메라 이미지에서 의미 있는 정보를 뽑아냅니다.

비유: 마치 전문 감식관이 현장 사진을 보고 "저건 차고, 저건 사람이고, 저건 비가 오는 날씨야"라고 빠르게 분석하는 것과 같습니다.
그다음, 이 정보를 3D 공간의 가상의 그리드 (Scene Grid) 위에 올려놓습니다. 이때 카메라의 위치와 각도를 고려해서, 모든 정보가 3D 공간에 자연스럽게 배치됩니다.

2. 눈과 귀를 연결하는 중재자 (Spatial-Aware Decoder)

이 부분이 DriveTok 의 가장 큰 특징입니다.

가시성 가이드 (Visibility-Guided Attention): 보통 AI 는 모든 정보를 다 섞어서 분석하지만, DriveTok 은 **"이 카메라에서 이 부분이 실제로 보이는가?"**를 먼저 확인합니다.
비유: 회의실에서의 토론을 생각해 보세요. 회의실 한구석에 있는 사람 (Scene Token) 이 다른 쪽에 있는 사람 (View Token) 과 대화할 때, 벽에 가려져 보이지 않는다면 대화하지 않습니다. DriveTok 은 이렇게 물리적으로 보이는 부분만 서로 연결하여, 엉뚱한 정보 (예: 뒤에 있는 나무를 앞의 차라고 오해하는 것) 가 섞이는 것을 막습니다.

3. 한 번에 여러 가지 일을 하는 다재다능한 뇌 (Unified Training)

DriveTok 은 한 번에 여러 가지 일을 배우도록 훈련됩니다.

이미지 복원: 원래 사진을 다시 그려내는 능력.
깊이 예측: 사물이 얼마나 멀리 있는지 계산하는 능력.
의미 이해: "이건 차, 저건 사람"이라고 분류하는 능력.
3D 공간 채우기: 주변 공간이 빈 공간인지, 장애물이 있는지 3D 로 채워 넣는 능력.

이 모든 것을 동시에 배우기 때문에, DriveTok 이 만든 Scene Tokens는 **텍스처 (색깔/무늬), 기하학 (모양/위치), 의미 (무엇인지)**를 모두 완벽하게 담고 있는 만능 데이터가 됩니다.

🌟 왜 이것이 중요한가요?

기존 방식은 자율주행차가 "무엇이 있는지"만 파악하는 데 그쳤다면, DriveTok 은 **"세상이 어떻게 생겼고, 앞으로 어떻게 변할지"**를 이해할 수 있는 토대를 마련합니다.

효율성: 카메라가 6 개든 10 개든, 해상도가 높든 낮든 **항상 같은 수의 'Scene Tokens'**만 만들어냅니다. 이는 자율주행 시스템이 어떤 차종이나 카메라 설정에도 유연하게 적응할 수 있게 합니다.
일관성: 서로 다른 각도에서 본 같은 물체가 서로 다른 모습으로 인식되는 실수를 줄여줍니다.
미래 지향성: 이 'Scene Tokens'는 향후 **자율주행용 세계 모델 (World Models)**이나 생성형 AI의 입력값으로 쓰일 수 있습니다. 즉, 자율주행차가 "만약 저 차가 갑자기 튀어나오면 어떻게 될까?"라고 상상하거나, 복잡한 상황을 추론하는 고급 두뇌로 활용될 수 있습니다.

📝 한 줄 요약

DriveTok은 자율주행차가 여러 카메라로 보는 복잡한 세상을, **하나의 통합된 3D 기억 (Scene Tokens)**으로 압축하여, 색깔, 모양, 의미, 위치를 모두 완벽하게 이해할 수 있게 해주는 **차세대 자율주행의 '눈과 뇌'**입니다.

Each language version is independently generated for its own context, not a direct translation.

DriveTok: 통합 멀티뷰 재구성 및 이해를 위한 3D 주행 장면 토크나이제이션

이 문서는 자율주행 시스템의 진화에 있어 핵심적인 역할을 하는 DriveTok이라는 새로운 3D 주행 장면 토크나이저 (Tokenizer) 를 제안한 논문에 대한 기술적 요약입니다.

1. 문제 정의 (Problem)

자율주행 분야는 단순한 지각 (Perception) 중심의 파이프라인에서, 비전 - 언어 - 행동 (VLA) 모델과 월드 모델 (World Models) 을 활용한 추론 기반 파이프라인으로 전환되고 있습니다. 이러한 고도화된 모델들은 센서 입력을 재구성을 위한 저수준 정보와 이해를 위한 고수준 의미 정보를 모두 포함하는 포괄적인 표현으로 변환해야 합니다.

기존의 시각 토크나이저들은 다음과 같은 한계를 가집니다:

단일 시점 및 2D 중심: 대부분의 기존 토크나이저는 단일 이미지 (Monocular) 나 일반적인 2D 장면을 대상으로 설계되어, 자율주행에 필수적인 3D 공간 정보를 포착하지 못합니다.
비효율성: 자율주행 차량은 고해상도의 다중 카메라를 사용하는데, 기존 방식은 이미지별 (Per-image) 로 토큰을 생성합니다. 이는 카메라 수와 해상도에 비례하여 토큰 수가 급증하게 만들어, 후속 대형 모델 (Large Models) 에 대한 계산 비용이 과도하게 증가하고 효율성이 떨어집니다.
시점 간 불일치: 각 이미지를 독립적으로 처리하므로, 서로 다른 카메라 간의 기하학적 일관성과 공간 정렬이 깨질 수 있습니다.

2. 방법론 (Methodology)

DriveTok 은 멀티뷰 입력을 고정된 수량의 **통일된 장면 토큰 (Unified Scene Tokens)**으로 변환하여, 카메라 구성이나 해상도에 구애받지 않는 효율적인 3D 표현을 학습합니다. 주요 아키텍처는 다음과 같습니다.

2.1 3D 주행 장면 토크나이제이션 (3D Driving Scene Tokenization)

비전 파운데이션 모델 활용: 사전 학습된 비전 파운데이션 모델 (DINOv3 등) 과 FPN 을 사용하여 각 카메라의 고수준 의미 및 질감 특징을 추출합니다.
3D 변형 교차 어텐션 (3D Deformable Cross-Attention): 추출된 이미지 특징을 고정된 3D 장면 그리드 (Scene Grid) 로 매핑합니다. 각 카메라의 내부/외부 파라미터를 활용하여 3D 공간의 각 쿼리 (Query) 에 해당하는 이미지 영역을 변형 어텐션으로 샘플링하고 특징을 집계합니다.
결과: 카메라 수 ( $N$ ) 나 입력 해상도 ( $H \times W$ ) 와 무관하게 고정된 수의 장면 토큰 ( $N_b$ ) 을 생성하며, 이는 기하학적 일관성을 유지합니다.

2.2 공간 인식 멀티뷰 디코더 (Spatial-Aware Multi-View Decoder)

가시성 기반 어텐션 (Visibility-Guided Attention): 장면 토큰 (Scene Tokens) 과 뷰 토큰 (View Tokens, 각 카메라의 패치) 간의 상호작용을 위해 가시성 마스크를 도입합니다. 이는 물리적으로 보이지 않는 영역 간의 불필요한 상호작용을 차단하여 기하학적 일관성을 보장합니다.
플뤼커 (Plücker) 임베딩: 각 뷰 토큰에 2D 위치 임베딩과 함께 해당 픽셀을 통과하는 광선 (Ray) 의 기하학적 정보를 인코딩한 플뤼커 임베딩을 추가하여, 시점 간 구별과 3D 공간 정렬을 강화합니다.

2.3 통합 재구성 및 이해 (Unified Reconstruction and Understanding)

단일 작업이 아닌 **다중 작업 학습 (Joint Multi-Task Training)**을 통해 토큰이 질감, 의미, 3D 기하학을 모두 학습하도록 합니다.

2D 작업: 이미지 재구성 (RGB), 깊이 예측 (Depth), 의미론적 분할 (Semantic Segmentation).
3D 작업: 3D 의미 점유율 예측 (3D Semantic Occupancy Prediction).
정규화: 장면 토큰 자체에 명시적인 의미 정보를 주입하기 위한 의미 정규화 (Semantic Regularization) 를 적용하여 잠재 공간의 구조를 보존합니다.

3. 주요 기여 (Key Contributions)

통합 3D 장면 토크나이저 제안: 자율주행용 다중 카메라 입력을 해상도와 카메라 수에 독립적인 고정 크기의 3D 장면 토큰으로 변환하는 최초의 효율적인 프레임워크를 제시했습니다.
공간 인식 멀티뷰 디코더: 가시성 가이드 어텐션과 플뤼커 임베딩을 통해 3D 공간 일관성을 유지하면서도 멀티뷰 간 상호작용을 최적화하는 새로운 디코더 아키텍처를 개발했습니다.
다중 작업 학습 전략: 이미지 재구성, 깊이, 의미, 점유율 예측을 동시에 학습시켜, 토큰이 저수준 질감부터 고수준 3D 구조까지 포괄적으로 인코딩하도록 유도했습니다.
VLA 및 월드 모델과의 호환성: 생성된 통일된 장면 토큰은 추론, 계획, 미래 예측 등 고차원적인 자율주행 태스크를 수행하는 대형 모델에 이상적인 인터페이스 역할을 합니다.

4. 실험 결과 (Results)

nuScenes 데이터셋을 기반으로 한 광범위한 실험에서 DriveTok 의 우수성이 입증되었습니다.

이미지 재구성: 기존 토크나이저 (VQGAN, ViT-VQGAN 등) 와 비교하여 다중 카메라 입력에서도 경쟁력 있는 PSNR 과 SSIM 점수를 기록하며, 중첩된 시야에서의 일관성을 잘 유지했습니다.
깊이 예측 (Depth Prediction): 단일 시점 및 멀티뷰 깊이 예측 모델들 (UniDepth, SurroundDepth 등) 을 압도하는 성능을 보였습니다. (AbsRel 0.08, $\delta < 1.25$ 0.93 달성).
3D 점유율 예측 (3D Occupancy Prediction): BEVFormer, GaussianFormer, QuadricFormer 등 최신 3D 점유율 모델들과 비교하여 mIoU 및 IoU 에서 최상위 수준의 성능을 달성했습니다.
추론 (Ablation Study):
- 가시성 가이드 어텐션: 이를 제거할 경우 장면 토큰이 이미지 질감에 과적합되어 3D 공간 이해 능력이 급격히 저하됨을 확인했습니다.
- 다중 작업 학습: 이미지 재구성만 학습하는 경우보다 깊이, 의미, 점유율 예측을 함께 학습할 때 3D 공간 및 의미 정보가 풍부해짐을 확인했습니다.

5. 의의 및 결론 (Significance)

DriveTok 은 자율주행 시스템이 지각 (Perception) 과 추론 (Reasoning) 을 통합할 수 있는 강력한 비전 인터페이스를 제공합니다.

효율성: 고해상도 다중 카메라 데이터를 고정된 수량의 토큰으로 압축함으로써, 대규모 VLA 나 월드 모델의 계산 부하를 획기적으로 줄였습니다.
일관성: 3D 공간 기반의 토크나이제이션을 통해 시점 간 기하학적 불일치를 해결하고, 물리적으로 타당한 3D 장면을 표현합니다.
미래 지향성: 생성된 통일된 장면 토큰은 개방형 주행 질문 답변, 반사실 추론 (Counterfactual Reasoning), 다단계 계획, 비디오 생성 등 차세대 자율주행 애플리케이션의 기반이 될 수 있습니다.

결론적으로, DriveTok 은 자율주행의 지각 파이프라인을 단순한 객체 감지를 넘어, 통합된 3D 장면 이해와 생성이 가능한 새로운 패러다임으로 전환시키는 중요한 기술적 진보입니다.

DriveTok: 3D Driving Scene Tokenization for Unified Multi-View Reconstruction and Understanding