DriveTok: 3D Driving Scene Tokenization for Unified Multi-View Reconstruction and Understanding

이 논문은 자율주행 시스템의 확장성을 위해 기존 2D 토크나이저의 한계를 극복하고, 3D 변형 교차 어텐션을 활용하여 RGB, 깊이, 시맨틱 정보 및 3D 점유율 예측을 통합적으로 수행하는 효율적인 3D 주행 장면 토크나이저 'DriveTok'을 제안합니다.

Dong Zhuo, Wenzhao Zheng, Sicheng Zuo, Siming Yan, Lu Hou, Jie Zhou, Jiwen Lu

게시일 2026-03-20
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🚗 DriveTok: 자율주행차를 위한 '만능 뇌' 만들기

이 논문은 자율주행 기술의 미래를 바꿀 수 있는 획기적인 아이디어, DriveTok을 소개합니다. 쉽게 말해, "자율주행차가 눈으로 보는 세상을 이해하고 기억하는 방식을 완전히 새로 고쳐 만든 것"입니다.

상상해 보세요. 자율주행차는 주변에 6 개 이상의 카메라가 달려 있습니다. 기존 방식은 이 카메라들이 찍은 사진을 하나씩 따로따로 분석했습니다. 마치 여섯 명의 친구가 각자 다른 각도에서 사진을 찍어서 보고, "저기 차 있네", "저기 사람 있네"라고 따로따로 이야기하는 상황과 비슷합니다. 문제는 이 방식이 너무 비효율적이고, 서로의 이야기를 연결하기 어렵다는 점입니다.

DriveTok은 이 문제를 해결하기 위해 **"하나의 통합된 기억 (Scene Tokens)"**을 만들어냅니다.


🧩 핵심 비유: 레고 블록 vs. 완성된 조형물

기존의 이미지 토크나이저 (이미지를 작은 조각으로 나누는 기술) 는 레고 블록을 하나씩 따로 분류하는 것과 같습니다. 각 카메라의 이미지를 작은 조각 (패치) 으로 잘라내서 따로 저장합니다. 하지만 이 조각들은 3D 공간의 깊이감이나 서로의 연결고리가 부족합니다.

DriveTok은 이 조각들을 바로 완성된 3D 조형물로 만듭니다.

  • 3D 공간으로의 변환: 카메라들이 찍은 2D 평면 이미지를, 마치 **3D 공간에 있는 가상의 구름 (Scene Tokens)**으로 변환합니다.
  • 위치와 모양을 아는 지능: 이 구름들은 단순히 색만 있는 게 아니라, "이것은 차이고, 저것은 보도이며, 저기는 5 미터 앞에 있다"는 위치, 모양, 의미를 모두 알고 있습니다.

🛠️ DriveTok 이 어떻게 작동할까요? (3 단계 과정)

1. 지능적인 스캐너 (Encoder)

먼저, DriveTok 은 거대한 AI(비전 파운데이션 모델) 를 이용해 카메라 이미지에서 의미 있는 정보를 뽑아냅니다.

  • 비유: 마치 전문 감식관이 현장 사진을 보고 "저건 차고, 저건 사람이고, 저건 비가 오는 날씨야"라고 빠르게 분석하는 것과 같습니다.
  • 그다음, 이 정보를 3D 공간의 가상의 그리드 (Scene Grid) 위에 올려놓습니다. 이때 카메라의 위치와 각도를 고려해서, 모든 정보가 3D 공간에 자연스럽게 배치됩니다.

2. 눈과 귀를 연결하는 중재자 (Spatial-Aware Decoder)

이 부분이 DriveTok 의 가장 큰 특징입니다.

  • 가시성 가이드 (Visibility-Guided Attention): 보통 AI 는 모든 정보를 다 섞어서 분석하지만, DriveTok 은 **"이 카메라에서 이 부분이 실제로 보이는가?"**를 먼저 확인합니다.
  • 비유: 회의실에서의 토론을 생각해 보세요. 회의실 한구석에 있는 사람 (Scene Token) 이 다른 쪽에 있는 사람 (View Token) 과 대화할 때, 벽에 가려져 보이지 않는다면 대화하지 않습니다. DriveTok 은 이렇게 물리적으로 보이는 부분만 서로 연결하여, 엉뚱한 정보 (예: 뒤에 있는 나무를 앞의 차라고 오해하는 것) 가 섞이는 것을 막습니다.

3. 한 번에 여러 가지 일을 하는 다재다능한 뇌 (Unified Training)

DriveTok 은 한 번에 여러 가지 일을 배우도록 훈련됩니다.

  1. 이미지 복원: 원래 사진을 다시 그려내는 능력.
  2. 깊이 예측: 사물이 얼마나 멀리 있는지 계산하는 능력.
  3. 의미 이해: "이건 차, 저건 사람"이라고 분류하는 능력.
  4. 3D 공간 채우기: 주변 공간이 빈 공간인지, 장애물이 있는지 3D 로 채워 넣는 능력.

이 모든 것을 동시에 배우기 때문에, DriveTok 이 만든 Scene Tokens는 **텍스처 (색깔/무늬), 기하학 (모양/위치), 의미 (무엇인지)**를 모두 완벽하게 담고 있는 만능 데이터가 됩니다.


🌟 왜 이것이 중요한가요?

기존 방식은 자율주행차가 "무엇이 있는지"만 파악하는 데 그쳤다면, DriveTok 은 **"세상이 어떻게 생겼고, 앞으로 어떻게 변할지"**를 이해할 수 있는 토대를 마련합니다.

  • 효율성: 카메라가 6 개든 10 개든, 해상도가 높든 낮든 **항상 같은 수의 'Scene Tokens'**만 만들어냅니다. 이는 자율주행 시스템이 어떤 차종이나 카메라 설정에도 유연하게 적응할 수 있게 합니다.
  • 일관성: 서로 다른 각도에서 본 같은 물체가 서로 다른 모습으로 인식되는 실수를 줄여줍니다.
  • 미래 지향성: 이 'Scene Tokens'는 향후 **자율주행용 세계 모델 (World Models)**이나 생성형 AI의 입력값으로 쓰일 수 있습니다. 즉, 자율주행차가 "만약 저 차가 갑자기 튀어나오면 어떻게 될까?"라고 상상하거나, 복잡한 상황을 추론하는 고급 두뇌로 활용될 수 있습니다.

📝 한 줄 요약

DriveTok은 자율주행차가 여러 카메라로 보는 복잡한 세상을, **하나의 통합된 3D 기억 (Scene Tokens)**으로 압축하여, 색깔, 모양, 의미, 위치를 모두 완벽하게 이해할 수 있게 해주는 **차세대 자율주행의 '눈과 뇌'**입니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →