Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model

Each language version is independently generated for its own context, not a direct translation.

🌍 1. 문제점: "너무 많은 메모리"를 쓰는 AI

우리가 길을 찾거나 물건을 잡을 때, 뇌는 주변 모든 픽셀 (색깔, 그림자, 질감 등) 을 완벽하게 기억하지는 않습니다. 대신 "어디에 무엇이 있는지", "어떻게 움직여야 하는지" 같은 핵심 정보만 간추려서 기억하죠.

하지만 최근 AI(세계 모델) 들은 이 일을 할 때, 마치 4K 고화질 사진을 하나하나 저장하듯, 이미지 한 장을 표현하기 위해 **수백 개의 조각 (토큰)**을 사용합니다.

비유: 길을 찾기 위해 지도를 볼 때, "서울역에서 1km 남쪽"이라는 핵심 정보 대신, 모든 건물의 벽돌 색깔과 창문 모양까지 다 그려진 거대한 지도를 펼쳐놓고 계산하는 것과 같습니다.
결과: AI 가 계획을 세우려면 이 거대한 지도를 하나하나 처리해야 하므로, 계산이 너무 느려서 실시간으로 로봇을 조종하거나 자율주행을 할 수 없습니다. (예: 3 분이나 걸림)

💡 2. 해결책: "8 개의 토큰"으로 압축하다 (CompACT)

이 연구팀 (CompACT) 은 **"완벽한 재현보다는 핵심 정보의 압축이 계획에 더 중요하다"**는 가설을 세웠습니다. 그들은 이미지를 단 8 개의 토큰 (약 128 비트) 만으로 압축하는 새로운 방법을 개발했습니다.

🧩 핵심 아이디어 1: "冻结된 지능"을 빌려오다

기존 방식: 이미지를 압축하려면 AI 가 처음부터 끝까지 모든 디테일 (질감, 빛 등) 을 학습해야 합니다.
CompACT 방식: 이미 **세상의 의미를 잘 아는 거대 AI(DINOv3)**를 "동결 (Frozen)"시켜서 사용합니다.
- 비유: 요리할 때, 모든 재료를 처음부터 다 다듬는 대신, 이미 손질된 고급 식자재를 가져와서 요리하는 것과 같습니다.
- 이 AI 는 이미 "개, 고양이, 건물" 같은 **의미 (Semantic)**를 잘 알고 있으므로, CompACT 는 이 정보를 바탕으로 **오직 계획에 필요한 핵심 정보 (물체의 위치, 관계)**만 8 개의 토큰으로 뽑아냅니다.

🎨 핵심 아이디어 2: "상상력"으로 디테일 채우기

8 개의 토큰만으로는 고화질 이미지를 완벽하게 다시 만들 수 없습니다. (정보량이 너무 적기 때문)
그래서 **생성형 AI(마술사)**를 사용합니다.
- 비유: 8 개의 토큰은 **"스케치"**입니다. "여기에 개가 있고, 저기에 나무가 있다"는 스케치만 있으면, 마술사 (디코더) 가 그 스케치를 바탕으로 실제 고화질 이미지를 상상해 만들어냅니다.
- 즉, 핵심은 8 개의 토큰으로 간추리고, 디테일은 필요할 때 AI 가 상상해서 채우는 방식입니다.

🚀 3. 성과: "40 배 빠른" 계획

이 방법을 세계 모델에 적용한 결과 놀라운 변화가 일어났습니다.

속도: 기존 방식 (784 개 토큰 사용) 에 비해 약 40 배 더 빠르게 계획을 세웁니다. (3 분 → 4 초 수준)
정확도: 오히려 더 적은 토큰을 썼는데, 계획의 정확도는 기존 방식과 비슷하거나 더 좋았습니다.
- 이유: AI 가 불필요한 디테일 (벽돌 무늬, 그림자) 에 신경 쓰지 않고, 어떻게 움직여야 목표에 도달하는지라는 '핵심 논리'에만 집중했기 때문입니다.

🏁 4. 결론: 왜 이것이 중요한가?

이 연구는 **"로봇이나 자율주행차가 실시간으로 세상을 이해하고 행동하려면, 고화질 사진을 다 기억할 필요 없이, 핵심 의미만 간추린 '작은 뇌'가 필요하다"**는 것을 증명했습니다.

한 줄 요약: "세상을 4K 고화질로 다 기억하려 하지 말고, 8 개의 핵심 키워드로 요약해서 빠르게 생각하게 하라."
미래: 이제 AI 가 실시간으로 복잡한 미로를 찾거나, 로봇이 정교한 물건을 잡는 등 실제 현실 세계에서 즉시 작동하는 AI를 만드는 것이 훨씬 가까워졌습니다.

요약하자면:
이 논문은 AI 가 세상을 볼 때, 불필요한 디테일을 버리고 핵심 의미만 8 개의 토큰으로 압축하는 새로운 방법을 개발했습니다. 덕분에 AI 는 40 배 더 빠르게 미래를 예측하고 계획을 세울 수 있게 되었고, 이제야 비로소 로봇이 실시간으로 우리와 함께 살 수 있는 길이 열렸습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

배경: 월드 모델 (World Model) 은 환경의 동역학을 학습하여 에이전트가 행동을 계획하거나 정책을 학습할 수 있도록 미래 상태를 시뮬레이션하는 강력한 프레임워크입니다.
현황 및 한계: 최근 생성 모델 (Generative Models) 의 발전으로 사실적인 이미지/비디오 생성이 가능해졌으나, 이를 **실시간 의사결정 계획 (Decision-time Planning)**에 적용하는 데는 치명적인 병목 현상이 존재합니다.
- 토큰 수의 과다: 기존 토크나이저 (Tokenizer) 는 한 장의 이미지를 수백 개의 잠재 토큰 (Latent Tokens, 예: 784 개) 으로 인코딩합니다.
- 계산 비용: 주의 메커니즘 (Attention) 기반 아키텍처에서 계산 복잡도는 토큰 수의 제곱에 비례하므로, 수백 개의 토큰을 처리하는 계획 과정은 매우 느리고 자원 집약적입니다. (예: 최신 내비게이션 월드 모델은 계획에 3 분 이상 소요)
- 필요 없는 정보: 계획 (Planning) 에는 고수준의 의미론적 정보 (객체 관계, 공간 구조) 가 중요하지만, 기존 모델은 텍스처, 조명, 그림자 등 계획에 불필요한 고주파수 시각적 세부 사항을 보존하려 합니다.

2. 방법론 (Methodology)

저자는 CompACT라는 새로운 이산 (Discrete) 토크나이저를 제안하여 이미지를 **최소 8 개의 토큰 (약 128 비트)**으로 압축하면서도 계획에 필수적인 정보를 보존합니다.

A. 핵심 설계 철학

극단적인 압축과 의미론적 우선순위: 완벽한 이미지 재구성이 아닌, 계획에 필수적인 '의미론적 추상화'에 집중합니다.
이산 잠재 공간 (Discrete Latent Space): 연속적인 잠재 공간 (Diffusion 모델 등) 에서 필요한 수백 단계의 반복적 디노이징 대신, 이산 토큰을 사용하여 단 한 번의 마스킹 해제 (Unmasking) 로 미래를 예측합니다.

B. CompACT 아키텍처

의미론적 인코딩 (Semantic Encoding):
- 프리트레인된 비전 인코더 활용: DINOv3 와 같은 프리트레인된 비전 파운데이션 모델을 동결 (Frozen) 상태로 사용합니다. 이는 저수준의 시각적 세부 사항이 이미 추상화되어 고수준 의미 (객체, 공간 관계) 만 남기 때문입니다.
- 잠재 리샘플러 (Latent Resampler): 학습 가능한 쿼리 토큰을 사용하여 동결된 DINOv3 특징에 크로스 어텐션 (Cross-attention) 을 적용, 의미론적으로 중요한 정보만 8~16 개의 토큰으로 추출합니다.
- 유한 스칼라 양자화 (FSQ): 추출된 특징을 이산 토큰으로 변환합니다.
생성적 디코딩 (Generative Decoding):
- 8~16 개의 토큰만으로 직접 픽셀을 재구성하는 것은 정보 손실로 인해 불가능합니다.
- 조건부 생성 (Conditional Generation): CompACT 의 컴팩트 토큰을 조건 (Condition) 으로 사용하여, 수백 개의 토큰을 사용하는 사전 학습된 타겟 토크나이저 (예: MaskGIT 의 VQGAN) 의 잠재 토큰을 생성합니다.
- 이 과정에서 컴팩트 토큰은 고수준 의미 가이드를 제공하고, 생성 모델은 의미에 부합하는 고주파수 세부 사항 (텍스처 등) 을 합성합니다.

C. 잠재 월드 모델 학습

마스킹 생성 모델링 (Masked Generative Modeling): CompACT 의 잠재 공간에서 미래 상태 $z_{t+1}$ 을 현재 상태 $z_t$ 와 행동 $a_t$ 의 조건 하에 예측합니다.
비자기회귀 (Non-autoregressive) 샘플링: MaskGIT 방식을 채택하여 여러 토큰을 병렬로 예측함으로써 추론 속도를 극대화합니다.

3. 주요 기여 (Key Contributions)

극단적인 압축 비율 달성: 이미지를 8 개 (또는 16 개) 의 이산 토큰으로 인코딩하여 기존 방식 (784 개) 대비 토큰 수를 획기적으로 줄였습니다.
실시간 계획 가능: 압축된 잠재 공간에서 월드 모델을 학습하여, 계획 (Rollout) 시 계산 비용을 수십 배 (약 40 배) 단축하면서도 성능을 유지했습니다.
의미론적 보존과 세부 사항 합성 분리: 인코더는 계획에 필수적인 의미만 보존하고, 디코더는 생성적 과정을 통해 시각적 세부 사항을 합성하는 새로운 패러다임을 제시했습니다.
범용성 검증: 내비게이션 (Navigation) 과 로봇 조작 (Robot Manipulation) 두 가지 다른 도메인에서 유효성을 입증했습니다.

4. 실험 결과 (Results)

A. 재구성 및 토크나이저 성능

재구성 품질: 16 개 토큰 기준, CompACT 는 ImageNet 검증 세트에서 SD-VAE(784 토큰) 와 유사한 재구성 품질 (rFID) 을 보였습니다.
역동적 정보 보존: RoboNet 에서 역동 모델 (Inverse Dynamics Model, IDM) 실험 결과, 16 배 적은 토큰 (16 개 vs 256 개) 으로도 더 높은 행동 예측 정확도 ( $R^2$ ) 를 달성했습니다. 이는 컴팩트 토큰이 행동과 관련된 동적 객체 (엔드 이펙터 등) 의 상태 변화를 더 잘 포착함을 의미합니다.

B. 계획 성능 (Planning Performance)

내비게이션 (RECON 벤치마크):
- 정확도: 784 개 토큰을 사용하는 기존 SOTA 모델 (SD-VAE 기반) 과 유사한 경로 오차 (ATE, RPE) 를 기록했습니다.
- 속도: 계획 지연 시간 (Latency) 에서 약 40 배의 속도 향상을 달성했습니다 (약 178 초 $\to$ 4.8 초).
- FlexTok(16 개 토큰) 보다 CompACT(16 개 토큰) 가 더 높은 정확도를 보이며, 단순 압축이 아닌 의미론적 설계의 중요성을 입증했습니다.
로봇 조작 (RoboNet):
- 행동 조건부 비디오 생성 시, 256 개 토큰 기준 대비 **3 배 낮은 행동 예측 오차 (APE)**를 기록하며, 생성된 비디오에서 엔드 이펙터의 움직임이 행동과 일관성을 유지함을 확인했습니다.

5. 의의 및 결론 (Significance)

실제 배포 가능성: 월드 모델의 계산 병목 현상을 해결하여, 실제 로봇 제어 및 자율 주행과 같이 **실시간 반응성 (Real-time Responsiveness)**이 요구되는 분야에 월드 모델의 적용을 가능하게 합니다.
패러다임 전환: "완벽한 재구성을 위한 고해상도 표현"에서 "계획을 위한 효율적인 의미 추상화"로 월드 모델 설계의 초점을 전환했습니다.
확장성: 컴팩트한 잠재 공간 덕분에 더 큰 규모의 월드 모델을 학습하더라도 계획 효율성을 유지할 수 있음을 보여주었습니다 (Supplementary K).

요약하자면, CompACT 는 불필요한 시각적 세부 사항을 과감히 버리고 계획에 필수적인 의미론적 정보만 8 개의 토큰으로 압축함으로써, 월드 모델 기반 계획의 속도를 획기적으로 개선하면서도 정확도를 유지한 혁신적인 방법론입니다.