Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model

이 논문은 관측 데이터를 8 개의 토큰으로 압축하는 이산 토크나이저 'CompACT'를 제안하여, 기존 세계 모델의 계산 병목 현상을 해결하고 실시간 제어에 실용적인 초고속 계획 능력을 가능하게 합니다.

Dongwon Kim, Gawon Seo, Jinsung Lee, Minsu Cho, Suha Kwak

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🌍 1. 문제점: "너무 많은 메모리"를 쓰는 AI

우리가 길을 찾거나 물건을 잡을 때, 뇌는 주변 모든 픽셀 (색깔, 그림자, 질감 등) 을 완벽하게 기억하지는 않습니다. 대신 "어디에 무엇이 있는지", "어떻게 움직여야 하는지" 같은 핵심 정보만 간추려서 기억하죠.

하지만 최근 AI(세계 모델) 들은 이 일을 할 때, 마치 4K 고화질 사진을 하나하나 저장하듯, 이미지 한 장을 표현하기 위해 **수백 개의 조각 (토큰)**을 사용합니다.

  • 비유: 길을 찾기 위해 지도를 볼 때, "서울역에서 1km 남쪽"이라는 핵심 정보 대신, 모든 건물의 벽돌 색깔과 창문 모양까지 다 그려진 거대한 지도를 펼쳐놓고 계산하는 것과 같습니다.
  • 결과: AI 가 계획을 세우려면 이 거대한 지도를 하나하나 처리해야 하므로, 계산이 너무 느려서 실시간으로 로봇을 조종하거나 자율주행을 할 수 없습니다. (예: 3 분이나 걸림)

💡 2. 해결책: "8 개의 토큰"으로 압축하다 (CompACT)

이 연구팀 (CompACT) 은 **"완벽한 재현보다는 핵심 정보의 압축이 계획에 더 중요하다"**는 가설을 세웠습니다. 그들은 이미지를 단 8 개의 토큰 (약 128 비트) 만으로 압축하는 새로운 방법을 개발했습니다.

🧩 핵심 아이디어 1: "冻结된 지능"을 빌려오다

  • 기존 방식: 이미지를 압축하려면 AI 가 처음부터 끝까지 모든 디테일 (질감, 빛 등) 을 학습해야 합니다.
  • CompACT 방식: 이미 **세상의 의미를 잘 아는 거대 AI(DINOv3)**를 "동결 (Frozen)"시켜서 사용합니다.
    • 비유: 요리할 때, 모든 재료를 처음부터 다 다듬는 대신, 이미 손질된 고급 식자재를 가져와서 요리하는 것과 같습니다.
    • 이 AI 는 이미 "개, 고양이, 건물" 같은 **의미 (Semantic)**를 잘 알고 있으므로, CompACT 는 이 정보를 바탕으로 **오직 계획에 필요한 핵심 정보 (물체의 위치, 관계)**만 8 개의 토큰으로 뽑아냅니다.

🎨 핵심 아이디어 2: "상상력"으로 디테일 채우기

  • 8 개의 토큰만으로는 고화질 이미지를 완벽하게 다시 만들 수 없습니다. (정보량이 너무 적기 때문)
  • 그래서 **생성형 AI(마술사)**를 사용합니다.
    • 비유: 8 개의 토큰은 **"스케치"**입니다. "여기에 개가 있고, 저기에 나무가 있다"는 스케치만 있으면, 마술사 (디코더) 가 그 스케치를 바탕으로 실제 고화질 이미지를 상상해 만들어냅니다.
    • 즉, 핵심은 8 개의 토큰으로 간추리고, 디테일은 필요할 때 AI 가 상상해서 채우는 방식입니다.

🚀 3. 성과: "40 배 빠른" 계획

이 방법을 세계 모델에 적용한 결과 놀라운 변화가 일어났습니다.

  • 속도: 기존 방식 (784 개 토큰 사용) 에 비해 약 40 배 더 빠르게 계획을 세웁니다. (3 분 → 4 초 수준)
  • 정확도: 오히려 더 적은 토큰을 썼는데, 계획의 정확도는 기존 방식과 비슷하거나 더 좋았습니다.
    • 이유: AI 가 불필요한 디테일 (벽돌 무늬, 그림자) 에 신경 쓰지 않고, 어떻게 움직여야 목표에 도달하는지라는 '핵심 논리'에만 집중했기 때문입니다.

🏁 4. 결론: 왜 이것이 중요한가?

이 연구는 **"로봇이나 자율주행차가 실시간으로 세상을 이해하고 행동하려면, 고화질 사진을 다 기억할 필요 없이, 핵심 의미만 간추린 '작은 뇌'가 필요하다"**는 것을 증명했습니다.

  • 한 줄 요약: "세상을 4K 고화질로 다 기억하려 하지 말고, 8 개의 핵심 키워드로 요약해서 빠르게 생각하게 하라."
  • 미래: 이제 AI 가 실시간으로 복잡한 미로를 찾거나, 로봇이 정교한 물건을 잡는 등 실제 현실 세계에서 즉시 작동하는 AI를 만드는 것이 훨씬 가까워졌습니다.

요약하자면:
이 논문은 AI 가 세상을 볼 때, 불필요한 디테일을 버리고 핵심 의미만 8 개의 토큰으로 압축하는 새로운 방법을 개발했습니다. 덕분에 AI 는 40 배 더 빠르게 미래를 예측하고 계획을 세울 수 있게 되었고, 이제야 비로소 로봇이 실시간으로 우리와 함께 살 수 있는 길이 열렸습니다.