WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching

Each language version is independently generated for its own context, not a direct translation.

세상 캐시 (WorldCache): 인공지능의 '세계 시뮬레이션' 속도를 3.7 배로 높이는 마법 같은 기술

이 논문은 인공지능이 가상의 세계를 만들어내는 과정 (World Models) 을 훨씬 더 빠르고 효율적으로 만드는 새로운 기술을 소개합니다. 마치 무거운 짐을 나르는 트럭이, 짐의 특성에 따라 적재적소에 다른 방법을 써서 속도를 내는 것과 비슷합니다.

이해하기 쉽게 비유를 들어 설명해 드릴게요.

1. 문제: 왜 인공지능은 느릴까요? (무거운 짐을 나르는 트럭)

최근 인공지능은 텍스트나 이미지를 보고 가상의 세계를 상상하며, 그 세계가 어떻게 변할지 예측하는 '세계 모델'을 만들 수 있습니다. 하지만 이 과정은 매우 느리고 비쌉니다.

비유: imagine 하세요. 한 트럭이 100 개의 상자를 나르고 있다고 합시다. 이 트럭은 상자를 하나씩 내려놓고 다시 싣는 과정을 50 번이나 반복해야만 목적지에 도착합니다.
현실: 인공지능은 매번 모든 상자를 다시 계산해야 하므로 시간이 너무 오래 걸립니다.

2. 기존 해결책의 한계: "모두 똑같이 처리하면 안 돼요!"

기존에는 "아까 계산했던 걸 다시 쓰자 (캐싱)"는 아이디어가 있었습니다. 하지만 이 방법은 단일한 규칙을 적용했습니다.

비유: 트럭의 모든 상자가 똑같다고 가정하고, "모든 상자는 그냥 다시 싣지 말고 그대로 두자"라고 했습니다.
문제: 그런데 상자는 다릅니다.
- 안정된 상자: 배경의 하늘처럼 거의 변하지 않는 것들 (재사용해도 OK).
- 변덕스러운 상자: 움직이는 자동차나 물체처럼 갑자기 방향이 바뀌는 것들 (재사용하면 엉망이 됨).
- 결과: 변덕스러운 상자를 그대로 두니 세계가 뒤틀리고 (Drift), 안정된 상자까지 다시 계산하니 속도가 느려집니다.

3. WorldCache 의 해법: "상자마다 다른 전략을 쓰자!"

이 논문이 제안한 WorldCache는 상자의 특성을 보고 세 가지 전략을 다르게 적용합니다.

① 곡률 (Curvature) 로 상자 분류하기

인공지능은 각 상자가 얼마나 '급격하게' 변하는지 **곡률 (Curvature)**이라는 지표를 측정합니다.

안정된 상자 (Stable): 하늘, 벽처럼 거의 변하지 않음. → 전략: 그냥 가져가라 (Reuse). 아까 계산한 걸 그대로 쓰면 됩니다.
부드러운 상자 (Linear): 천천히 움직이는 구름처럼 선형적으로 변함. → 전략: 예측해서 가져가라 (Linear Extrapolation). "다음엔 이렇게 변할 거야"라고 간단히 계산하면 됩니다.
혼란스러운 상자 (Chaotic): 갑자기 튀어나온 자동차처럼 방향이 급변함. → 전략: 조심스럽게 다듬어라 (Damped Update). 그냥 예측하면 틀리니, 과거의 데이터를 섞어서 부드럽게 보정합니다.

② '혼란스러운 상자'만 감시하기 (Chaotic-prioritized Skipping)

가장 중요한 점은 어느 시점에 다시 계산을 시작할지 결정하는 것입니다.

기존 방식: "전체 상자의 평균 변화량이 크면 다시 계산하자." → 하지만 대부분의 상자는 안정적이어서 평균이 작게 나옵니다. 중요한 변화 (혼란스러운 상자) 를 놓칩니다.
WorldCache 방식: "가장 변덕스러운 상자 (Chaotic Tokens) 만 집중 감시하자."
- 비유: 트럭 운전사가 "전체 짐의 무게가 변했나?"보다 **"가장 흔들리는 그 붉은 상자만 보고, 그 상자가 너무 흔들리면 멈춘다"**는 식입니다.
- 이 상자가 흔들리기 시작하면, 그때서야 비로소 무거운 계산을 다시 수행합니다.

4. 결과: "무료"로 얻은 엄청난 속도 향상

이 기술을 적용한 결과 놀라운 성과가 나왔습니다.

속도: 기존 방식보다 최대 3.7 배 빨라졌습니다. (예: 1054 초 걸리던 게 289 초로 단축)
품질: 속도가 빨라졌지만, 만들어낸 세계의 화질이나 3D 구조는 거의 변하지 않았습니다 (98% 유지).
비용: 별도의 추가 학습 없이, 기존 모델을 바로 적용할 수 있어 비용이 들지 않습니다 (Free).

5. 요약: 왜 이것이 중요한가요?

이 기술은 인공지능이 가상의 세계를 실시간으로 체험하거나, 로봇이 미래를 상상하며 행동을 결정할 때 필수적입니다.

기존: "천천히, 하지만 정확하게." (실시간 사용 불가)
WorldCache: "빠르게, 그리고 정확하게." (실시간 상호작용 가능)

마치 현명한 트럭 기사가 짐의 성격을 파악해, 변하지 않는 짐은 그냥 두고, 변하는 짐만 신경 쓰며 목적지에 빠르게 도착하는 것과 같습니다. 이 기술 덕분에 우리는 앞으로 더 빠르고 자연스러운 AI 가상 세계를 경험하게 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

확산 기반의 월드 모델 (World Models) 은 환경의 시공간 역학을 포착하여 장기적인 계획, 의사결정, 상호작용 에이전트를 위한 가상 환경을 생성하는 데 강력한 잠재력을 보여주고 있습니다. 그러나 이러한 모델은 반복적인 디노이징 (denoising) 과정과 백본 네트워크의 반복적인 평가로 인해 추론 비용이 매우 높습니다.

기존의 특성 캐싱 (Feature Caching) 기법들은 단일 모달리티 (이미지/비디오) 확산 모델에서는 효과적이었으나, 월드 모델에 직접 적용할 경우 다음과 같은 두 가지 고유한 장애물로 인해 실패하거나 불안정해집니다.

이질적인 토큰 진화 (Token Heterogeneity): 월드 모델은 RGB(외관) 와 깊이 (기하학) 등 서로 다른 물리적 요인과 공간적 파생물을 결합합니다. 이로 인해 토큰의 예측 가능성에 편차가 큽니다. 대부분의 토큰은 부드럽게 진화하지만, 소수의 토큰 (모션 경계, 깊이 불연속성 등) 은 급격한 비선형 변화를 보입니다. 기존의 균일한 캐싱 규칙은 쉬운 토큰에 자원을 낭비하거나, 어려운 토큰을 처리하지 못해 전체적인 드리프트 (drift) 를 유발합니다.
비정상적인 시간적 역학 (Non-stationary Temporal Dynamics): 디노이징 과정은 시간에 따라 난이도가 일정하지 않습니다. 부드러운 구간과 급격한 비선형 구간이 교차하며, 오류는 평균적인 특성 변화가 아닌 소수의 '어려운 (hard)' 토큰이 예측 불가능해질 때 발생합니다. 고정된 스킵 스케줄은 이러한 임계점을 놓치거나, 반대로 쉬운 토큰의 benign 한 변화에 과도하게 반응합니다.

2. 방법론 (Methodology)

저자들은 WorldCache라는 훈련이 필요 없는 (training-free) 가속화 프레임워크를 제안합니다. 이는 이질적인 토큰 캐싱을 통해 확산 월드 모델의 추론 속도를 높이는 데 중점을 둡니다.

A. 곡률 기반 이질적 토큰 예측 (Curvature-guided Heterogeneous Token Prediction, CHTP)

각 토큰의 예측 난이도를 물리학적 곡률 (Curvature) 점수로 추정하고, 토큰의 특성에 따라 다른 예측 규칙을 적용합니다.

곡률 점수 ( $\kappa$ ): 토큰의 시간적 궤적의 국소적 비선형성을 측정합니다. 속도 (velocity) 와 가속도 (acceleration) 를 기반으로 계산되며, 토큰이 얼마나 급격히 방향을 바꾸는지 나타냅니다.
토큰 그룹화: 곡률 분포에 따라 토큰을 세 그룹으로 나눕니다.
- Stable (안정적): 곡률이 낮음 $\rightarrow$ 직접 재사용 (Direct Reuse)
- Linear (선형적): 곡률이 중간 $\rightarrow$ 1 차 외삽 (Linear Extrapolation)
- Chaotic (혼란적): 곡률이 높음 $\rightarrow$ 감쇠 업데이트 (Damped Update)
혼란 토큰용 감쇠 업데이트: 혼란스러운 토큰은 1 차 외삽만으로는 드리프트가 심해집니다. 이를 해결하기 위해 최근 두 개의 속도를 3 차 Hermite 다항식 (smoothstep) 을 사용하여 가중치로 혼합하는 감쇠 예측기를 도입하여 예측을 안정화합니다.

B. 혼란 우선 적응형 스킵 (Chaotic-prioritized Adaptive Skipping, CAS)

언제 백본 네트워크 (FULL computation) 를 다시 실행해야 할지 결정하는 메커니즘입니다.

무차원 드리프트 지표 (Dimensionless Drift Indicator): 토큰과 시간 단계에 따른 특성 크기의 차이를 보정하기 위해 곡률 ( $\kappa$ ) 로 특성 편차 ( $\Delta y$ ) 를 정규화합니다. ( $E = \kappa \cdot \|\Delta y\|$ ). 이는 스케일에 의존하지 않는 통일된 불확실성 점수를 제공합니다.
혼란 토큰 우선 모니터링: 전체 평균이 아닌, 혼란 (Chaotic) 토큰 그룹의 누적 드리프트 ( $E_{acc}$ ) 만을 모니터링합니다.
트리거: 누적된 드리프트가 임계값 ( $\eta$ ) 을 초과하면 즉시 FULL 계산을 수행하여 드리프트가 발생하기 전에 시스템을 리셋합니다.

3. 주요 기여 (Key Contributions)

월드 모델 특유의 문제 식별: 멀티모달 이질성으로 인한 긴 꼬리 (long-tailed) 토큰 예측 난이도와, 병목 토큰이 실패를 주도하는 비정상적 시간적 역학을 최초로 명확히 규명했습니다.
곡률 기반 이질적 토큰 예측 (CHTP): 궤적의 비선형성에 따라 토큰별 예측 전략 (재사용, 외삽, 감쇠 업데이트) 을 동적으로 할당하는 새로운 방식을 제안했습니다.
혼란 우선 적응형 스킵 (CAS): 곡률로 유도된 무차원 드리프트 점수를 사용하여, 다양한 토큰 스케일과 시간 단계에서 일관된 임계값으로 안정적인 캐싱 결정을 내리는 전략을 개발했습니다.
성능 입증: 다양한 확산 월드 모델에서 기존 방법론을 압도하는 결과를 보여주었습니다.

4. 실험 결과 (Results)

논문은 HunyuanVoyager-13B와 Aether-5B 두 가지 최신 멀티모달 확산 월드 모델에서 WorldCache 를 평가했습니다.

가속도 (Speedup):
- Voyager-13B: 약 3.65 배 ~ 3.7 배의 엔드 - 투 - 엔드 속도 향상 (1054 초 $\rightarrow$ 289 초).
- Aether-5B: 약 1.68 배 ~ 2.61 배의 속도 향상 (55.4 초 $\rightarrow$ 21.2 초).
품질 유지 (Quality):
- WorldScore: Voyager 에서 45.43 (Baseline 46.40 대비 98% 수준), Aether 에서 44.72 (Baseline 45.22 대비) 로 기존 가속화 방법들 (EasyCache, TeaCache 등) 보다 우수한 품질을 유지했습니다.
- 시각적 품질: PSNR, SSIM, LPIPS 등 지각적 지표에서 기존 방법들보다 훨씬 높은 정확도를 보였으며, 특히 경계면과 깊이 정보에서 드리프트가 거의 발생하지 않았습니다.
메모리 오버헤드: 추가적인 메모리 사용량이 거의 없으며 (Baseline 대비 50.58GB vs 50.44GB), 레이어 단위 캐싱 방법들 (100GB 이상 필요) 과 달리 단일 GPU 에서 실행 가능합니다.
3D 재구성: 깊이 추정 및 카메라 포즈 추정에서도 Baseline 과 유사한 정확도를 유지하면서 가장 빠른 속도를 기록했습니다.

5. 의의 및 결론 (Significance)

WorldCache 는 훈련 비용 없이 복잡한 멀티모달 월드 모델의 추론 비용을 획기적으로 줄일 수 있음을 입증했습니다. 기존 확산 모델 가속화 기법들이 단일 모달리티의 균일한 가정을 기반으로 한 반면, WorldCache 는 멀티모달 이질성과 비선형 시간 역학을 고려하여 설계되었습니다.

이 연구는 제한된 컴퓨팅 자원 환경에서도 고품질의 상호작용 가능한 가상 환경 시뮬레이션을 가능하게 하여, 자율 주행, 로봇 제어, 게임 개발 등 실시간 월드 모델 응용 분야의 실용성을 크게 높인다는 점에서 중요한 의의를 가집니다. 또한, "어려운 토큰"에 집중하여 리소스를 할당하는 전략은 향후 효율적인 생성 모델 설계에 중요한 통찰을 제공합니다.