Each language version is independently generated for its own context, not a direct translation.

🚗 레이노바 (RAYNOVA): 현실을 그대로 모방하는 '예측 천재' AI

이 논문은 자율주행과 같은 복잡한 세상을 이해하고, 그 미래를 예측하는 새로운 AI 모델인 **'레이노바 (RAYNOVA)'**를 소개합니다. 기존 방식들이 가진 한계를 깨고, 마치 현실 세계를 직접 경험하듯 자연스럽게 영상을 만들어내는 기술을 개발했습니다.

이 기술을 쉽게 이해할 수 있도록 몇 가지 비유로 설명해 드릴게요.

1. 기존 방식의 문제점: "별개로 생각했던 시간과 공간"

기존의 세계 모델들은 **공간 (장면)**과 **시간 (흐름)**을 따로따로 생각했습니다.

공간: 여러 카메라가 찍은 사진을 따로따로 분석하거나, 3D 점 (Point Cloud) 같은 복잡한 지도를 먼저 그려야 했습니다. (마치 퍼즐을 맞추기 위해 먼저 그림을 다 그려야 하는 것과 같습니다.)
시간: 같은 카메라가 찍은 영상만 이어 붙이는 방식이었습니다.

문제점: 만약 카메라 위치를 바꾸거나, 차가 급격히 방향을 틀면 기존 모델들은 당황해서 엉뚱한 영상을 만들어냈습니다. 마치 "오른쪽에서 찍은 사진은 왼쪽에서 찍은 사진과 전혀 상관없다"고 생각해서, 차가 돌아갈 때 배경이 뚝 끊기는 현상이 발생한 것입니다.

2. 레이노바의 핵심 아이디어: "빛의 길 (Ray) 을 따라가는 통일된 세계"

레이노바는 **공간과 시간을 하나로 묶은 '4 차원 세계'**를 상상합니다. 그리고 이를 위해 **'빛의 길 (Ray)'**이라는 개념을 사용합니다.

비유: "우주선 조종사"
기존 모델들이 지상에서 지도를 보고 길을 찾았다면, 레이노바는 우주선 조종사처럼 모든 카메라와 모든 시간을 하나의 '빛의 흐름'으로 봅니다.
- 카메라가 어디에 있든, 시간이 어떻게 흘러가든, **"이 빛이 어디에서 왔고 어디로 가는가?"**만 보면 됩니다.
- 절대적인 위치 (좌표) 를 외우는 게 아니라, 상대적인 관계만 기억합니다. 그래서 카메라를 갑자기 돌려도, 비가 오거나 밤이 되어도 자연스럽게 적응합니다.

3. 두 가지 예측 전략: "확대경과 타임머신"

레이노바는 영상을 만들 때 두 가지 순서를 따릅니다.

크기 순서 (Scale-wise): "확대경으로 자세히 보기"
- 먼저 전체적인 그림 (흐릿한 스케치) 을 그리고, 점점 확대해서 세부적인 디테일 (나무 잎사귀, 도로 표시) 을 채워 넣습니다.
- 마치 스케치북에 먼저 대략적인 윤곽을 그리고, 나중에 색칠을 하듯 거시에서 미시로 나아가는 방식입니다.
시간 순서 (Temporal): "타임머신으로 미래 보기"
- 과거의 모든 장면 (여러 카메라, 여러 시간) 을 기억하면서 다음 순간을 예측합니다.
- 단순히 "이전 프레임의 다음"만 보는 게 아니라, 전체 4 차원 공간에서 자연스럽게 이어지는 미래를 상상합니다.

4. 왜 이것이 특별한가요? (기존 기술과의 차이)

🚫 3D 지도가 필요 없습니다:
기존에는 3D 점이나 복잡한 지도 데이터를 미리 준비해야 했지만, 레이노바는 지도 없이도 빛의 흐름만으로도 3D 공간을 완벽하게 이해합니다. 마치 눈을 감고도 손끝으로 물체의 모양을 느끼는 것과 같습니다.
🔄 어떤 카메라 설정에서도 작동합니다:
훈련할 때 본 적이 없는 카메라 배치나, 갑자기 카메라를 회전시켜도 **0-shot(한 번도 본 적 없는 상황)**으로 자연스럽게 영상을 만들어냅니다.
⏳ 긴 영상도 흐트러짐 없이:
긴 영상을 만들 때 앞부분과 뒷부분이 달라지는 문제 (분포 드리프트) 가 있었는데, 레이노바는 **재귀적 학습 (Recurrent Training)**이라는 기술을 써서, 마치 긴 이야기를 할 때 앞뒤 문맥을 잊지 않고 자연스럽게 이어지게 합니다.

5. 실제 효과: "현실과 구별 불가능한 가상 세계"

이 모델은 nuScenes라는 실제 자율주행 데이터로 훈련되었습니다.

화질: 기존 모델들보다 훨씬 선명하고 자연스럽습니다.
속도: 기존 방식보다 훨씬 빠르게 영상을 생성합니다.
제어: "비가 오게 해줘", "차가 왼쪽으로 돌아줘", "지도에 특정 건물을 추가해줘" 같은 명령을 내리면, 그 조건에 맞춰 영상을 완벽하게 만들어냅니다.
새로운 뷰: 훈련 데이터에 없던 카메라 위치에서도 새로운 장면을 합성할 수 있습니다.

🌟 결론: "세상을 이해하는 새로운 눈"

레이노바는 단순히 영상을 만드는 AI 가 아니라, **물리 법칙을 따르는 현실 세계를 시뮬레이션하는 '세계 모델 (World Model)'**입니다.

마치 유능한 예지몽을 가진 친구처럼, "지금 이 상황에서 차가 어떻게 움직이고, 주변은 어떻게 변할지"를 공간과 시간을 구분하지 않고 자연스럽게 예측해냅니다. 이 기술은 자율주행차의 안전성을 높이고, 영화나 게임 같은 엔터테인먼트 분야에서 더 현실적인 가상 세계를 만드는 데 큰 역할을 할 것입니다.

한 줄 요약:

"레이노바는 복잡한 3D 지도 없이, 빛의 흐름과 시간의 흐름을 하나로 묶어 현실처럼 자연스러운 미래를 예측하는 AI 입니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

자율주행 및 물리 기반 시뮬레이션을 위한 월드 파운데이션 모델 (World Foundation Models, WFMs) 은 실제 세계의 진화를 물리적으로 타당한 방식으로 시뮬레이션하는 것을 목표로 합니다. 그러나 기존 방법론들은 다음과 같은 한계를 가지고 있었습니다:

공간 및 시간 상관관계의 분리: 기존 모델들은 공간적 (다중 뷰) 과 시간적 (프레임 간) 상관관계를 별도로 처리하거나, 강한 3D 기하학적 사전 지식 (Point Cloud, BEV 등) 에 의존했습니다. 이는 모델이 훈련 데이터의 분포를 벗어난 새로운 센서 구성이나 복잡한 카메라 운동 (Ego-motion) 에 일반화되는 것을 방해합니다.
기하학적 편향 (Inductive Bias): 명시적인 3D 장면 표현을 강제하는 방식은 훈련된 도메인 밖의 개방형 환경 (Open-world) 으로의 확장을 제한합니다.
장기 비디오 생성의 분포 드리프트: autoregressive(자기회귀) 방식으로 긴 비디오를 생성할 때, 훈련과 추론 간의 분포 차이로 인해 오류가 누적되는 문제가 발생합니다.

2. 방법론 (Methodology)

저자들은 RAYNOVA라는 새로운 월드 파운데이션 모델을 제안하며, 이는 이중 인과적 자기회귀 (Dual-Causal Autoregressive) 프레임워크와 레이 (Ray) 공간 기반의 등방성 (Isotropic) 표현을 핵심으로 합니다.

가. 이중 인과적 자기회귀 (Dual-Causal Autoregression)

RAYNOVA 는 이미지 생성의 '다음 토큰 예측'을 넘어 '다음 스케일 예측 (Next-Scale Prediction)' 전략을 다중 뷰 비디오 생성에 적용합니다.

스케일 인과성 (Scale Causality): 이미지가 토크나이저를 통해 여러 스케일 ( $k=1 \dots K$ ) 의 토큰 맵으로 양자화됩니다. 모델은 낮은 해상도 ( coarse) 에서 높은 해상도 (fine) 로 순차적으로 토큰을 생성합니다.
시간 인과성 (Temporal Causality): 각 프레임은 과거의 모든 뷰 (다중 카메라) 정보를 조건으로 합니다. 특정 카메라 간의 강한 의존성을 가정하지 않고, 모든 과거 뷰를 활용하여 현재 프레임의 다중 뷰를 생성합니다.
결합: 스케일과 시간의 두 가지 인과적 순서를 따르는 결합된 확률 분포를 학습합니다.

나. 등방성 시공간 표현 (Isotropic Spatio-Temporal Representation)

기존의 절대적 좌표나 3D 구조에 의존하지 않기 위해 상대적 플뤼커 레이 (Relative Plücker-ray) 인코딩을 도입했습니다.

레이 공간 (Ray Space): 모든 시각 토큰을 카메라의 광선 (Ray) 공간에서 표현합니다.
상대적 위치 인코딩: 절대적인 3D 좌표 대신, 카메라 광선 간의 상대적 위치를 기반으로 Rotary Position Embedding (RoPE) 을 확장하여 7 차원 (Plücker ray + 시간) 공간에 적용합니다.
효과: 이는 카메라 설정, 운동 패턴, 뷰 중첩 여부에 의존하지 않는 등방성 (Isotropic) 표현을 가능하게 하여, 훈련 데이터의 범위를 벗어난 새로운 뷰나 카메라 구성에도 일반화 (Zero-shot) 될 수 있게 합니다.

다. 재귀적 훈련 (Recurrent Training)

장기 비디오 생성 시 발생하는 분포 드리프트 (Distribution Drift) 를 해결하기 위해 재귀적 훈련 패러다임을 도입했습니다.

훈련 시 과거 프레임의 잠재 특징 (Latent Features) 을 캐싱하여 다음 프레임의 조건으로 사용합니다.
추론 시 발생할 수 있는 예측 오류를 시뮬레이션하기 위해 훈련 중 시각 토큰에 무작위 비트 오류 (Random Bitwise Error) 를 주입하여 훈련과 추론의 분포를 정렬합니다.

3. 주요 기여 (Key Contributions)

범용 월드 파운데이션 모델: 단일 모델로 다양한 입력 조건 (텍스트, 객체, 지도, 이미지) 과 출력 형식 (다양한 뷰, 해상도, 프레임률) 을 지원합니다.
기하학적 편향 제거 (Geometry-Agnostic): 명시적인 3D 표현 (Point Cloud, Depth 등) 이나 수작업 기하학적 편향 없이, 상대적 레이 인코딩을 통해 강력한 시공간 일관성을 달성했습니다.
확장 가능한 데이터 기반 프레임워크: 다양한 센서 구성과 이질적인 데이터 소스를 직접 학습할 수 있으며, 추가적인 지도 (Depth, Flow) 감독이 필요 없습니다.
효율적이고 제어 가능한 생성: 자기회귀 구조를 활용하여 확산 모델 (Diffusion) 대비 높은 처리량 (Throughput) 을 제공하며, 다양한 조건 하에서 높은 충실도 (Fidelity) 를 보입니다.

4. 실험 결과 (Results)

데이터셋: nuScenes 와 nuPlan 데이터를 기반으로 훈련 및 평가 수행.
성능 (Video Generation):
- FID/FVD: 기존 최첨단 모델 (MagicDrive, Panacea, X-Drive 등) 보다 훨씬 낮은 FID(10.5) 와 FVD(91) 를 기록하여 이미지 품질과 시간적 일관성이 우수함을 입증했습니다.
- 처리량: 확산 모델 대비 약 2 배 이상 빠른 1.96 images/sec 의 처리량을 달성했습니다.
조건 충실도 (Condition Fidelity):
- 객체 (Object) 와 지도 (Map) 조건에 대한 충실도가 매우 높으며, 생성된 비디오를 자율주행 계획기 (Planner) 에 입력했을 때 실제 영상과 유사한 주행 결정 (Motion Planning) 을 내렸습니다.
새로운 뷰 합성 (Novel View Synthesis):
- 훈련 중 보지 못한 카메라 설정 (Waymo Open Dataset 등) 이나 카메라 이동/회전에 대해 Zero-shot 으로 높은 품질의 영상을 생성했습니다.
- 3D 기하학적 사전 지식 없이도 기존 3D 기반 방법들보다 우수한 성능을 보였습니다.

5. 의의 및 의의 (Significance)

RAYNOVA 는 자율주행 시뮬레이션 및 물리 기반 AI 에 중요한 이정표가 되는 연구입니다.

일반화 능력: 특정 센서 설정이나 3D 구조에 종속되지 않는 범용적 (Universal) 인 세계 모델링을 가능하게 하여, 실제 개방형 환경에서의 적용 가능성을 크게 높였습니다.
효율성: 자기회귀 아키텍처를 통해 고품질 비디오 생성을 저지연 (Low-latency) 으로 수행할 수 있어, 실시간 시뮬레이션 및 훈련에 실용적입니다.
미래 지향성: 명시적인 3D 모델링 없이도 물리적으로 타당한 시공간 추론을 가능하게 함으로써, 데이터 기반의 월드 모델링 패러다임을 한 단계 발전시켰습니다.

결론적으로 RAYNOVA 는 스케일과 시간의 이중 인과성과 레이 공간의 상대적 인코딩을 결합하여, 기존 기하학적 편향의 한계를 극복하고 강력하고 유연한 다중 뷰 비디오 생성을 실현한 획기적인 모델입니다.

RAYNOVA: Scale-Temporal Autoregressive World Modeling in Ray Space