DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

이 논문은 자율주행 생성형 월드 모델의 발전을 촉진하기 위해 다양한 평가 데이터셋과 시각적 사실성, 궤적 타당성, 시간적 일관성, 제어 가능성 등을 종합적으로 측정하는 새로운 메트릭을 포함한 포괄적인 벤치마크 'DrivingGen'을 제안합니다.

Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🚗 자율주행차의 '미래 예측 능력'을 시험하는 새로운 시험지: DrivingGen

이 논문은 자율주행차 개발에 혁신을 가져올 수 있는 **'생성형 비디오 세계 모델 (Generative Video World Models)'**이라는 기술을 평가하기 위해 만든 새로운 기준, DrivingGen을 소개합니다.

쉽게 말해, **"자율주행차가 눈앞의 상황을 보고 '앞으로 10 초 뒤에는 세상이 어떻게 변할지' 상상해 내는 능력"**을 테스트하는 거대한 시험지 같은 것입니다.


🌍 왜 이 연구가 필요한가요? (현재의 문제점)

지금까지 자율주행 AI 를 훈련시키려면 실제 도로에서 수만 번을 주행해야 했습니다. 하지만 위험한 상황 (폭우, 눈, 보행자 돌발 행동 등) 을 실제로 경험하기는 어렵고 비용도 많이 듭니다. 그래서 AI 가 가상의 미래를 상상해 내는 '세계 모델'을 만들려고 합니다.

하지만 문제는 이 모델들을 제대로 평가할 방법이 없었다는 것입니다.

  • 기존 평가: "영화가 얼마나 선명한가?" (화질) 만 보았습니다.
  • 실제 필요: "차가 물리 법칙을 무시하고 공중에 뜨지 않는가?", "보행자가 갑자기 사라지지 않는가?", "내가 차를 왼쪽으로 조향하라고 지시했을 때 실제로 왼쪽으로 가나?"를 봐야 합니다.

기존 평가는 마치 **"요리사의 실력을 평가할 때, 음식 맛은 보지 않고 접시만 예쁜지 확인하는 것"**과 같습니다.


🛠️ DrivingGen 이 뭐가 특별한가요?

DrivingGen 은 이 '세계 모델'들을 평가하기 위해 두 가지 핵심 무기를 준비했습니다.

1. 🌦️ 다양한 '날씨와 상황'을 담은 시험지 (데이터셋)

기존 데이터는 대부분 맑은 날, 낮 시간, 도시 도로 위주로 되어 있었습니다. 마치 **"비 오는 날이나 눈 오는 날 운전하는 법을 배운 적이 없는 운전면허 시험"**과 같죠.

  • DrivingGen 의 변화: 비, 눈, 안개, 폭우, 밤, 해질녘, 사막, 유럽/아시아/아메리카 등 전 세계 다양한 도로 상황을 포함했습니다.
  • 비유: 이제 운전면허 시험은 맑은 날뿐만 아니라, 폭우가 쏟아지는 밤길보행자가 갑자기 튀어나오는 복잡한 교차로까지 모두 포함합니다.

2. 📏 4 가지 측면을 보는 '초정밀 자' (평가 지표)

단순히 영상이 예쁜지 아닌지 (화질) 만 보는 게 아니라, 다음 4 가지를 꼼꼼히 체크합니다.

  1. 분포 (Distribution): 생성된 영상이 실제 세상의 흐름과 얼마나 닮았는가? (예: 차가 갑자기 뒤집히지 않는가?)
  2. 품질 (Quality): 영상은 선명한가? (화질) 그리고 자율주행 특화 품질은 괜찮은가? (예: 차 불빛이 깜빡거리지 않는가? 카메라가 흔들리지 않는가?)
  3. 일관성 (Temporal Consistency): 시간이 흐르면서 캐릭터나 사물이 갑자기 변하거나 사라지지 않는가? (예: 앞차가 갑자기 사라지거나, 보행자의 옷 색깔이 바뀌지 않는가?)
  4. 조종성 (Trajectory Alignment): "왼쪽으로 가"라고 지시했을 때, AI 가 상상한 미래가 실제로 왼쪽으로 가는가? (이 부분이 가장 중요합니다. AI 가 엉뚱한 곳으로 차를 몰고 가면 사고가 나니까요.)

🔍 실험 결과: 무엇을 발견했나요?

저희는 최신 AI 모델 14 개를 이 DrivingGen 시험지로 시험시켰습니다. 결과는 매우 흥미로웠습니다.

  • 일반적인 AI (영화/영상 생성 AI): 영상은 정말 아름답고 영화처럼 예쁩니다. 하지만 물리 법칙을 무시합니다. 차가 벽을 통과하거나, 보행자가 갑자기 증발하는 등 엉뚱한 일이 일어납니다.
    • 비유: "화려한 마술사처럼 보이지만, 실제로는 마법 지팡이로 차를 조종할 수 없는 사람."
  • 자율주행 특화 AI: 차의 움직임은 매우 현실적이고 물리 법칙을 잘 따릅니다. 하지만 영상이 조금 투박하고 화질이 떨어집니다.
    • 비유: "실전 운전 실력은 좋지만, 차 안이 좀 지저분하고 시야가 흐릿한 사람."

결론: 아직까지 화질도 좋고, 물리 법칙도 지키며, 내가 지시한 대로 움직이는 완벽한 AI는 없습니다. DrivingGen 은 바로 이 '어디가 부족하고 어디가 잘하는지'를 정확히 알려줍니다.


🚀 이 연구가 가져올 미래

DrivingGen 은 자율주행차 개발자들에게 나침반이 되어줍니다.

  1. 안전한 훈련: 위험한 상황을 실제 도로가 아닌, 이 AI 가 만든 '가상의 미래'에서 수만 번 연습할 수 있습니다.
  2. 신뢰성 확보: AI 가 상상한 미래가 물리적으로 가능하고, 내가 지시한 대로 움직이는지 검증할 수 있습니다.
  3. 빠른 발전: 어떤 모델이 화질은 좋지만 조종은 안 되는지, 어떤 모델은 반대의지 명확히 알 수 있어 연구 방향을 잡기 쉽습니다.

한 줄 요약:

"DrivingGen 은 자율주행 AI 가 '예쁜 꿈'을 꾸는 것을 넘어, '안전하고 현실적인 미래'를 예측할 수 있는지 확인해 주는 최고 수준의 운전면허 시험입니다."