HorizonForge: Driving Scene Editing with Any Trajectories and Any Vehicles

이 논문은 Gaussian Splats 와 Mesh 를 결합한 3D 표현과 비디오 확산 모델을 활용하여, 다양한 궤적과 차량을 자유롭게 편집하면서도 높은 사실감과 일관성을 유지하는 자율주행 시뮬레이션 프레임워크 'HorizonForge'를 제안합니다.

Yifan Wang, Francesco Pittaluga, Zaid Tasneem, Chenyu You, Manmohan Chandraker, Ziyu Jiang

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

호라이즌포지 (HorizonForge): 자율주행 시뮬레이터의 '마법 지팡이'

이 논문은 자율주행 자동차를 훈련시키기 위해 필요한 '가상의 도로 상황'을 마음대로 만들어주는 새로운 기술을 소개합니다. 기존에는 드문 사고 상황이나 위험한 상황을 실제로 촬영하거나, 복잡한 3D 모델을 일일이 수정하는 데 엄청난 시간과 비용이 들었습니다. 하지만 이 기술은 마치 레고 블록을 조립하거나, 사진 편집 프로그램에서 배경을 바꿀 때처럼 Driving Scene(주행 장면) 을 자유롭게 편집할 수 있게 해줍니다.

이 기술을 쉽게 이해할 수 있도록 몇 가지 비유로 설명해 드리겠습니다.


1. 핵심 아이디어: "현실 같은 3D 레고와 시간의 마법"

이 기술은 크게 두 가지 핵심 장치를 사용합니다.

① 3D 레고 (Gaussian Splats & Meshes)

기존의 3D 모델링은 마치 거친 점토로 조각한 것처럼, 모양을 바꾸면 깨지거나 뭉개지기 쉽습니다. 하지만 이 기술은 **'반짝이는 3D 구슬 (가우시안 스플래트)'**과 **'정교한 3D 레고 (메쉬)'**를 사용합니다.

  • 비유: 기존 방법은 거친 점토로 만든 인형을 움직이다가 모양이 망가질까 봐 걱정하는 것과 같습니다. 반면, 이 기술은 완벽하게 조립된 레고 인형을 가지고 있습니다. 레고 인형의 팔을 떼어내거나, 새로운 레고 자동차를 끼워 넣어도 모양이 뭉개지지 않고 아주 깔끔하게 유지됩니다.
  • 효과: 차를 다른 길로 돌리거나, 갑자기 새로운 차를 끼워 넣어도 배경이나 다른 차들이 뭉개지지 않고 자연스럽게 유지됩니다.

② 시간의 마법 (Video Diffusion)

단순히 3D 모델을 움직여 영상을 만들면, 화면이 깜빡이거나 찌그러지는 '아티팩트 (오류)'가 생기기 쉽습니다. 이를 해결하기 위해 **'시간을 이해하는 마법사 (비디오 확산 모델)'**를 투입합니다.

  • 비유: 3D 레고를 움직여 영상을 만들면, 한 프레임은 맑고 다음 프레임은 흐릿하게 깜빡일 수 있습니다. 이 기술은 영화를 만드는 감독처럼, 한 장의 그림이 아니라 연속된 영화를 보며 "이 장면이 다음 장면으로 자연스럽게 이어지려면 어떻게 움직여야 할지" 계산합니다.
  • 효과: 차가 급정거하거나 방향을 틀 때, 화면이 끊기거나 흔들리지 않고 영화처럼 매끄럽고 리얼하게 보입니다.

2. 이 기술로 무엇을 할 수 있나요?

이 시스템은 **자연어 (말)**로 명령을 내리면 됩니다.

  • 상황 1: "내 차가 오른쪽으로 꺾어."
    • 기존 영상에서 내 차 (Ego car) 의 궤적을 수정하면, 차가 자연스럽게 우회전하는 새로운 영상이 만들어집니다.
  • 상황 2: "앞에 회색 세단 한 대를 끼워 넣으세요."
    • "회색 세단"이라고 말만 하면, 시스템이 3D 모델을 만들어서 지정된 위치에 차를 끼워 넣습니다. 마치 게임에서 캐릭터를 소환하듯 쉽습니다.
  • 상황 3: "갑자기 앞차가 급정거해."
    • 안전을 위해 자주 발생하지 않는 '긴급 상황'을 인위적으로 만들어내어, 자율주행 AI 가 어떻게 반응하는지 훈련시킬 수 있습니다.

3. 왜 이 기술이 중요한가요? (실제 효과)

자율주행은 **'드문 사건 (Long-tail scenarios)'**을 겪지 않으면 안전을 보장할 수 없습니다. 하지만 실제 도로에서 "갑자기 아이가 뛰쳐나오는 상황"이나 "폭주하는 차"를 수십 번 찍는 것은 불가능에 가깝습니다.

  • 기존 방식: 실제 데이터를 모으느라 몇 년이 걸리거나, 3D 모델을 일일이 수정하느라 비용이 천문학적으로 듭니다.
  • 호라이즌포지 방식: 한 번만 학습하면, 어떤 상황 (차량 추가, 제거, 경로 변경) 이든 순간적으로 만들어냅니다.
    • 결과: 다른 최신 기술들보다 83.4% 더 높은 사용자 선호도를 얻었으며, 영상의 선명도와 자연스러움도 압도적으로 뛰어납니다.

4. 요약: 이 기술이 가져오는 변화

이 기술은 자율주행 개발자에게 **"무한한 연습장"**을 제공합니다.

"마치 게임 개발자가 레벨 디자인을 하듯, 자율주행 엔지니어는 이제 말 한마디로 어떤 위험한 상황이라도 만들어내어 AI 를 훈련시킬 수 있게 되었습니다."

이 기술은 **3D 레고 (정교한 구조)**와 **시간의 마법 (자연스러운 움직임)**을 결합하여, 더 안전하고 현실적인 자율주행 시대를 앞당기는 핵심 열쇠가 될 것입니다.