ShareVerse: Multi-Agent Consistent Video Generation for Shared World Modeling

이 논문은 CARLA 시뮬레이션 기반의 대규모 다중 에이전트 상호작용 데이터셋 구축, 4 시점 비디오의 공간적 연결 전략, 그리고 크로스 에이전트 어텐션 블록 통합을 통해 다중 에이전트 간의 상호작용을 지원하고 일관된 공유 세계 모델을 생성하는 'ShareVerse' 프레임워크를 제안합니다.

Jiayi Zhu, Jianing Zhang, Yiying Yang, Wei Cheng, Xiaoyun Yuan

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

공유 우주 (ShareVerse): 여러 명이 함께 보는 같은 세상을 만드는 AI

이 논문은 **"ShareVerse"**라는 새로운 인공지능 시스템을 소개합니다. 쉽게 말해, 이 AI 는 여러 대의 카메라 (또는 로봇, 자동차) 가 동시에 세상을 바라볼 때, 서로 다른 시점에서도 '같은 세상'을 일관되게 만들어주는 기술입니다.

기존의 영상 생성 AI 는 보통 한 사람이 찍은 영상만 만들거나, 여러 각도의 영상이 서로 어긋나는 경우가 많았습니다. 하지만 ShareVerse 는 마치 여러 명이 같은 게임을 할 때, 서로의 위치와 상황을 정확히 공유하듯 여러 주체가 함께 살아가는 '공유된 우주'를 영상으로 구현합니다.

이 기술을 이해하기 위해 세 가지 핵심 아이디어를 일상적인 비유로 설명해 드리겠습니다.


1. 거대한 시뮬레이션 놀이터 (데이터셋)

"실제 도로에서 차를 몰며 영상을 찍는 건 너무 비싸고 위험하죠. 그래서 우리는 '가상 놀이터'를 만들었습니다."

  • 비유: 실제 도로에서 여러 대의 자동차가 서로 만나고 부딪히는 상황을 찍으려면 카메라를 수십 대나 달고, 운전자도 여러 명 필요하고, 날씨가 변할 때마다 다시 찍어야 합니다.
  • ShareVerse 의 방법: 연구팀은 'CARLA'라는 가상 시뮬레이션 게임 엔진을 사용했습니다. 마치 '그랜드 테프트 오토 (GTA)' 같은 게임 안에서, 빨간색 스포츠카 두 대를 조종하며 서로 만나고 회전하는 5 만 5 천 개의 장면을 자동으로 찍었습니다.
  • 특징: 각 차에는 앞, 뒤, 왼쪽, 오른쪽에 카메라가 4 개씩 달려 있어 360 도를 모두 볼 수 있습니다. 이렇게 만들어진 데이터는 비가 오고, 해가 뜨고, 밤이 되는 등 모든 날씨와 상황을 완벽하게 통제할 수 있어 AI 학습에 최적입니다.

2. 네 개의 눈을 하나로 합치기 (공간 연결 전략)

"한 사람이 네 개의 카메라로 세상을 보는 것처럼, AI 도 네 방향을 하나로 묶어 이해합니다."

  • 비유: 당신이 길을 걷고 있을 때, 앞만 보고 있으면 뒤에 누가 오는지 모릅니다. 하지만 앞, 뒤, 좌, 우 네 방향을 동시에 한 화면에 펼쳐서 보면 주변 상황을 한눈에 파악할 수 있죠.
  • ShareVerse 의 방법: 각 차량 (에이전트) 이 찍은 네 개의 영상 (앞/뒤/좌/우) 을 AI 가 하나의 긴 영상처럼 붙여서 (Concatenation) 처리합니다.
  • 효과: 이렇게 하면 AI 는 "이 차가 왼쪽으로 돌아갈 때, 오른쪽의 풍경이 어떻게 변하는지"를 자연스럽게 이해하게 됩니다. 결과적으로 한 차량이 보는 네 방향의 영상이 서로 어긋나지 않고 기하학적으로 완벽하게 일치하게 됩니다.

3. 서로의 눈을 공유하는 마법 (크로스 에이전트 어텐션)

"두 친구가 서로의 안경을 끼고 세상을 본다면, 그들이 보는 세상은 완전히 같아집니다."

  • 비유: 두 친구가 같은 공원에 갔는데, 한 친구는 "저기 큰 나무가 있네!"라고 말하고 다른 친구는 "아니, 나무는 저기 없어!"라고 한다면 그건 문제가 있죠. ShareVerse 는 두 친구가 서로의 시야를 실시간으로 공유하게 합니다.
  • ShareVerse 의 방법: AI 모델 안에 **'크로스 에이전트 어텐션 (Cross-Agent Attention)'**이라는 특별한 장치를 넣었습니다. 이는 두 차량이 서로의 위치와 움직임을 주고받게 해줍니다.
    • 중첩된 영역: 두 차량이 같은 장소를 바라볼 때는 완벽하게 같은 풍경을 만들어냅니다.
    • 서로 다른 영역: 한 차량이 보는 길고, 다른 차량이 보는 길은 다르지만, AI 는 "아, 저 친구가 저쪽으로 갔구나"라고 추론하여 논리적으로 자연스러운 장면을 만들어냅니다.

이 기술이 왜 중요한가요?

  1. 게임과 메타버스: 멀티플레이어 게임에서 모든 플레이어가 보는 세상이 똑같아야 합니다. ShareVerse 는 이를 가능하게 합니다.
  2. 로봇과 드론 군집: 여러 대의 드론이 함께 날아갈 때, 서로의 위치를 정확히 알고 충돌하지 않도록 도와줍니다.
  3. 자율주행: 내 차뿐만 아니라 옆 차, 건너편 차가 무엇을 보고 있는지 시뮬레이션하여 더 안전한 주행 계획을 세울 수 있습니다.

결론

ShareVerse 는 **"혼자 보는 세상"이 아니라 "함께 보는 세상"**을 만드는 첫걸음입니다. 마치 여러 명이 같은 꿈을 꾸면서 서로의 꿈을 공유하듯, AI 가 여러 주체의 시점을 하나로 통합하여 일관되고 현실적인 가상 세계를 만들어냅니다. 이는 앞으로 우리가 살게 될 로봇과 AI 가 공존하는 세상을 위한 중요한 기술적 토대가 될 것입니다.