Synthetic Visual Genome 2: Extracting Large-scale Spatio-Temporal Scene Graphs from Videos

이 논문은 자동화 파이프라인을 통해 대규모 시공간 장면 그래프 데이터셋인 'Synthetic Visual Genome 2(SVG2)'를 구축하고, 이를 기반으로 비디오를 단일 순전파로 장면 그래프로 변환하는 TRaSER 모델을 제안하여 기존 모델 대비 객체 및 관계 예측 성능을 획기적으로 향상시키고 비디오 질문 응답 정확도를 높였음을 보여줍니다.

Ziqi Gao, Jieyu Zhang, Wisdom Oluchi Ikezogwo, Jae Sung Park, Tario G. You, Daniel Ogbu, Chenhao Zheng, Weikai Huang, Yinuo Yang, Winson Han, Quan Kong, Rajat Saini, Ranjay Krishna

게시일 2026-03-09
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎥 "Synthetic Visual Genome 2 (SVG2)": 비디오를 이해하는 새로운 눈과 뇌

이 논문은 **"비디오를 단순히 보는 것을 넘어, 그 안의 모든 사물과 관계를 완벽하게 이해하는 시스템"**을 개발한 이야기입니다. 마치 비디오 속의 모든 사물이 살아있는 캐릭터가 되어 서로 대화하고 움직이는 것을 실시간으로 해석하는 것과 같습니다.

핵심 내용을 세 가지 비유로 쉽게 설명해 드리겠습니다.


1. SVG2: "수천 개의 비디오를 한 번에 읽는 초고속 도서관 사서"

기존에 컴퓨터가 비디오를 이해하려면 사람이 일일이 "이건 사람이다", "이건 자전거다", "사람이 자전거를 탄다"라고 손으로 적어줘야 했습니다. 하지만 비디오는 길고 복잡해서 사람이 일일이 적는 건 불가능에 가까웠습니다.

  • 비유: 기존 방식은 손으로 일일이 책을 정리하는 사서라면, 이 연구에서 만든 SVG2전체 도서관의 책을 1 초 만에 읽고, 책의 내용, 등장인물, 그리고 인물 간의 관계를 자동으로 정리해 주는 AI 사서입니다.
  • 무엇을 했나요?
    • 규모: 기존 데이터보다 10 배 이상 큰 규모 (63 만 개 이상의 비디오) 를 만들었습니다.
    • 자동화: 사람이 직접 적지 않고, AI 가 비디오를 보고 사물을 쫓아다니며 (트래킹), 그 사물이 무엇인지 (속성), 다른 사물과 어떤 관계인지 (예: '타고 있다', '만지고 있다') 를 자동으로 분석했습니다.
    • 정확도: AI 가 만든 데이터가 사람도 인정할 만큼 정확합니다 (사물 93.8%, 관계 85.4% 정확).

2. TraSeR: "비디오를 한 번에 훑어보는 '초점' 카메라"

이제 이렇게 방대한 데이터를 바탕으로, 실제 비디오를 보고 관계를 찾아내는 모델인 TraSeR을 만들었습니다. 기존 모델들은 비디오를 보다가 "아, 저기 사람이 있네"라고 생각하다가 다음 장면으로 넘어가면 "아까 그 사람이 어디로 갔지?"라고 잊어버리기 일쑤였습니다.

  • 비유: 기존 모델이 산책하면서 주변을 두리번거리는 사람이라면, TraSeR 은 비디오 속의 모든 사물에 '초점'을 맞춰 그 사물이 처음 등장해서 사라질 때까지 끝까지 따라가는 카메라입니다.
  • 어떻게 작동하나요?
    • 사물 추적 (Object-Trajectory Resampler): "저기 있는 빨간 공"이 화면을 어떻게 움직이는지 처음부터 끝까지 하나의 흐름으로 기억합니다.
    • 시간 창 (Temporal-Window Resampler): 공이 움직이는 순간순간의 미세한 변화 (예: 공이 튀는 순간) 도 놓치지 않고 기억합니다.
    • 결과: 이 두 가지 기능을 합쳐서, 비디오를 한 번만 보더라도 **"사람이 자전거를 타고, 그 자전거가 빨간색이며, 사람이 자전거를 타고 있는 동안 공을 발로 차고 있다"**는 식의 복잡한 관계를 한 번에 정확히 파악합니다.

3. 실제 효과: "질문하면 답을 찾아주는 똑똑한 비서"

이 기술이 실제로 얼마나 유용한지 테스트해 보았습니다. 비디오를 보고 "저 사람이 무엇을 하고 있나요?"라고 물으면, TraSeR 이 만든 '관계도 (Scene Graph)'를 함께 주면 답을 훨씬 잘 찾습니다.

  • 비유: 비디오만 보여주는 것은 눈을 가리고 소리를 듣고 상황을 추측하는 것이라면, TraSeR 의 관계도를 함께 주는 것은 상황을 설명해 주는 가이드북을 함께 주는 것과 같습니다.
  • 성과:
    • 기존 최신 AI 모델들보다 비디오 속 사물과 관계를 찾는 능력이 15~40% 더 뛰어납니다.
    • 심지어 GPT-5 같은 초고성능 AI 보다도 사물과 속성을 찾는 데 더 뛰어난 성능을 보였습니다.
    • 비디오 질문 답변 (Video QA) 테스트에서, TraSeR 의 관계를 활용하면 정답률이 최대 4.6% 까지 상승했습니다.

🌟 요약: 왜 이 연구가 중요한가요?

이 연구는 **"컴퓨터가 비디오를 볼 때, 단순히 픽셀 (화소) 의 나열로 보는 것이 아니라, 사물과 그들 사이의 '이야기'를 읽을 수 있게 했다"**는 점에서 획기적입니다.

  • SVG2는 AI 가 비디오를 학습할 수 있는 거대한 교과서를 만들었습니다.
  • TraSeR은 그 교과서를 완벽하게 이해하고, 비디오를 보고 사물의 움직임을 추적하며 관계를 파악하는 똑똑한 학생이 되었습니다.

이 기술은 향후 로봇이 복잡한 환경에서 움직이거나, 비디오를 분석해야 하는 보안 시스템, 혹은 영화나 드라마를 자동으로 요약해 주는 서비스 등에 혁신적인 변화를 가져올 것으로 기대됩니다. 마치 비디오 속의 모든 사물이 살아 움직이며 서로 관계를 맺고 있다는 것을 컴퓨터가 진심으로 이해하게 된 셈입니다.