Maijunxian Wang, Ruisi Wang, Juyi Lin, Ran Ji, Thaddäus Wiedemer, Qingying Gao, Dezhi Luo, Yaoyao Qian, Lianyu Huang, Zelong Hong, Jiahui Ge, Qianli Ma, Hang He, Yifan Zhou, Lingzi Guo, Lantao Mei, Jiachen Li, Hanwen Xing, Tianqi Zhao, Fengyuan Yu, Weihang Xiao, Yizheng Jiao, Jianheng Hou, Danyang Zhang, Pengcheng Xu, Boyang Zhong, Zehong Zhao, Gaoyun Fang, John Kitaoka, Yile Xu, Hua Xu, Kenton Blacutt, Tin Nguyen, Siyuan Song, Haoran Sun, Shaoyue Wen, Linyang He, Runming Wang, Yanzhi Wang, Mengyue Yang, Ziqiao Ma, Raphaël Millière, Freda Shi, Nuno Vasconcelos, Daniel Khashabi, Alan Yuille, Yilun Du, Ziming Liu, Bo Li, Dahua Lin, Ziwei Liu, Vikash Kumar, Yijiang Li, Lei Yang, Zhongang Cai, Hokin Deng

게시일 2026-02-25

📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎬 "비디오 추론의 거인" VBVR: AI 가 영상을 보고 '생각'하게 만든 이야기

이 논문은 인공지능 (AI) 이 단순히 영상을 '만드는' 것을 넘어, 영상을 보고 논리적으로 '생각'하고 '이해'하는 능력을 키우기 위해 만든 거대한 프로젝트에 대한 이야기입니다.

기존의 AI 영상 모델들은 "예쁘고 사실적인 영상을 만들어라"는 명령에는 능숙했지만, "저기 있는 공이 벽에 부딪히면 어디로 튕겨 나갈까?"나 "이 미로를 어떻게 빠져나갈까?" 같은 추론 (Reasoning) 능력은 매우 부족했습니다. 이 논문은 그 부족함을 채우기 위해 **VBVR(매우 큰 비디오 추론 스위트)**이라는 새로운 도구를 소개합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 왜 이 프로젝트가 필요한가요? (문제 상황)

지금까지의 AI 영상 모델들은 **'화가'**와 같았습니다.

"해가 지는 풍경을 그려줘"라고 하면 아주 아름다운 그림을 그립니다.
하지만 "해가 지면 왜 하늘이 빨개질까?"라고 물으면, "글쎄, 그냥 예쁘게 그려봤어요"라고 대답할 뿐입니다.

AI 는 시각적 아름다움은 잘 만들지만, 물리 법칙, 인과관계, 공간적 논리 같은 '두뇌'를 쓰는 능력은 아직 초보 수준입니다. 이걸 가르치려면 AI 가 풀 수 있는 **수천, 수만 개의 논리 문제 (연습문제)**가 필요한데, 기존에는 그런 데이터가 너무 적었습니다.

2. VBVR 은 무엇인가요? (해결책)

VBVR 은 **"AI 의 두뇌를 키우기 위한 거대한 운동장"**입니다.

🏗️ 1 단계: 거대한 데이터 공장 (VBVR-Dataset)

이 프로젝트는 전 세계 50 명 이상의 연구자들이 모여 200 가지 종류의 논리 퍼즐을 만들었습니다.

규모: 기존에 있던 모든 데이터셋을 합친 것보다 1,000 배나 더 큽니다. (영상 100 만 개 이상!)
내용: AI 가 풀어야 할 문제는 5 가지 핵심 능력으로 나뉩니다.
1. 지각 (Perception): "저기 빨간 공이 몇 개야?" (눈으로 보는 것)
2. 공간성 (Spatiality): "미로에서 출구로 가는 길은?" (공간 감각)
3. 변환 (Transformation): "이 물체가 회전하면 모양이 어떻게 변할까?" (상상력)
4. 지식 (Knowledge): "공이 떨어지면 왜 바닥에 닿을까?" (물리 법칙)
5. 추상화 (Abstraction): "이 패턴의 규칙은 뭐지?" (규칙 찾기)

비유: 마치 AI 에게 수학 문제집 100 권을 주고, 정답까지 함께 알려주며 "이걸 반복해서 풀어보렴"이라고 가르치는 것과 같습니다.

📏 2 단계: 공정한 시험관 (VBVR-Bench)

기존에는 AI 가 만든 영상이 좋은지 나쁜지 다른 AI 가 평가하는 경우가 많았는데, 이는 "AI 가 AI 를 칭찬"하는 꼴이라 신뢰도가 떨어졌습니다.

VBVR-Bench 는 규칙 기반의 자동 채점 시스템을 도입했습니다.
비유: AI 가 미로를 풀었을 때, "정답 경로와 얼마나 일치하는지", "벽에 부딪히지 않았는지"를 컴퓨터가 자와 줄자로 정확히 재서 점수를 매기는 것입니다. 인간이 직접 봐도 "아, 이건 확실히 틀렸네"라고 알 수 있는 객관적인 기준입니다.

3. 어떤 결과가 나왔나요? (성과)

이 거대한 데이터로 Wan2.2라는 AI 모델을 훈련시켰더니 놀라운 변화가 일어났습니다.

초기 상태: AI 는 영상을 만들 때 배경이 흐트러지거나, 물체가 갑자기 사라지는 등 '논리'가 깨진 영상을 만들었습니다.
훈련 후: AI 는 **"명령을 정확히 따르는 능력"**을 갖게 되었습니다.
- "빨간 공을 지워줘"라고 하면, 빨간 공만 지우고 나머지는 그대로 둡니다.
- "공을 회전시켜"라고 하면, 공만 회전하고 배경은 움직이지 않습니다.
중요한 발견: 훈련을 많이 할수록 AI 는 **보지 못한 새로운 문제 (Out-of-Domain)**도 해결하는 능력을 보였습니다. 즉, 단순히 문제를 외운 게 아니라 논리 원리를 이해하기 시작한 것입니다.

하지만 아직 한계가 있습니다:
인간의 두뇌에 비하면 아직 멀었습니다. 특히 긴 시간 동안 (예: 1 분 이상) 논리적으로 일관된 영상을 만들거나, 복잡한 물리 법칙을 완벽하게 따르는 데는 여전히 어려움을 겪습니다.

4. 이 프로젝트의 핵심 메시지

이 논문은 **"AI 가 진짜로 '생각'하려면, 단순히 많은 영상을 보는 것만으로는 부족하다"**고 말합니다.

기존: "영상을 많이 만들어서 예쁘게 하라." (화려한 외모)
VBVR 의 제안: "논리 퍼즐을 많이 풀어서 두뇌를 단련하라." (실속 있는 지능)

결론적으로:
VBVR 은 AI 에게 **"화려한 연기"**를 가르치는 것이 아니라, **"진짜 배우 (연기자) 가 되기 위한 연기 레슨"**을 시키는 것입니다. 이 프로젝트는 앞으로 AI 가 영화, 게임, 교육 등 다양한 분야에서 인간과 함께 복잡한 문제를 해결할 수 있는 초석이 될 것입니다.

💡 한 줄 요약

"AI 가 영상을 예쁘게 만드는 '화가'에서, 영상을 보고 논리적으로 생각하는 '지식인'으로 변신하게 만든 거대한 논리 교실입니다."

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

현재 한계: 최근 비디오 생성 모델 (Video Generation Models) 의 발전은 주로 시각적 품질 (Visual Quality) 에 집중되어 왔으며, **추론 능력 (Reasoning Capabilities)**은 충분히 탐구되지 않았습니다. 텍스트 기반 모델은 코딩, 수학, 과학적 발견 등에서 뛰어난 추론 능력을 보이지만, 비디오 모델은 공간적 구조, 물리적 역학, 장기적 인과관계 (Causality) 를 내포한 시공간적으로 일관된 환경에서의 직관적 추론을 수행하는 데 한계가 있습니다.
핵심 장벽: 비디오 추론을 체계적으로 연구하고 그 확장성 (Scaling Behavior) 을 분석하는 데 필요한 대규모 학습 데이터의 부재가 가장 큰 걸림돌입니다. 기존 벤치마크는 데이터 양이 적거나 (수천 개 수준), 학습용 데이터가 전혀 없어 모델의 성능 향상을 위한 체계적인 확장이 불가능했습니다.
필요성: 비디오 추론의 진전을 위해서는 (1) 대규모 및 다양한 학습 데이터셋, (2) 검증 가능하고 재현 가능한 평가 도구, (3) 대규모 확장 연구가 필수적입니다.

2. 방법론 (Methodology)

이 연구는 **VBVR (Very Big Video Reasoning)**이라는 통합 스위트 (Suite) 를 제안하며, 크게 세 가지 핵심 구성 요소로 이루어집니다.

A. VBVR-Dataset (대규모 데이터셋)

규모: 기존 데이터셋보다 약 1,000 배 큰 200 만 개 이상의 이미지와 100 만 개 이상의 비디오 클립을 포함합니다.
인지 아키텍처 기반 설계: 인간의 인지 능력을 체계적으로 분류한 철학적 및 신경과학적 이론 (아리스토텔레스, 칸트, 현대 인지과학) 에 기반하여 5 가지 핵심 인지 기제 (Cognitive Faculties) 로 태스크를 분류했습니다.
1. 지각 (Perception): 감각 입력에서 구조화된 표현 추출 (예: 색상, 모양, 가장자리 인식).
2. 변환 (Transformation): 정신적 표현의 조작 및 합성 (예: 심상 회전, 물체 이동).
3. 공간성 (Spatiality): 공간 관계 및 기하학적 구조 이해 (예: 네비게이션, 경로 찾기).
4. 추상화 (Abstraction): 구체적 경험에서 일반화 가능한 규칙 도출 (예: 패턴 완성, 논리적 추론).
5. 지식 (Knowledge): 선천적 또는 학습된 명제적 진리 (예: 물리 법칙, 기호 의미).
생성 파이프라인: 200 개 이상의 커스텀 태스크를 위한 **파라미터화 생성기 (Parameterized Generators)**를 개발하여 분산 클라우드 환경 (AWS Lambda) 에서 자동화된 방식으로 100 만 개의 훈련 샘플을 생성했습니다. 각 태스크는 결정론적 (Deterministic) 으로 해답이 도출되도록 설계되었습니다.

B. VBVR-Bench (평가 프레임워크)

검증 가능한 평가: LLM 기반의 주관적 판단 (VLM-as-a-judge) 대신, **규칙 기반 (Rule-based)**의 자동화된 스코어를 사용하여 재현성과 해석 가능성을 확보했습니다.
이중 분할 전략 (Dual-split Strategy):
- In-Domain (ID): 훈련된 태스크 유형 내에서 새로운 파라미터로 테스트 (일반화 능력 측정).
- Out-of-Domain (OOD): 훈련되지 않은 완전히 새로운 태스크 구조로 테스트 (전이 학습 및 본질적 추론 능력 측정).
인간 선호도 정렬: 자동화된 점수와 인간 평가 간의 상관관계 (Spearman's $\rho > 0.9$ ) 를 검증하여 평가의 신뢰성을 확보했습니다.

C. 확장성 연구 (Scaling Study)

베이스 모델: Wan-2.2-I2V-A14B 모델을 기반으로, VBVR 데이터셋을 사용하여 LoRA (Low-Rank Adaptation) 기법으로 미세 조정 (Fine-tuning) 을 수행했습니다.
데이터 규모 분석: 0 개 (베이스 모델) 에서 50 만 개 (VBVR-Wan2.2) 까지 훈련 데이터 양을 점진적으로 증가시키며 성능 변화를 분석했습니다.

3. 주요 기여 (Key Contributions)

VBVR-Dataset 공개: 비디오 추론을 위한 최초의 대규모 (100 만 개 이상 샘플), 고품질, 다양성 있는 학습 데이터셋을 공개했습니다.
VBVR-Bench 및 EvalKit: 재현 가능하고 해석 가능한 규칙 기반 평가 툴킷을 제공하며, 5 가지 인지 능력에 대한 세분화된 진단이 가능합니다.
대규모 확장 연구 (Scaling Study): 비디오 생성 모델에서 데이터 규모 증가가 어떻게 추론 능력과 일반화 (Generalization) 로 이어지는지에 대한 체계적인 실증 연구를 수행했습니다.
모델 성능 벤치마킹: Sora 2, Veo 3.1, Kling 2.6 등 주요 상용 모델과 오픈소스 모델 (Wan, Hunyuan 등) 의 성능을 비교 분석했습니다.

4. 실험 결과 (Results)

모델 성능:
- 기존 오픈소스 모델들은 전체 평균 점수 0.27~0.31 수준으로 복잡한 비디오 추론에 한계가 있었습니다.
- VBVR-Wan2.2는 베이스 모델 대비 84.6% 상대적 개선을 이루어 0.685 의 최고 점수를 기록했습니다.
- 상용 모델 중에서는 Sora 2(0.546) 와 Veo 3.1(0.480) 이 비교적 좋았으나, 여전히 인간 성능 (0.974) 에는 큰 격차가 존재합니다.
확장성 (Scaling) 발견:
- 점진적 향상: 데이터 규모가 증가함에 따라 In-Domain 과 Out-of-Domain (OOD) 모두에서 성능이 향상되었으며, 이는 **새로운 추론 태스크로의 일반화 (Emergent Generalization)**가 시작되고 있음을 시사합니다.
- 포화 현상: 데이터 양이 40 만~50 만 개 수준에 도달하면 성능 향상이 둔화 (Plateau) 되며, 인간과의 격차는 데이터 양만으로는 완전히 해소되지 않는 것으로 나타났습니다. 이는 현재 아키텍처의 근본적인 한계를 시사합니다.
- ID-OOD 격차: OOD 성능이 향상되더라도 ID 와 OOD 간의 격차는 여전히 존재하며, 이를 좁히는 것이 야생 환경 (In-the-wild) 에서의 강건한 추론에 필수적입니다.
정성적 분석:
- 훈련된 모델은 **제어 가능성 (Controllability)**이 크게 향상되었습니다. 즉, 배경이나 객체 정체성을 임의로 변경하지 않고 주어진 제약 조건 내에서 정확하게 작업을 수행하는 능력이 생겼습니다.
- 발현된 행동: 다단계 계획 수립, 자기 일관된 정책 선택, "이해 $\rightarrow$ 행동 $\rightarrow$ 조정"과 같은 복잡한 행동 패턴이 관찰되었습니다.
- 한계: 긴 시간 범위 (Long-horizon) 에서의 정체성 유지 (Identity Stability) 와 과정의 충실성 (Process Faithfulness, 즉 올바른 답을 내더라도 올바른 논리 과정을 따르는지) 에서는 여전히 실패 사례가 존재합니다.

5. 의의 및 결론 (Significance)

연구 인프라 구축: VBVR 는 비디오 추론 연구의 다음 단계를 위한 기초 인프라를 제공합니다. 단순한 시각적 생성을 넘어, 물리적 세계와 논리적 제약을 이해하는 일반화 가능한 비디오 추론 (Generalizable Video Reasoning) 연구의 표준을 제시합니다.
패러다임 전환: "제어 가능성 (Controllability) 이 추론의 토대"임을 입증했습니다. 모델이 장면을 자유롭게 재작성하는 것이 아니라, 주어진 규칙과 제약 하에 정밀하게 조작할 수 있어야 진정한 추론이 가능함을 보여줍니다.
미래 방향: 데이터 확장만으로는 인간 수준의 추론에 도달할 수 없음을 시사하며, 명시적 상태 추적 (Explicit State Tracking), 구조화된 추론 모듈, 자기 수정 (Self-correction) 메커니즘 등 아키텍처적 혁신이 필요함을 강조합니다.

이 논문은 비디오 AI 가 단순한 콘텐츠 생성 도구를 넘어, 복잡한 시공간적 논리를 수행하는 지능형 에이전트로 발전하기 위한 필수적인 데이터와 평가 체계를 마련했다는 점에서 중요한 이정표가 됩니다.

A Very Big Video Reasoning Suite