Maijunxian Wang, Ruisi Wang, Juyi Lin, Ran Ji, Thaddäus Wiedemer, Qingying Gao, Dezhi Luo, Yaoyao Qian, Lianyu Huang, Zelong Hong, Jiahui Ge, Qianli Ma, Hang He, Yifan Zhou, Lingzi Guo, Lantao Mei, Jiachen Li, Hanwen Xing, Tianqi Zhao, Fengyuan Yu, Weihang Xiao, Yizheng Jiao, Jianheng Hou, Danyang Zhang, Pengcheng Xu, Boyang Zhong, Zehong Zhao, Gaoyun Fang, John Kitaoka, Yile Xu, Hua Xu, Kenton Blacutt, Tin Nguyen, Siyuan Song, Haoran Sun, Shaoyue Wen, Linyang He, Runming Wang, Yanzhi Wang, Mengyue Yang, Ziqiao Ma, Raphaël Millière, Freda Shi, Nuno Vasconcelos, Daniel Khashabi, Alan Yuille, Yilun Du, Ziming Liu, Bo Li, Dahua Lin, Ziwei Liu, Vikash Kumar, Yijiang Li, Lei Yang, Zhongang Cai, Hokin Deng

公開日 2026-02-25

📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI に『動画』を見て考えてもらうための、世界最大のトレーニング教材と試験問題集」**を作ったという画期的な研究について書かれています。

タイトルは**「VBVR（Very Big Video Reasoning）」**です。

まるで、AI に「動画を見る力」を教えるための、**「スーパー・動画大学」**を設立したようなものです。その内容を、わかりやすい例え話で解説します。

1. なぜこんなものが必要だったの？（背景）

これまでの AI（特に動画を作る AI）は、**「見た目を綺麗に描くこと」**には長けていました。まるで、絵の具の混ぜ方を完璧に覚えた画家のようでした。

しかし、**「動画の中で何が起こっているのか、論理的に理解し、推理すること」**は苦手でした。
例えば、「ボールが壁に当たって跳ね返る」のは描けても、「なぜ跳ね返ったのか？次にどこに行くのか？」を計算して描くのは難しかったのです。

これまでの研究には、「動画の推理を学ぶための教材（データ）」が極端に少なかったという問題がありました。まるで、将棋のプロになりたいのに、棋譜（過去の対局記録）が 10 局しか残っていないような状態です。

2. VBVR の正体：世界最大の「動画推理トレーニング施設」

この研究チームは、**「200 万枚以上の画像」と「100 万本以上の動画」**からなる、前代未聞の巨大な教材セット（VBVR-Dataset）を作りました。

規模の凄さ: 既存の教材の 1,000 倍もの量です。
中身: 単なる「綺麗な動画」ではなく、**「問題を解くための動画」**です。

5 つの「脳の筋肉」を鍛える

この教材は、人間の脳が持つ 5 つの能力を鍛えるように設計されています。まるでジムで 5 つの異なるマシンを使うようなものです。

知覚（Perception）: 「あれは赤いボールだ」「これは四角形だ」と、目で見えるものを正確に認識する力。
空間性（Spatiality）: 「迷路を抜けよう」「鍵を探してドアを開けよう」と、場所や距離感を理解する力。
変換（Transformation）: 「この箱を回転させたらどうなる？」「物体が隠れたらどうなる？」と、動きや変化を頭の中でシミュレーションする力。
抽象化（Abstraction）: 「このパターンは次はどうなる？」「ルールを見つけよう」と、法則やルールを見抜く力。
知識（Knowledge）: 「重力があるから落ちる」「鏡には反射する」と、物理法則や常識を適用する力。

3. すごい仕組み：「自動で問題を作る工場」

この教材は、人間が一つ一つ手書きで作ったわけではありません。
**「問題を作るためのプログラム（ジェネレーター）」**が、自動的に 100 万個以上の問題を生成しました。

例: 「迷路の大きさを変えたり、障害物の数を増やしたり」して、同じルールでも全く違う 1 万通りの迷路を自動で作ります。
メリット: AI が「答えを暗記」するのを防ぎ、「本当に理屈を理解しているか」を厳しく試すことができます。

4. 試験方法：「AI 先生」ではなく「厳格な採点者」

これまでの評価では、「別の AI に採点させる」ことが多かったのですが、今回は**「ルールに基づいた自動採点」と「人間の評価」**を組み合わせました。

例: 「ボールが壁に当たったか？」という問いには、AI が「当たった」と言っても、実際の座標計算で「壁に 1 ミリも触れていない」なら0 点です。
結果: この厳しすぎる試験で、最新の AI モデル（Sora や Veo など）を試したところ、**「人間にはまだ遠く及ばない」**ことがわかりました。しかし、この教材で学習させた AI は、劇的に性能が向上しました。

5. 発見：AI に「一般化」の兆候が見えた！

この研究で最も面白い発見は、**「学習データを増やすと、AI が見たことのない新しい問題も解けるようになる」**という点です。

例: 「迷路 A」で練習した AI が、全く違う「迷路 B」や「パズル C」も解けるようになりました。
意味: AI が単に「暗記」しているのではなく、「動画の理屈（因果関係や物理法則）」を少しずつ理解し始めている証拠です。これを「創発（Emergence）」と呼びます。

6. 結論：動画 AI の未来は「制御」から始まる

この研究から得られた最大の教訓は、**「動画 AI に論理的思考をさせるには、まずは『制御』を完璧にすること」**です。

問題点: 今の AI は、指示された通りに「ボールを動かす」つもりでも、背景の壁を勝手に消したり、ボールの形を変えたりしてしまいます。
解決策: 「指示されたこと以外は変えない」という**「制御力」**が身につけば、初めて「論理的な推理」が可能になります。

まとめ

この論文は、**「AI に動画の世界で『考える力』を教えるための、世界最大の教科書と試験」**を作ったという報告です。

現状: AI はまだ「絵描き」の域を出ていません。
未来: この「VBVR」というトレーニング施設を使うことで、AI は「物理法則を理解し、未来を予測し、論理的に行動する」存在へと進化していく可能性があります。

まるで、AI に「動画という映画」を見る目を教え、その中で「物語の筋書き」を理解させるための、壮大な第一歩を踏み出したような研究です。

Each language version is independently generated for its own context, not a direct translation.

VBVR (Very Big Video Reasoning) の技術的サマリー

本論文は、動画生成モデルの「推論能力」に焦点を当てた、前例のない大規模な研究スイート「VBVR (Very Big Video Reasoning)」を提案するものです。現在の動画モデルは視覚的なリアリズムの向上に注力していますが、時空間的な一貫性や因果関係に基づく推論能力は未解明なままです。VBVR は、このギャップを埋めるための大規模データセット、検証可能な評価ベンチマーク、および大規模スケーリング研究を提供します。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細を記述します。

1. 問題定義

現在の動画生成モデル（Sora, Veo, Wan など）は、テキストから高品質な動画を生成する能力は飛躍的に向上しましたが、以下の課題に直面しています。

推論能力の不足: 物理法則、因果関係、時空間的な連続性、および論理的な推論を必要とするタスクにおいて、モデルは依然として人間レベルの性能に達していません。
データと評価の欠如: 動画推論を体系的に研究するための大規模なトレーニングデータセットが存在せず、既存のベンチマークはテスト用データが少なく、学習用データが不足しているため、スケーリング則（データ量と性能の関係）の分析が困難でした。
評価の非再現性: 多くの評価が「モデルによるジャッジ（LLM-as-a-judge）」に依存しており、主観的かつ再現性に欠ける問題があります。

2. 手法とアーキテクチャ

VBVR は、人間の認知科学の理論に基づき、以下の 3 つの主要コンポーネントで構成されています。

A. VBVR-Dataset（大規模データセット）

規模: 200 のキュレーションされた推論タスク、201 万枚の画像、100 万 7500 本の動画クリップを含む。既存のデータセットの約 1000 倍の規模です。
認知アーキテクチャに基づく分類: 人間の認知機能を 5 つの柱（Faculties）に分類し、タスクを設計しています。
1. 知覚 (Perception): 形状、色、エッジの識別など。
2. 変換 (Transformation): 心的な操作、回転、オブジェクトの移動など。
3. 空間性 (Spatiality): 迷路ナビゲーション、距離、位置関係の理解。
4. 抽象化 (Abstraction): 規則の発見、パターン認識、論理的推論。
5. 知識 (Knowledge): 物理法則、常識、記号的な真理の適用。
生成パイプライン: 50 名以上の研究者が設計したパラメータ化されたタスクジェネレーターを使用し、クラウドベースの分散処理（AWS Lambda）により、各タスクあたり 1 万サンプルを自動生成しています。これにより、多様性と品質を保ちながら大規模なデータを生成しています。

B. VBVR-Bench（評価フレームワーク）

検証可能なルールベース評価: 生成された動画が正解（Ground Truth）と一致するかどうかを、LLM に任せるのではなく、空間位置、色、オブジェクトの同一性、経路、論理的結果に基づいたルールベースのスコアラーで評価します。これにより、再現性と解釈可能性が確保されます。
二分割評価戦略:
- In-Domain (ID): 学習タスクと類似の構造を持つが、パラメータが異なるタスク（一般化能力のテスト）。
- Out-of-Domain (OOD): 学習で見たことのない全く新しいタスク構造（真の推論能力のテスト）。
人間との整合性: 自動スコアと人間の評価の相関（Spearman 相関係数 $\rho > 0.9$ ）が確認されており、信頼性の高い指標です。

C. スケーリング研究 (VBVR-Wan)

ベースモデルとしてオープンソースの「Wan2.2-I2V-A14B」を使用し、VBVR-Dataset 上で大規模なファインチューニングを行いました。
データ量（0K から 500K サンプル）を段階的に増やしながら、モデルの性能変化と一般化能力の出現を調査しました。

3. 主要な結果

1. モデル性能の現状

既存の最先端モデル（Sora 2, Veo 3.1, Kling 2.6 など）は、人間（スコア 0.974）と比較して依然として大きな性能差（最高でも 0.546 程度）があります。
公開モデル（Wan2.2 など）は 0.37 前後で、複雑な動画推論には限界があることが示されました。

2. データスケーリングの効果

性能向上: VBVR-Dataset でファインチューニングした「VBVR-Wan2.2」は、ベースモデルに対して 84.6% の相対的な改善（総合スコア 0.685）を達成し、SOTA となりました。
一般化の出現: 学習データ量が増えるにつれ、既知のタスク（ID）だけでなく、未知のタスク（OOD）の性能も向上しました。これは、単なる暗記ではなく、転移可能な推論プリミティブの獲得を示唆しています。
限界の存在: しかし、データ量を増やしても性能は頭打ち（プラトー）に達し、人間との差は埋まりませんでした。これは、現在の動画生成アーキテクチャ自体に、長期的な時間的整合性や論理的制約を満たすための根本的な限界があることを示しています。

3. 定性的分析と知見

「制御可能性」の重要性: 推論タスクにおいて最も重要なのは、シーン（背景、レイアウト、オブジェクトの同一性）を安定して維持した上で、指示された操作を行う「制御可能性」です。VBVR-Wan2.2 は、不要な編集を加えずに正確にタスクを遂行する能力を獲得しました。
Emergent Behavior（創発的行動）: 大規模化に伴い、モデルは「理解→行動→調整」といった多段階の戦略や、自己選択された一貫したポリシー（例：対称パターンの完成）を示すようになりました。
失敗モード: 長い時間軸にわたるアイデンティティの維持（キャラクターの分裂や点滅）や、プロセスの忠実性（正解だが手順が間違っている）には依然として課題が残っています。

4. 認知機能間の相関

5 つの認知機能間の相関を分析した結果、「知識」と「空間性」には強い正の相関（ $\rho = 0.461$ ）があることが示されました。これは、神経科学における海馬の場所細胞やグリッド細胞が空間的および概念的学習の両方を支えるという知見と一致しています。
逆に、「知識」と「知覚」の間には強い負の相関が見られ、認知機能のモジュール性やトレードオフを示唆しています。

4. 意義と結論

VBVR は、動画推論研究における以下の重要な基盤を提供します。

大規模なトレーニングリソース: 動画推論を学習するための初めての大規模で多様なデータセットであり、スケーリング研究を可能にしました。
厳密な評価基準: 主観的な評価に依存せず、再現可能で解釈可能なルールベースの評価フレームワークを確立しました。
将来の研究方向: 単にデータ量を増やすだけでは人間レベルの推論には届かないことを示し、**「制御可能性（Controllability）」と「因果的・物理的制約の厳密な維持」**に焦点を当てた新しいアーキテクチャの必要性を提起しました。

結論として、VBVR は汎用的な動画推論（Generalizable Video Reasoning）に向けた研究の次の段階のための基盤となるインフラストラクチャを提供し、AI が物理世界に根ざした直感的な推論を獲得するための道筋を示しています。データ、ツールキット、モデルは video-reason.com で公開されています。

A Very Big Video Reasoning Suite