A Very Big Video Reasoning Suite

Maijunxian Wang, Ruisi Wang, Juyi Lin, Ran Ji, Thaddäus Wiedemer, Qingying Gao, Dezhi Luo, Yaoyao Qian, Lianyu Huang, Zelong Hong, Jiahui Ge, Qianli Ma, Hang He, Yifan Zhou, Lingzi Guo, Lantao Mei, Jiachen Li, Hanwen Xing, Tianqi Zhao, Fengyuan Yu, Weihang Xiao, Yizheng Jiao, Jianheng Hou, Danyang Zhang, Pengcheng Xu, Boyang Zhong, Zehong Zhao, Gaoyun Fang, John Kitaoka, Yile Xu, Hua Xu, Kenton Blacutt, Tin Nguyen, Siyuan Song, Haoran Sun, Shaoyue Wen, Linyang He, Runming Wang, Yanzhi Wang, Mengyue Yang, Ziqiao Ma, Raphaël Millière, Freda Shi, Nuno Vasconcelos, Daniel Khashabi, Alan Yuille, Yilun Du, Ziming Liu, Bo Li, Dahua Lin, Ziwei Liu, Vikash Kumar, Yijiang Li, Lei Yang, Zhongang Cai, Hokin Deng

Veröffentlicht 2026-02-25

📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Ansehen auf arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr talentierten Maler, der Videos zeichnen kann. Bisher war dieser Maler ein Meister darin, Dinge schön aussehen zu lassen: Sonnenuntergänge, fließendes Wasser, lachende Gesichter. Aber wenn du ihn fragtest: „Was passiert, wenn ich diesen Ball werfe und er gegen die Wand prallt?", oder „Wie baue ich einen Turm, der nicht umfällt?", dann war er oft verwirrt. Er konnte die Bilder malen, aber er verstand die Logik dahinter nicht wirklich.

Das ist genau das Problem, das die Forscher in diesem Papier („VBVR") angehen. Sie haben etwas geschaffen, das man wie einen riesigen Schulhof für KI-Intelligenz vorstellen kann.

Hier ist die einfache Erklärung, was sie gemacht haben:

1. Der riesige Übungsplatz (VBVR-Dataset)

Bisher hatten KI-Modelle nur sehr wenige Videos zum Lernen, und die waren oft zu einfach oder nicht gut genug. Es war, als würde man einem Schüler nur drei Mathe-Aufgaben geben und erwarten, dass er dann ein Genie wird.

Die Forscher haben nun einen riesigen Übungsplatz gebaut:

Die Größe: Sie haben über eine Million Videobeispiele erstellt. Das ist etwa 1.000-mal mehr als alles, was es vorher gab. Stell dir vor, alle anderen Schulbücher der Welt zusammen wären ein kleines Heftchen, und ihr habt eine ganze Bibliothek gebaut.
Die Aufgaben: Sie haben nicht einfach nur Videos gesammelt. Sie haben 200 verschiedene Arten von „Gehirn-Jogging" entwickelt. Diese basieren auf fünf Säulen des menschlichen Denkens:
1. Wahrnehmung: Sehen und erkennen (z. B. „Welcher Ball ist rot?").
2. Raumgefühl: Verstehen, wo Dinge sind (z. B. „Wie komme ich durch dieses Labyrinth?").
3. Verwandlung: Sich Dinge im Kopf vorstellen und drehen (z. B. „Wie sieht dieser Würfel von der Seite aus?").
4. Abstraktion: Regeln finden (z. B. „Was kommt als Nächstes in dieser Reihe?").
5. Wissen: Faktenwissen anwenden (z. B. „Wie fällt ein Stein?").

Jede Aufgabe ist wie ein kleines Puzzle, das die KI lösen muss, indem sie ein Video erstellt.

2. Der strenge Lehrer (VBVR-Bench)

Früher haben Forscher oft andere KIs gefragt: „War das Video gut?" Das ist wie ein Schüler, der den anderen Schüler benotet – das ist oft ungenau und subjektiv.

In diesem Papier haben sie einen strengen, regelbasierten Lehrer eingeführt.

Dieser Lehrer schaut nicht nur, ob das Video „hübsch" ist. Er prüft genau: „Hat die KI den Schlüssel gefunden? Ist sie durch die Tür gegangen? Hat sie die Wand berührt?"
Es gibt klare Regeln: Wenn die KI einen Fehler macht (z. B. durch eine Wand läuft), gibt es Punkteabzug. So wissen wir genau, ob die KI wirklich denkt oder nur zufällig ein schönes Bild gemalt hat.

3. Das Experiment: Lernen durch Übung

Die Forscher haben eine KI (genannt „Wan2.2") genommen und sie auf diesem riesigen Übungsplatz trainiert.

Das Ergebnis: Die KI wurde deutlich besser. Sie konnte nicht nur schöne Videos machen, sondern auch logische Aufgaben lösen. Sie lernte, Dinge zu bewegen, ohne dass sie sich plötzlich veränderten (z. B. ein Buch, das sich nicht in einen Apfel verwandelt, wenn man es verschiebt).
Der Durchbruch: Die KI zeigte Anzeichen von „Emergenz". Das bedeutet, sie konnte Aufgaben lösen, die sie nie explizit gesehen hatte. Es ist, als würde ein Schüler, der nur Addition geübt hat, plötzlich auch Subtraktion verstehen, weil er das Prinzip der Zahlen verstanden hat.

4. Was fehlt noch? (Die Grenzen)

Trotz des Erfolgs gibt es noch eine Lücke. Die beste KI, die sie getestet haben, liegt immer noch weit hinter dem menschlichen Gehirn zurück.

Das Problem: Die KI kann oft die Ergebnisse richtig machen, aber den Weg dorthin nicht immer perfekt nachvollziehen. Manchmal macht sie die richtige Bewegung, aber auf eine seltsame Art und Weise, als würde sie raten.
Die Metapher: Stell dir vor, die KI ist wie ein Schauspieler, der die Rolle eines Physikers spielt. Er kann die Formeln aufschreiben und die Experimente im Video nachahmen, aber er versteht nicht wirklich, warum die Schwerkraft funktioniert. Er braucht noch mehr Training, um die tiefen Regeln der Welt wirklich zu verstehen.

Zusammenfassung

Dieses Papier ist wie der Bau einer riesigen, modernen Schule für Video-KIs.

Sie haben unendlich viele Übungsaufgaben (Daten) erstellt.
Sie haben einen fairen und strengen Test (Bench) gebaut, um zu sehen, wer wirklich klug ist.
Sie haben gezeigt, dass KI durch mehr Übung besser im Denken wird, aber noch nicht so schlau ist wie ein Mensch.

Das Ziel ist es, KIs zu bauen, die nicht nur Filme drehen können, sondern die Welt verstehen, in der diese Filme spielen. Das ist der erste große Schritt in Richtung einer KI, die wirklich „versteht", was sie tut.

Each language version is independently generated for its own context, not a direct translation.

Problemstellung

Trotz rasanter Fortschritte bei Video-Modellen konzentriert sich die Forschung primär auf die visuelle Qualität (Realismus), während die Schlussfolgerungsfähigkeiten (Reasoning) dieser Modelle weitgehend unerforscht bleiben. Video-Reasoning erfordert das Verständnis von räumlich-zeitlichen Konsistenzen, physikalischen Dynamiken und Kausalitäten, die über reine Textverarbeitung hinausgehen.

Die systematische Erforschung und Skalierung dieser Fähigkeiten wird durch drei Hauptmängel behindert:

Fehlende große Datensätze: Bisherige Benchmarks bieten kaum Trainingsdaten (oft nur Testdaten) und sind in der Größe um mehrere Größenordnungen kleiner als nötig.
Mangelnde Evaluierbarkeit: Viele bestehende Benchmarks verlassen sich auf „Model-as-a-Judge"-Ansätze (LLMs bewerten Videos), die nicht reproduzierbar oder verifizierbar sind.
Fehlende Skalierungsstudien: Es gibt kaum Erkenntnisse darüber, wie sich Video-Reasoning-Fähigkeiten mit zunehmender Datenmenge entwickeln (Emergenz).

Methodik

Die Autoren stellen die VBVR-Suite vor, die aus drei Kernkomponenten besteht:

1. VBVR-Dataset (Der Datensatz)

Umfang: Ein beispiellos großer Datensatz mit 2.015.000 Bildern und 1.007.500 Videoclips. Dies ist etwa 1.000-mal größer als alle bestehenden Video-Reasoning-Datensätze zusammen.
Kognitive Architektur: Die Aufgaben sind nicht willkürlich, sondern basieren auf einer fundierten Taxonomie menschlicher kognitiver Fähigkeiten, abgeleitet aus philosophischen (Aristoteles, Kant) und neurowissenschaftlichen Theorien. Die fünf Säulen sind:
- Wahrnehmung (Perception): Extraktion strukturierter Repräsentationen (z. B. Kanten, Farben).
- Transformation: Manipulation mentaler Repräsentationen (z. B. mentale Rotation).
- Räumlichkeit (Spatiality): Verständnis von Orten und geometrischen Beziehungen (z. B. Navigation).
- Abstraktion: Ableitung allgemeiner Regeln aus Erfahrungen (z. B. Raven-Matrizen).
- Wissen (Knowledge): Propositionales Wissen (z. B. Physik, Symbole).
Generierung: Der Datensatz wurde durch eine kollaborative Anstrengung von über 50 Forschern erstellt. Aufgaben werden als parametrisierte Generatoren implementiert, die deterministisch und skalierbar tausende von Instanzen pro Aufgabe erzeugen. Dies ermöglicht eine vollständige Kontrolle über die Ground-Truth (Lösungspfade).

2. VBVR-Bench (Die Evaluierungsplattform)

Verifizierbarkeit: Im Gegensatz zu LLM-basierten Bewertungen nutzt VBVR-Bench regelbasierte, deterministische Scorer. Da die meisten Aufgaben eindeutige Lösungen haben (z. B. „erreiche das rote Ziel ohne Hindernisse"), können Fehler pixelgenau oder logisch überprüft werden.
Validierung: Die automatische Bewertung wurde durch menschliche Präferenzstudien validiert (Spearman-Korrelation $\rho > 0,9$ ), was zeigt, dass die Metriken menschliche Urteile genau widerspiegeln.
Aufteilung: Der Benchmark testet sowohl In-Domain (ID) (bekannte Aufgabentypen, neue Instanzen) als auch Out-of-Domain (OOD) (ganz neue Aufgabentypen), um Generalisierungsfähigkeiten zu messen.

3. Skalierungsstudie

Als Basis-Modell wurde Wan-2.2-I2V-A14B (ein Open-Source-Video-Generierungsmodell) verwendet.
Das Modell wurde mit dem VBVR-Dataset trainiert (bis zu 500.000 Samples), um VBVR-Wan2.2 zu erstellen.
Ziel war es, den Effekt der reinen Datenskalierung auf die Reasoning-Fähigkeiten bei fester Architektur zu untersuchen.

Wichtige Beiträge

VBVR-Dataset: Der erste große, vielfältige Trainingsdatensatz für Video-Reasoning, der die Lücke zwischen kleinen Benchmarks und großskaligem Training schließt.
VBVR-Bench: Ein transparentes, reproduzierbares und menschenähnliches Evaluierungsframework, das auf regelbasierten Scoring-Logiken statt auf subjektiven LLM-Urteilen basiert.
Erste systematische Skalierungsanalyse: Eine umfassende Studie, die zeigt, wie Video-Reasoning-Fähigkeiten mit der Datenmenge wachsen und wo die Grenzen aktueller Architekturen liegen.
Einblick in kognitive Abhängigkeiten: Analyse der Korrelationen zwischen den fünf kognitiven Säulen (z. B. starke positive Korrelation zwischen Wissen und Räumlichkeit, negative zwischen Wissen und reiner Wahrnehmung), was neurowissenschaftliche Hypothesen über die menschliche Kognition im KI-Kontext stützt.

Ergebnisse

Leistungssteigerung: Das feinabgestimmte Modell VBVR-Wan2.2 erreicht einen Gesamtscore von 0,685 (verglichen mit 0,371 beim Basis-Modell), was einer relativen Verbesserung von 84,6 % entspricht. Es übertrifft damit führende proprietäre Modelle wie Sora 2 (0,546) und Veo 3.1 (0,480) in vielen Kategorien.
Skalierungseffekte:
- Die Leistung verbessert sich sowohl im In-Domain (ID) als auch im Out-of-Domain (OOD) Bereich mit zunehmender Datenmenge.
- Sättigung: Die Leistung flacht jedoch bei ca. 400k–500k Samples ab und erreicht nicht das menschliche Niveau (0,974). Dies deutet auf fundamentale architektonische Grenzen aktueller Video-Generierungsmodelle hin (z. B. Schwierigkeiten bei der langfristigen zeitlichen Konsistenz und symbolischen Manipulation).
- OOD-Lücke: Es bleibt eine signifikante Lücke zwischen ID- und OOD-Leistung (ca. 15 %), was zeigt, dass reine Datenskalierung allein keine robuste Generalisierung auf völlig neue Aufgabenstrukturen garantiert.
Qualitative Erkenntnisse:
- Kontrollierbarkeit vor Reasoning: Ein zentrales Ergebnis ist, dass Reasoning nur möglich ist, wenn das Modell die Szene kontrollieren kann (Objektidentität, Layout stabil halten). Modelle, die die Szene willkürlich verändern, können keine verifizierbaren Reasoning-Aktionen ausführen.
- Emergente Fähigkeiten: Mit mehr Daten zeigen Modelle emergentes Verhalten wie das Befolgen komplexer Anweisungen, kontrolliertes Editieren und das „Rationalisieren" von Szenen (Anpassung an eine innere Logik).
- Grenzen: Trotz Verbesserungen scheitern Modelle oft an langfristiger Identitätsstabilität (z. B. Verdopplung von Agenten in langen Pfaden) und der Treue zum genauen Lösungsweg (korrekte Antwort, aber falsche Methode).

Bedeutung

Das Paper markiert einen Paradigmenwechsel in der Video-KI-Forschung:

Es beweist, dass Video-Reasoning als eigenständiges Forschungsgebiet mit systematischen Trainingsdaten und Evaluierungen behandelt werden muss.
Es liefert die Infrastruktur (Daten, Benchmark, Modelle) für zukünftige Forschung zu generalisierbarem Video-Reasoning.
Die Ergebnisse zeigen, dass reine Skalierung zwar hilft, aber für echtes „Verstehen" und logisches Schließen in Videos wahrscheinlich neue architektonische Ansätze (z. B. explizite Zustandsverfolgung, strukturierte Reasoning-Module) erforderlich sind.
Die Open-Source-Verfügbarkeit von Daten, Tools und Modellen unter video-reason.com demokratisiert den Zugang zu diesem komplexen Forschungsfeld.