PerceptionComp: A Video Benchmark for Complex Perception-Centric Reasoning

Die Arbeit stellt PerceptionComp vor, ein manuell annotiertes Benchmark mit komplexen, langfristigen Video-Fragestellungen, das zeigt, dass aktuelle Multimodale Large Language Models (MLLMs) bei Aufgaben, die mehrere zeitlich getrennte visuelle Beweise und logische Verknüpfungen erfordern, erhebliche Schwierigkeiten haben.

Shaoxuan Li, Zhixuan Zhao, Hanze Deng, Zirun Ma, Shulin Tian, Zuyan Liu, Yushi Hu, Haoning Wu, Yuhao Dong, Benlin Liu, Ziwei Liu, Ranjay Krishna

Veröffentlicht 2026-03-30
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

🎥 PerceptionComp: Der „Supermarkt-Rätsel"-Test für KI-Videos

Stell dir vor, du hast einen sehr klugen Freund, der ein KI-Modell ist. Dieser Freund kann Videos schauen und Fragen dazu beantworten. Bisher waren die Tests für diesen Freund eher wie ein Wahrheitsspiel für Kinder: „Was trägt der Mann auf dem Bild?" oder „Welche Farbe hat das Auto?". Man konnte die Antwort oft schon nach einem einzigen kurzen Blick erraten.

Die Forscher von PerceptionComp sagen jedoch: „Das ist zu einfach! Ein echter KI-Forscher muss nicht nur sehen, sondern auch nachdenken und das Video immer wieder neu anschauen, um alle Hinweise zu finden."

Hier ist die Idee hinter dem neuen Benchmark (einem Testsystem) in einfachen Worten:

1. Das Problem: Der „Ein-Blick"-Fehler

Bisherige Tests waren wie ein Fotospick. Wenn du ein Foto von einer Party siehst, kannst du sofort sagen: „Da steht ein Mann mit rotem Hut." Das ist einfach.
Aber im echten Leben ist es wie ein Detektiv-Fall. Stell dir vor, du musst herausfinden:

„In welchem Stockwerk war die Person zuletzt, bevor sie ihre Wohnungsschlüssel (nicht die Büroschlüssel!) fallen ließ?"

Um das zu lösen, musst du:

  1. Den Schlüssel identifizieren (Welcher ist der Wohnungsschlüssel?).
  2. Ihn im ganzen Video verfolgen (Wo war er?).
  3. Den Moment des Fallens finden.
  4. Zurückrechnen, wo die Person vorher war.

Wenn man das Video nur ein einziges Mal ansieht, ist die Chance, das zu lösen, fast null. Man muss wie ein Detektiv immer wieder zurückspulen und Details suchen. Genau das fehlt den aktuellen KI-Modellen.

2. Die Lösung: PerceptionComp (Der „Komplexitäts-Test")

Die Forscher haben einen neuen Test namens PerceptionComp gebaut.

  • Die Videos: Sie sind nicht langweilig. Sie sind wie ein überfüllter Basar oder ein chaotischer Stadtspaziergang. Es gibt viele Menschen, viele Bewegungen, viele Objekte und ständig Wechsel. Man kann sie nicht in einem Satz zusammenfassen.
  • Die Fragen: Sie sind wie ein Schnitzeljagd-Rätsel. Um die Antwort zu finden, muss man mehrere Hinweise aus verschiedenen Zeitpunkten des Videos kombinieren.
    • Beispiel: „Finde den gelben Lieferwagen. Suche die Person, die neben ihm steht. Was trägt sie, als der rote Bus vorbeifährt?"
    • Wenn man einen Schritt verpasst, ist die ganze Kette kaputt.

3. Der Test: Menschen vs. KI

Die Forscher haben Menschen gebeten, diese Rätsel zu lösen, um zu sehen, wie schwer es wirklich ist.

  • Menschen: Wenn sie das Video so oft ansehen dürfen, wie sie wollen, lösen sie fast alle Rätsel (100 %). Aber es dauert lange! Sie müssen hin- und herspulen, Notizen machen und sich Dinge merken.
  • Menschen (Einmal-Schauen): Wenn sie das Video nur einmal ansehen dürfen, landen sie fast beim Raten (nur ca. 19 % richtig). Das zeigt: Man kann diese Fragen nicht aus dem Gedächtnis oder durch bloßes „Raten" lösen. Man braucht das Video.
  • KI-Modelle: Hier wird es spannend. Die besten KI-Modelle der Welt (wie Gemini oder GPT) liegen bei nur ca. 46 %. Das ist deutlich schlechter als ein Mensch, der Zeit hat.

4. Warum scheitern die KI-Modelle?

Die Forscher haben herausgefunden, wo die KI hakt:

  • Sie verlieren den Faden: Stell dir vor, du suchst in einem großen Wald nach einem bestimmten Vogel. Die KI sieht den Vogel, vergisst aber nach 10 Sekunden, dass sie ihn eigentlich suchen sollte, und fängt an, über Bäume zu reden.
  • Sie sehen nicht genau genug: Sie erkennen vielleicht, dass da ein „gelbes Auto" ist, aber sie verwechseln es mit einem anderen gelben Auto, das später kommt.
  • Zu viel Nachdenken hilft nicht immer: Man dachte, wenn die KI mehr Zeit zum „Nachdenken" (Rechnen) hat, wird sie besser. Das stimmt teilweise, aber wenn sie die visuellen Details (das Sehen) nicht richtig versteht, hilft auch das beste Nachdenken nicht. Es ist wie ein Genie, das eine Landkarte falsch liest – es rechnet perfekt, kommt aber am falschen Ort an.

5. Was bedeutet das für die Zukunft?

PerceptionComp ist wie ein Spiegel für KI. Es zeigt uns, dass KI zwar sehr gut darin ist, Texte zu verstehen oder einfache Bilder zu erkennen, aber noch nicht gut darin ist, komplexe Geschichten in Videos zu verfolgen.

Die Botschaft ist: Um wirklich intelligente KI zu bauen, die wie ein Mensch Videos versteht (z. B. für Roboter oder autonome Autos), müssen wir sie nicht nur „dümmer" machen, sondern ihnen beibringen, wiederholt hinzusehen und Hinweise über die Zeit hinweg zu verknüpfen.

Zusammengefasst:
PerceptionComp ist ein neuer, sehr schwerer Test, der KI-Modelle zwingt, wie echte Detektive zu arbeiten: nicht nur einen Blick werfen, sondern das Video wie ein Puzzle Stück für Stück zusammensetzen. Und aktuell sind die KI-Detektive noch weit davon entfernt, die menschlichen Detektive zu schlagen.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →