RIVER: A Real-Time Interaction Benchmark for Video LLMs

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der „Bücherwurm" vs. der „Live-Reporter"

Stell dir vor, du hast einen sehr schlauen KI-Assistenten. Bisher war dieser Assistent wie ein Bücherwurm: Wenn du ihm einen Film zeigst, schaut er sich den ganzen Film erst einmal komplett an, merkt sich alles, und erst danach antwortet er auf deine Fragen.

Das funktioniert super, wenn du einen Film zu Hause im Wohnzimmer ansiehst. Aber was ist, wenn du den Assistenten in eine Augmented-Reality-Brille (wie eine futuristische Sonnenbrille) steckst, die dir live den Weg durch eine Stadt zeigt? Oder wenn er einem Roboter hilft, der gerade eine Küche aufräumt?

Dort gibt es keine Zeit, den Film erst komplett anzuschauen. Der Assistent muss live mithalten, während die Bilder fließen. Er muss wissen: „Was habe ich vor 10 Sekunden gesehen?", „Was passiert gerade jetzt?" und „Was wird wahrscheinlich als Nächstes passieren?".

Bisherige KI-Modelle waren hier oft wie ein Schauspieler, der sein Skript auswendig gelernt hat, aber wenn man ihn mitten im Stück unterbricht und fragt: „Was hast du vor 5 Minuten gesagt?", stottert er oder vergisst es.

Die Lösung: RIVER Bench (Der neue Test)

Die Forscher haben einen neuen Test entwickelt, den sie RIVER Bench nennen. Stell dir das wie einen Führerschein-Prüfung für KI-Assistenten vor, die in Echtzeit arbeiten sollen.

Der Test prüft drei wichtige Fähigkeiten, die wir alle haben, wenn wir mit Menschen sprechen:

Rückblick (Retro-Memory):
- Die Situation: Jemand fragt: „Wo habe ich meine Brille hingelegt?"
- Die Aufgabe: Der Assistent muss sich an etwas erinnern, das vor 30 Sekunden oder sogar vor einer Stunde passiert ist.
- Der Vergleich: Wie ein guter Gesprächspartner, der sich an Details aus der Vergangenheit erinnert, statt nur auf das zu hören, was gerade gesagt wird.
Live-Wahrnehmung (Live-Perception):
- Die Situation: Jemand fragt: „Wie viele Vögel fliegen gerade vorbei?"
- Die Aufgabe: Der Assistent muss das jetzt gerade Geschehen sofort erkennen und antworten.
- Der Vergleich: Wie ein Sportkommentator, der sofort sagt: „Tor!", sobald der Ball das Netz berührt.
Proaktive Reaktion (Pro-Response):
- Die Situation: Jemand sagt: „Sag mir Bescheid, sobald der Lieferwagen vorfährt."
- Die Aufgabe: Der Assistent muss den Film weiterlaufen lassen, warten und genau in dem Moment reagieren, wenn das Ereignis eintritt.
- Der Vergleich: Wie ein Wachhund, der nicht bellt, wenn er nichts sieht, aber sofort anschlägt, sobald der Postbote die Tür öffnet.

Was haben die Forscher herausgefunden?

Sie haben viele verschiedene KI-Modelle getestet. Das Ergebnis war überraschend:

Die alten Modelle (die den ganzen Film erst ansehen) waren bei einfachen Fragen gut, aber im „Live-Modus" völlig überfordert. Sie vergaßen Dinge schnell oder reagierten zu spät.
Die neuen Online-Modelle waren besser, aber immer noch nicht perfekt. Sie hatten oft Probleme, sich Dinge über längere Zeit zu merken (wie ein vergesslicher Freund).

Der neue Trick: Das „Gedächtnis-System"

Um das zu verbessern, haben die Forscher eine neue Methode entwickelt. Sie nennen es Langzeit- und Kurzzeitgedächtnis.

Kurzzeitgedächtnis: Das ist wie dein Arbeitsgedächtnis. Es hält die letzten paar Sekunden fest (was gerade passiert).
Langzeitgedächtnis: Das ist wie ein komprimiertes Notizbuch. Wenn die Zeit vergeht, fasst die KI die alten Bilder zusammen und speichert nur die wichtigsten Details, damit sie nicht den Speicher voll macht, aber trotzdem weiß, was vor einer Stunde geschah.

Das Ergebnis: Wenn sie ihre KI mit diesem neuen Gedächtnis-System trainierten, wurde sie plötzlich viel besser im „Live-Modus". Sie konnte sich Dinge besser merken und reagierte schneller auf Ereignisse in der Zukunft.

Warum ist das wichtig?

Stell dir vor, du hast einen Roboter, der dir beim Kochen hilft.

Ohne RIVER: Der Roboter schaut sich erst den ganzen Kochfilm an und sagt dann: „Oh, du hast das Ei vergessen." (Zu spät!)
Mit RIVER: Der Roboter sieht live zu, merkt sich, dass du das Ei noch nicht geholt hast, und sagt sofort: „Hey, du hast das Ei vergessen, bevor du es in die Pfanne wirfst."

Zusammengefasst:
Die Forscher haben einen neuen Test (RIVER) gebaut, um zu prüfen, wie gut KIs mit uns in Echtzeit reden können. Sie haben gezeigt, dass KIs lernen müssen, sich Dinge zu merken und auf die Zukunft zu warten, nicht nur auf das zu schauen, was gerade passiert. Mit ihrem neuen „Gedächtnis-Trick" sind KIs einen riesigen Schritt näher daran, echte, hilfreiche Begleiter im Alltag zu werden.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Multimodale Large Language Models (MLLMs) haben beeindruckende Fähigkeiten im Verständnis von Videos demonstriert, operieren jedoch fast ausschließlich im Offline-Paradigma. Das bedeutet, dass sie das gesamte Video vor der Beantwortung einer Frage verarbeiten. Dies verhindert eine echte Echtzeit-Interaktivität, die für Anwendungen wie Augmented Reality (AR), Robotik oder assistive Systeme erforderlich ist.

Bestehende Benchmarks adressieren die dynamischen Anforderungen von Online-Anwendungen unzureichend. Sie quantifizieren oft nicht:

Den zeitlichen Abbau des Gedächtnisses (Vergessenskurven).
Die Fähigkeit zur proaktiven Antizipation zukünftiger Ereignisse.
Den Trade-off zwischen Latenz und Genauigkeit bei Live-Abfragen.

Es fehlt ein umfassender Rahmen, der die Fähigkeit von Modellen bewertet, Streaming-Videos zu verarbeiten und zeitlich präzise auf historische, aktuelle und zukünftige Ereignisse zu reagieren.

2. Methodik: RIVER Bench

Die Autoren stellen RIVER Bench (Real-tIme intERaction Bench-mark for Video LLMs) vor, einen neuen Evaluierungsrahmen, der Interaktionen mit Streaming-Videos simuliert.

A. Aufgabenkategorien

Der Benchmark unterteilt Interaktionen in drei Hauptkategorien, basierend auf dem zeitlichen Verhältnis zwischen Frage (Query), Referenzereignis (Cue) und Antwort:

Retro-Memory (Rückblickendes Gedächtnis): Das Modell muss auf vergangene Ereignisse reagieren, die vor dem aktuellen Zeitpunkt stattfanden ( $t_V < t'$ ). Die Aufgaben sind in Zeitintervalle unterteilt (kurz: 15-30s, mittel: 30-60s, lang: 300-900s, sehr lang: 1800-3600s), um die Gedächtnispersistenz zu testen.
Live-Perception (Live-Wahrnehmung): Das Modell muss sofort auf Fragen zum aktuellen oder kurzfristigen visuellen Input reagieren ( $t' \le t_V \le t$ ). Dies testet die Echtzeit-Verarbeitungsfähigkeit.
Pro-Response (Proaktive Antwort): Das Modell muss den Video-Stream kontinuierlich überwachen und genau dann antworten, wenn ein vom Benutzer spezifiziertes Ereignis eintritt ( $t_V > t$ $t_{V} > t$ ). Dies umfasst zwei Untertypen:
- Instant: Einmalige Antwort bei Auftreten eines Ereignisses.
- Streaming: Kontinuierliche Beschreibung oder Anleitung (ähnlich Dense Captioning).

B. Datenaufbau und Qualitätskontrolle

Quellen: Daten wurden aus bestehenden Datensätzen gefiltert und neu annotiert (Vript-RR, LVBench, LongVideoBench, Ego4D, QVHighlights).
Präzision: Jede Frage ist mit exakten Zeitstempeln für Cue, Query und Antwort versehen.
Filterung: Ein mehrstufiger Prozess (Regeln + LLMs + menschliche Prüfung) entfernt Fragen, die ohne visuellen Input beantwortet werden können (Vermeidung von Sprach-Bias), oder solche mit zu langen/unklaren Zeitintervallen.
Statistik: Der Benchmark umfasst 1.067 Videos und 4.278 Fragen mit einer ausgewogenen Verteilung der Aufgabentypen und Videolängen.

C. Metriken

Für Retro-Memory und Live-Perception: Genauigkeit bei Multiple-Choice (MC) und offene Bewertung (OE) mittels Qwen2.5-72B.
Für Pro-Response: Eine neue Metrik zur Response Accuracy, die die zeitliche Übereinstimmung mit dem Ground-Truth-Zeitpunkt ( $t_g$ $t_{g}$ ) bewertet.
- Antworten innerhalb eines Toleranzfensters erhalten volle Punktzahl.
- Zu frühe Antworten erhalten 0 Punkte (falscher Alarm).
- Zu späte Antworten erhalten eine lineare Abwertung, um die sinkende Nützlichkeit zu reflektieren.

3. Schlüsselbeiträge und technische Innovationen

Definition des Online-Interaktionsformats: RIVER Bench definiert erstmals präzise die zeitlichen Abhängigkeiten (Query, Cue, Response) für Video-LLMs und ermöglicht so eine quantitative Bewertung von Vergangenheits-, Gegenwarts- und Zukunftsverständnis.
Architektur für Online-Inferenz: Die Autoren schlagen einen Framework vor, der Offline-Modelle für Online-Aufgaben adaptiert:
- Sliding Window: Verarbeitung von 1 Bild pro Sekunde (fps).
- Long-Short-Term-Memory (LSTM) Modul:
  - Short-Term: Aktuelle Videoframes im Fenster.
  - Long-Term: Komprimierte Token aus vergangenen Frames.
  - Mechanismus: Nutzung von Nearest-Neighbor-Averaging und Ähnlichkeitsberechnung, um redundante Informationen zu mergen und das Gedächtnis effizient zu halten.
Spezialisiertes Trainings-Dataset: Ein neues, feinabgestimmtes Trainingsset wurde erstellt, um Modelle proaktives Verhalten und zeitliche Sensibilität beizubringen. Das Training nutzt zufällige Zeitstempel für Queries, um die Generalisierung zu verbessern.

4. Ergebnisse und Analyse

Die Evaluation umfasste kommerzielle geschlossene Modelle (GPT-4o, Gemini-1.5), Open-Source-Modelle (VideoChat2, InternVL2.5, LLaVA-Video) und spezialisierte Online-Modelle (VideoLLM-Online, Flash-VStream).

Leistung von Offline-Modellen: Klassische Offline-Modelle schneiden bei Single-Question-Answering gut ab, versagen jedoch bei strengen Echtzeitanforderungen. Ihre Leistung bei Retro-Memory nimmt mit zunehmender Zeitdifferenz drastisch ab (Vergessenskurve).
Adaptierte Modelle: Durch den Einsatz des vorgeschlagenen Sliding-Window- und Memory-Frameworks konnten Offline-Modelle (z.B. VideoChat2, InternVL2.5) signifikant verbessert werden. Sie erreichten bei Live-Perception sogar bessere Ergebnisse als einige native Online-Modelle.
Proaktive Fähigkeiten: Native Online-Modelle wie VideoLLM-Online zeigten ohne Feinabstimmung auf RIVER Bench schwache Ergebnisse (Überanpassung an Offline-Formate). Nach dem Fine-Tuning mit dem RIVER-Datensatz verbesserte sich die Genauigkeit bei Pro-Response-Aufgaben um 11,28 %.
Gedächtniskurve: Modelle mit dem neuen Memory-Modul zeigten eine deutlich stabilere Behaltensleistung über Zeiträume von bis zu einer Stunde im Vergleich zu Modellen ohne Memory, wobei die Abfallkurve um 12 % flacher war.
Herausforderungen: Modelle haben generell Schwierigkeiten bei Fragen, die kausale Schlussfolgerungen (Causal Cues) erfordern, im Vergleich zu reinen visuellen Details (Fine-grained Cues).

5. Bedeutung und Ausblick

Paradigmenwechsel: RIVER Bench etabliert einen neuen Standard für die Bewertung von Video-LLMs, der sich von statischer Analyse hin zu dynamischer, zeitkritischer Interaktion bewegt.
Praktische Relevanz: Die Arbeit liefert die Grundlage für den Einsatz von MLLMs in Echtzeitszenarien wie Robotik, AR/VR und autonomen Systemen, wo Verzögerungen inakzeptabel sind.
Zukünftige Arbeit: Die Autoren identifizieren das Fehlen von Audio als Limitierung. Da Sprache eine natürliche Schnittstelle für Echtzeit-Interaktion ist, planen sie die Integration von Audio-Daten in zukünftige Versionen des Benchmarks.

Zusammenfassend demonstriert RIVER Bench, dass aktuelle Video-LLMs durch spezialisierte Architekturen (Memory-Module) und datengetriebenes Fine-Tuning (proaktive Trainingsdaten) in die Lage versetzt werden können, echte Echtzeit-Interaktionen zu meistern, und liefert die notwendigen Werkzeuge, um diesen Fortschritt zu messen.