FocusGraph: Graph-Structured Frame Selection for Embodied Long Video Question Answering

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen riesigen, ungeschnittenen Videoblog von jemandem, der einen ganzen Tag lang durch sein Haus läuft, kocht, putzt und mit Freunden spricht. Das Video ist 10 Stunden lang.

Jetzt kommt ein Freund und fragt dich: "Was hast du genau gemacht, kurz bevor du die Kaffeemaschine angeschlossen hast?"

Wenn du dieses Video als normaler Mensch ansehen müsstest, würdest du stundenlang scrollen, um die eine Sekunde zu finden, die zählt. Ein Computer-KI-Modell (ein sogenanntes "MLLM") hat das gleiche Problem: Wenn man ihm das ganze 10-Stunden-Video auf einmal gibt, wird es überfordert. Es vergisst Details, braucht ewig zum Nachdenken und macht am Ende vielleicht sogar dumme Fehler, weil es zu viel "Rauschen" (unnötige Bilder) verarbeiten muss.

Die Forscher in diesem Papier haben eine Lösung namens FocusGraph entwickelt. Hier ist, wie es funktioniert, ganz einfach erklärt:

1. Das Problem: Der "Elefant im Raum"

Stell dir vor, du musst einen Elefanten in ein kleines Zimmer bringen. Du kannst ihn nicht einfach so hineinstopfen. Genauso ist es mit langen Videos für KIs: Sie können nicht das ganze Video auf einmal "fressen". Frühere Methoden haben versucht, das Video zu komprimieren (wie ein sehr unscharfes Foto) oder einfach alle 10 Sekunden ein Bild herauszuschnipsen. Das Problem dabei: Entweder ist das Bild zu unscharf, um etwas zu erkennen, oder man verpasst genau den Moment, der wichtig ist.

2. Die Lösung: FocusGraph – Der kluge Bibliothekar

FocusGraph arbeitet in zwei Schritten, wie ein sehr effizienter Bibliothekar, der dir ein Buch sucht, ohne alle Bücher einzeln aufzuschlagen.

Schritt A: Der "Zusammenfassungs-Filter" (Scene-Caption LLM Selector)

Statt sich das Video Bild für Bild anzusehen, schaut sich FocusGraph das Video erst in kleinen Häppchen (Clips) an.

Die Analogie: Stell dir vor, für jedes 10-Sekunden-Häppchen schreibt ein schneller Assistent eine kurze Zusammenfassung auf einen Zettel.
- Zettel 1: "Jemand kocht Kaffee, sieht eine Tasse."
- Zettel 2: "Jemand geht zur Küche, öffnet den Kühlschrank."
- Zettel 3: "Jemand repariert eine Lampe."
Der Trick: Diese Zusammenfassungen werden in eine Art Landkarte (Graph) umgewandelt. Es ist nicht mehr ein riesiger Haufen Bilder, sondern eine Liste von Texten, die beschreiben, was passiert ist und wann.
Die Frage: Wenn du fragst: "Was vor der Kaffeemaschine?", schaut der KI-Bibliothekar nur auf diese Text-Zettel. Er muss nicht das ganze Video sehen! Er findet sofort: "Ah, Zettel 1 und 2 sind relevant." Er ignoriert alles andere. Das spart enorm viel Zeit und Rechenleistung.

Schritt B: Der "Schnappschuss-Macher" (PSFR)

Jetzt hat der KI-Bibliothekar die relevanten Zettel (die Clips) gefunden. Aber um die genaue Antwort zu geben, braucht die KI noch ein paar echte Bilder aus diesen Clips, nicht nur die Textzusammenfassung.

Das Problem: Selbst in den relevanten Clips gibt es viele Bilder, die sich fast gar nicht unterscheiden (z.B. 50 Bilder, auf denen einfach nur die Kaffeemaschine steht).
Die Lösung (PSFR): Hier kommt der zweite Teil ins Spiel. Ein cleverer Algorithmus schaut sich die Clips an und sucht nach Bewegung und Veränderung.
- Die Analogie: Stell dir vor, du filmst einen Tanz. Wenn die Tänzer stillstehen, brauchst du nur ein Bild. Aber wenn sie sich drehen, springen oder die Arme heben, brauchst du ein neues Bild, um die Bewegung zu verstehen.
- Der Algorithmus (PSFR) filtert alle "langweiligen", statischen Bilder heraus und behält nur die wichtigen Momente (die "Keyframes"), in denen sich etwas tut. Er macht das ganz schnell, ohne dass er dafür extra trainiert werden muss (wie ein Werkzeug, das man einfach benutzt).

3. Das Ergebnis

Am Ende hat die KI:

Die richtigen Abschnitte des Videos gefunden (durch die Text-Zettel).
Die wichtigsten Bilder aus diesen Abschnitten ausgewählt (durch den Bewegungsalgorithmus).
Diese wenigen, perfekten Bilder der großen KI gegeben, die dann die Antwort formuliert.

Warum ist das so toll?

Geschwindigkeit: Weil die KI nicht das ganze Video sieht, sondern nur die "Zusammenfassungen" und ein paar ausgewählte Bilder, ist sie viel schneller.
Genauigkeit: Weil sie nicht von unnötigen Bildern abgelenkt wird, macht sie weniger Fehler.
Echtwelt-Tauglichkeit: Das ist besonders wichtig für Roboter oder intelligente Agenten, die in der echten Welt unterwegs sind. Sie müssen schnell Entscheidungen treffen, basierend auf dem, was sie gerade gesehen haben, ohne stundenlang zu "grübeln".

Kurz gesagt: FocusGraph ist wie ein sehr schlauer Assistent, der dir nicht den ganzen Stapel Akten auf den Tisch legt, sondern dir nur die drei Seiten zeigt, auf denen die Antwort steht, und dabei noch sicherstellt, dass die Bilder auf diesen Seiten scharf und aussagekräftig sind.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Fähigkeit, lange Videos zu verstehen, ist für embodied intelligente Agenten (z. B. Roboter) entscheidend, da deren Effektivität von der Akkumulation und Nutzung langfristiger perzeptiver Erinnerungen abhängt.

Herausforderungen bei langen Videos: Die direkte Anwendung von Multimodalen Large Language Models (MLLMs) auf lange Videos führt zu einem drastischen Anstieg der Inferenzkosten und einer Verschlechterung der Antwortqualität, da die Kontextkapazität begrenzt ist und ein „Attention-Dilution"-Effekt (Verdünnung der Aufmerksamkeit) auftritt.
Spezifika von Egocentric-Videos: Videos aus der Ich-Perspektive weisen häufige Kamerabewegungen, Verdeckungen, Perspektivenwechsel und visuell repetitive Inhalte auf. Die für eine Frage relevante Information ist oft über das gesamte Video verteilt (spärlich verteilt).
Limitationen bestehender Methoden:
- Kompression: Reduziert Token-Anzahl, führt aber zu Informationsverlust.
- Frame-Selektion: Benötigt oft komplexe Suchstrategien. Bestehende Zwei-Stufen-Methoden behandeln Videos oft nur als Bildsequenzen, was die maximale Anzahl verarbeitbarer Frames begrenzt und die Recheneffizienz mindert.

2. Methodik: FocusGraph

FocusGraph ist ein modulares Framework, das das Verständnis langer Videos in zwei komplementäre Stufen zerlegt: eine leichte, abfragebasierte Clip-Auswahl und eine training-freie Identifizierung von Schlüsselbildern (Keyframes).

A. Clip-Level Scene Graph Construction (Stufe 1)

Anstatt rohe, niedrig aufgelöste Frame-Sequenzen zu verarbeiten, erstellt das System eine kompakte textuelle Repräsentation der Szene:

Das Video wird in nicht-überlappende Clips unterteilt.
Ein vortrainiertes MLLM (Qwen2.5-VL-7B) generiert für jeden Clip einen hierarchischen textuellen Szenengraphen. Dieser enthält:
- Eine Liste erkannter Objekte und Subjekte.
- Eine natürliche Sprachbeschreibung der Szene und der Aktionen.
- Räumliche Beziehungen zwischen Objekten.
- Zeitintervalle (Start- und Endzeit des Clips).
Diese Graphen werden in Text-Captions umgewandelt, die Zeitinformationen enthalten.

B. Scene-Caption LLM Selector (Stufe 2)

Ein trainierbarer Selektor filtert die relevanten Clips basierend auf der Benutzeranfrage heraus:

Architektur: Die textuellen Captions werden in Embeddings umgewandelt (via ModernBERT-large) und mittels leichter Adapter-Netzwerke in den Embedding-Raum des LLM projiziert.
Training: Das Modell wird mittels Supervised Fine-Tuning (SFT) auf dem GenS-Video-150K-Datensatz trainiert. Es lernt, die Top-8 relevantesten Clips für eine gegebene Frage vorherzusagen und gleichzeitig die Caption-Rekonstruktion zu optimieren.
Vorteil: Der Selektor operiert auf einer kompakten textuellen Repräsentation statt auf tausenden von Bildern, was die Recheneffizienz massiv steigert.

C. Patchwise Sparse-Flow Retention (PSFR) (Stufe 3)

Aus den ausgewählten Clips müssen nun die wichtigsten Einzelbilder (Keyframes) für das finale MLLM extrahiert werden. Dies geschieht durch eine training-freie Methode:

Prinzip: PSFR nutzt optischen Fluss (Sparse Optical Flow), um strukturelle Änderungen in der Bildsequenz zu verfolgen.
Mechanismus:
1. Das Bild wird in Patches unterteilt.
2. Ecken (Shi-Tomasi corners) werden verfolgt.
3. Es wird ein „Retention Ratio" berechnet: Wie viele Ecken bleiben in einem Patch von Frame zu Frame erhalten?
4. Wenn viele Patches ihre Ecken verlieren (hohe Bewegung/Änderung), wird ein „PSFR Event" ausgelöst.
Auswahl: Ein zweiter Schritt wählt basierend auf Qualitätsmetriken (Kanten, Entropie, Bewegung) und Diversität eine feste Anzahl $K$ von Keyframes aus, die redundanten Inhalt vermeiden. Die Hyperparameter werden durch Program Evolution optimiert.

D. Finale Antwortgenerierung

Die ausgewählten $K$ Keyframes werden in ein MLLM eingespeist, das die eigentliche Aufgabe (z. B. Navigation oder Multiple-Choice-Fragen) löst.

3. Hauptbeiträge

FocusGraph Framework: Ein neuartiger Ansatz, der abfragebasierte Clip-Auswahl mit einer training-freien Keyframe-Identifikation (PSFR) kombiniert.
Hierarchische textuelle Szenengraphen: Eine effiziente Repräsentation für das langfristige Reasoning, die unabhängig von rohen Frame-Sequenzen ist und Objekte, Interaktionen und Zeitbeziehungen kodiert.
Training-freie PSFR-Methode: Ein schneller Algorithmus zur Extraktion von Keyframes basierend auf visuellen Änderungen, der keine zusätzliche Optimierung erfordert.
State-of-the-Art Ergebnisse: Das System erreicht Spitzenleistungen auf Benchmarks für embodied LVQA bei gleichzeitig drastisch reduzierter Inferenzzeit.

4. Ergebnisse

Die Evaluation erfolgte auf den Benchmarks FindingDory (Roboter-Manipulation im Simulator) und HourVideo (Egocentric-Videos aus Ego4D).

Genauigkeit:
- Auf FindingDory übertrifft FocusGraph (mit nur 8 Frames und Qwen-2.5-VL-7B) Methoden wie ViaRL und erreicht Ergebnisse, die nahe an GenS liegen, jedoch mit deutlich besserer Effizienz.
- Auf HourVideo erzielt FocusGraph eine Gesamtleistung, die mit GenS konkurriert und ViaRL sowie MaxInfo in vielen Kategorien (Navigation, Zusammenfassung) übertrifft.
Effizienz:
- Inferenzzeit: FocusGraph ist signifikant schneller als agentenbasierte Methoden (z. B. ReMEmbR: 80s vs. FocusGraph-Selektor: 0,6s pro Frage).
- Token-Nutzung: Der Selektor nutzt weniger als 1 Token pro Frame im Vergleich zu 16 Tokens bei Baselines wie GenS oder ViaRL.
- PSFR: Der Keyframe-Selektor läuft auf der CPU und ist fast doppelt so schnell wie MaxInfo.

5. Bedeutung und Fazit

FocusGraph adressiert das fundamentale Problem der Skalierbarkeit von MLLMs für lange Videos im Bereich der embodied AI.

Trennung von Semantik und Redundanz: Das Paper zeigt, dass die semantische Selektion relevanter Episoden (durch den LLM-Selektor) effektiv von der visuellen Redundanzreduktion (durch PSFR) entkoppelt werden kann.
Skalierbarkeit: Durch die Nutzung von Graphen-basierten Textrepräsentationen anstelle von Rohbildern wird der Rechenaufwand für das langfristige Reasoning massiv gesenkt.
Praxisrelevanz: Die Methode ermöglicht es intelligenten Agenten, komplexe, langfristige visuelle Erfahrungen zu verarbeiten, ohne durch hohe Latenzzeiten oder Speicherbeschränkungen limitiert zu werden. Dies ist ein wichtiger Schritt hin zu autonomen Robotern, die in dynamischen, langfristigen Umgebungen operieren können.