MovieTeller: Tool-augmented Movie Synopsis with ID Consistent Progressive Abstraction

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie versuchen, einem Freund den Inhalt eines ganzen Films zu erzählen, den Sie gerade gesehen haben. Das ist gar nicht so einfach! Wenn der Film zwei Stunden lang ist, vergessen Sie vielleicht, wie die Hauptfigur aussieht, oder Sie verwechseln zwei Schauspieler.

Genau dieses Problem haben die Forscher mit MovieTeller gelöst. Hier ist eine einfache Erklärung, wie das funktioniert, ohne technische Fachbegriffe:

Das Problem: Der "verwirrte" KI-Filmkritiker

Stellen Sie sich eine sehr intelligente KI vor (ein sogenanntes "Vision-Language-Modell"), die Filme schauen und zusammenfassen kann. Diese KI ist super darin, ein einzelnes Bild zu beschreiben. Aber wenn man ihr einen ganzen Film zeigt, wird sie schnell verwirrt:

Das Identitäts-Problem: In Szene 1 nennt sie den Helden "einen Mann". In Szene 50, wo er wieder auftaucht, nennt sie ihn plötzlich "einen Typen" oder "einen Polizisten". Sie erkennt nicht, dass es derselbe Mann ist.
Das Gedächtnis-Problem: Ein ganzer Film ist zu lang für das "Gehirn" der KI. Sie vergisst den Anfang, wenn sie beim Ende ist, und die Geschichte wirkt wie ein zerfetztes Puzzle, kein zusammenhängender Film.

Die Lösung: MovieTeller – Der Regisseur mit Assistenten

MovieTeller ist wie ein neuer, smarter Regisseur, der nicht alles allein machen muss. Er nutzt zwei geniale Tricks:

1. Der "Detektiv-Assistent" (Das Werkzeug)

Statt dass die KI raten muss, wer wer ist, holt sie sich Hilfe von einem spezialisierten Gesichtserkennungs-Tool (wie ein digitaler Detektiv).

Die Analogie: Stellen Sie sich vor, Sie schauen einen Film und haben ein Namensschild vor jedem Schauspieler. Der Detektiv schaut sich jeden Frame an und sagt: "Achtung, das ist Tom Hanks in diesem Bild, und das ist Meryl Streep dort."
Der Effekt: Diese Informationen werden der KI als "Fakten" mitgeteilt. Die KI muss nicht mehr raten. Sie sagt sofort: "Hier ist Tom Hanks, der mit Meryl Streep spricht." Das verhindert, dass die Charaktere ihre Namen im Laufe des Films verlieren.

2. Der "Zusammenfassungs-Trichter" (Progressive Abstraktion)

Statt den ganzen Film auf einmal zu lesen (was für die KI zu viel ist), macht MovieTeller es in Etappen, wie beim Zusammenfassen eines Buches:

Schritt 1 (Die Szenen): Zuerst fasst die KI jede einzelne Szene kurz zusammen.
Schritt 2 (Die Kapitel): Dann nimmt sie diese Szenen-Zusammenfassungen und fasst sie zu "Kapiteln" zusammen (z. B. "Der erste Teil des Films").
Schritt 3 (Der Film): Schließlich nimmt sie alle Kapitel-Zusammenfassungen und schreibt daraus die endgültige, perfekte Filmzusammenfassung.
Die Analogie: Es ist wie beim Lesen eines Romans. Man liest nicht Seite für Seite auf einmal, um den Plot zu verstehen. Man liest ein Kapitel, fasst es im Kopf zusammen, dann das nächste, und am Ende hat man die ganze Geschichte im Kopf.

Warum ist das so gut?

In Tests haben die Forscher gezeigt, dass MovieTeller viel besser ist als die alten Methoden:

Keine Verwechslungen: Die Charaktere bleiben immer dieselben Personen.
Bessere Geschichte: Die Zusammenfassung liest sich wie eine echte Geschichte, nicht wie eine Liste von zufälligen Bildern.
Kein teures Training: Das Tolle ist: Man muss die KI nicht mühsam neu lernen lassen (was Jahre dauern und Millionen kosten würde). MovieTeller nutzt einfach die vorhandenen, starken KI-Modelle und fügt nur diese "Werkzeuge" hinzu. Es ist wie ein "Steck-und-Lös"-System.

Zusammenfassend: MovieTeller ist wie ein Filmkritiker, der einen super Gedächtnis-Trick (Gesichtserkennung) und einen klugen Plan (Schritt-für-Schritt-Zusammenfassung) nutzt, um Ihnen eine perfekte, fehlerfreie Zusammenfassung Ihres Lieblingsfilms zu geben – ohne dass er dabei den Überblick verliert.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die automatische Zusammenfassung langer Videos (z. B. Spielfilme oder Serien) stellt für bestehende Vision-Language-Modelle (VLMs) eine erhebliche Herausforderung dar. Obwohl VLMs bei der Bildbeschreibung einzelner Bilder erfolgreich sind, scheitern sie in langfristigen Kontexten an zwei Hauptproblemen:

Fehlende ID-Konsistenz bei Charakteren: Allgemeine VLMs können spezifische Charaktere über die gesamte Handlung hinweg nicht konsistent identifizieren. Sie beschreiben denselben Protagonisten in verschiedenen Szenen unterschiedlich (z. B. einmal als „ein Mann", dann als „eine Person"), was zu Halluzinationen und einem Verlust der Identität führt.
Gebrochene narrative Kohärenz: Die quadratische Komplexität des Self-Attention-Mechanismus von Transformern macht die Verarbeitung ganzer Filmsequenzen in einem Durchlauf rechnerisch untragbar. Herkömmliche Methoden, die auf uniformem Sampling oder einfacher Verkettung basieren, führen zu fragmentierten Zusammenfassungen ohne zusammenhängende Story.

2. Methodik: MovieTeller Framework

Das vorgeschlagene MovieTeller-Framework ist ein trainingsfreies, modulares System, das auf zwei Kernprinzipien basiert: Tool-Augmentation (Erweiterung durch Werkzeuge) und Progressive Abstraction (schrittweise Abstraktion). Es verzichtet auf das Fine-Tuning des Hauptmodells und nutzt stattdessen „Plug-and-Play"-Komponenten.

Der Prozess gliedert sich in drei Hauptphasen:

A. Szenensegmentierung und Keyframe-Extraktion

Das Rohvideo wird mittels PySceneDetect in semantisch kohärente Szenen unterteilt.
Aus jeder Szene wird ein repräsentativer Keyframe extrahiert.
Ein Qualitäts-Gate filtert nicht-informative Übergangsbilder (z. B. schwarze Bildschirme) heraus, indem es Helligkeit und Pixel-Standardabweichung prüft.

B. Faktengestützte Szenenbeschreibung durch Tool-Augmentation

Dies ist der Kernbeitrag zur Lösung des Identitätsproblems:

Externe Tools: Ein spezialisierter Gesichtserkennungs-Tool (basierend auf InsightFace und ArcFace) wird als externes Werkzeug aufgerufen.
Factual Groundings: Basierend auf einem Cast-Metadaten-Set (Name und Referenzbilder der Schauspieler) werden Gesichter in den Keyframes erkannt und identifiziert.
Ergebnis: Für jedes erkannte Gesicht wird eine Faktengrundlage erstellt, bestehend aus dem korrekten Namen ( $n_j$ ) und dem Bounding-Box-Koordinaten ( $b_j$ ).
Prompting: Diese Informationen werden in den Prompt für das VLM injiziert. Das Modell erhält nicht nur das Bild, sondern explizite Anweisungen wie: „Der Schauspieler 'Name' befindet sich in der Bounding Box [Koordinaten]." Dies zwingt das VLM, die visuelle Darstellung mit einer verifizierten Identität zu verknüpfen und verhindert Identitätswechsel.

C. Progressive Abstraktion

Um das Kontextlängenproblem zu lösen und eine kohärente Handlung zu erzeugen, wird die Zusammenfassung in Stufen durchgeführt:

Szenen-zu-Kapitel: Die detaillierten Szenenbeschreibungen werden in „Kapitel" gruppiert. Das VLM fasst jedes Kapitel parallel zusammen, wobei die identifizierten Charakternamen beibehalten werden.
Kapitel-zu-Synopse: Die Kapitelzusammenfassungen werden zu einem Entwurf verkettet und dem VLM erneut vorgelegt, diesmal mit der Rolle eines Drehbuchautors. Das Modell synthetisiert diese Inputs zu einer globalen, kohärenten Filmsynopse, die den gesamten narrativen Bogen (von der Exposition bis zur Auflösung) abdeckt.

3. Hauptbeiträge

Neues Framework: Einführung von MovieTeller, einem trainingsfreien Ansatz, der ID-konsistente und narrativ kohärente Zusammenfassungen für lange Videos generiert.
Tool-Augmented Architektur: Operationalisierung der Idee, ein generalistisches VLM durch einen spezialisierten Experten-Tool (Gesichtserkennung) zu erweitern, um faktische Grundlagen (Groundings) für die Identitätssicherung zu schaffen.
Progressive Abstraktion: Ein mehrstufiger Prozess, der Informationen systematisch von Szenen über Kapitel bis zur Gesamtsynopse verdichtet, was die Kontextgrenzen aktueller Modelle umgeht und menschliche kognitive Muster nachahmt.
Umfassende Validierung: Evaluation an einem Datensatz von 100 Spielfilmen (über 10.000 Minuten Inhalt) mit verschiedenen VLMs (Qwen2.5-VL, InternVL3, WeThink).

4. Ergebnisse

Die Experimente zeigen signifikante Verbesserungen gegenüber End-to-End-Baselines und Ablationsstudien (z. B. „Name-Only" ohne Bounding-Box):

Faktische Genauigkeit & ID-Konsistenz:
- Die ID-Konsistenz verbesserte sich um bis zu 117 % (von 1,75 auf 3,80 auf einer 5-Punkte-Skala) im Vergleich zur Basislinie ohne Hinweise.
- Der Einsatz von Bounding-Boxen ist entscheidend: Nur Namen anzugeben reicht nicht aus, da das VLM in dichten Szenen oft nicht weiß, wer wo ist. Die räumliche Verankerung eliminiert diese Mehrdeutigkeit.
Narrative Kohärenz:
- MovieTeller erreichte die höchsten Gesamtscores in der „LLM-as-a-Judge"-Evaluation (z. B. 3,02 vs. 2,17 bei InternVL3).
- Die qualitative Analyse (Fallstudie zu The Bullet Vanishes) zeigt, dass Baselines oft generische, identitätslose Zusammenfassungen liefern, während MovieTeller komplexe Plot-Dynamiken und spezifische Charakterinteraktionen korrekt erfasst.
Menschliche Bewertung:
- In einem 3-Wege-Vergleich bevorzugten menschliche Evaluatoren MovieTeller in 62 % der Fälle (bei Qwen2.5-VL als Basis), während die reine Baseline nur in 6 % der Fälle gewählt wurde.
Metriken:
- Höhere BERTScore-Werte (semantische Ähnlichkeit) im Vergleich zu Baselines.

5. Bedeutung und Ausblick

Die Arbeit demonstriert, dass die Kombination aus spezialisierten Werkzeugen und strukturierten Abstraktionspipelines die Grenzen aktueller VLMs bei langen Videos überwinden kann, ohne teures Fine-Tuning zu benötigen.

Bedeutung: Der Ansatz bietet eine skalierbare Lösung für Content-Indexierung, personalisierte Empfehlungen und Archivierung, bei der die Integrität der Charakteridentität und die logische Erzählstruktur gewahrt bleiben.
Limitationen & Zukunft: Das System ist derzeit auf visuelle Daten beschränkt und hängt von der Vollständigkeit der Gesichtsdatenbank ab. Zukünftige Arbeiten sollen Audio-Modality (Dialoge via Speaker-Diarization) integrieren und dynamischere Tool-Nutzungsprotokolle erforschen. Zudem ist das Framework modular und auf andere Domänen (z. B. Sportanalyse, Dokumentationen) übertragbar.