Automatic Funny Scene Extraction from Long-form Cinematic Videos

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen riesigen, 2-Stunden-Film auf deinem Streaming-Account. Es ist ein tolles Werk, aber du hast nur 30 Sekunden Zeit, um zu entscheiden, ob du ihn dir ansehen willst. Oder du möchtest einen lustigen Clip teilen, um deine Freunde zum Lachen zu bringen. Früher musste ein menschlicher Mitarbeiter stundenlang den Film schauen, um diese perfekten Momente zu finden. Das ist mühsam, teuer und langsam.

Diese Forscher von Amazon Prime Video haben eine automatische „Lustigkeits-Maschine" gebaut, die genau das für sie erledigt. Hier ist, wie sie funktioniert, erklärt mit einfachen Bildern:

1. Das Problem: Der lange Film ist wie ein riesiger Ozean

Ein ganzer Film ist wie ein langer Ozean voller Wellen (Szenen). Die Herausforderung ist zweierlei:

Wo fängt eine Welle an und wo hört sie auf? (Das nennt man „Szenerkennung").
Welche Welle ist wirklich lustig? (Das ist die „Humor-Erkennung").

Bisher war das wie das Suchen nach einer Nadel im Heuhaufen, nur dass der Heuhaufen riesig ist und die Nadel manchmal gar keine Nadel, sondern ein lustiges Kissen ist.

2. Die Lösung: Ein dreistufiger Roboter-Workflow

Die Forscher haben einen Prozess entwickelt, der wie ein cleverer Filter funktioniert:

Schritt 1: Die Kamera-Pause (Shot-Detection)

Stell dir vor, der Film ist ein endloser Strom von Bildern. Der Roboter schaut sich an, wann die Kamera aufhört zu filmen und wo eine neue beginnt. Das ist wie das Schneiden eines langen Videobands in einzelne kleine Stücke. Dafür nutzen sie eine sehr scharfe Kamera-Auge-Software (TransNetV2), die weiß: „Aha, hier ist ein Schnitt!"

Schritt 2: Das Puzzle zusammenfügen (Szenerkennung)

Jetzt haben wir tausende kleine Videostücke. Aber welche gehören zusammen?

Das alte Problem: Früher haben Computer nur geschaut, ob sich die Farben ändern. Aber in einem Film kann die Farbe gleich bleiben, während sich die Geschichte ändert.
Die neue Idee: Der Roboter schaut sich nicht nur das Bild an, sondern liest auch, was im Bild passiert (wie ein Untertitel-Generator). Er nutzt eine Technik namens „Triplet-Loss".
- Die Analogie: Stell dir vor, du hast eine Gruppe von Freunden (eine Szene). Der Roboter lernt: „Diese drei Bilder gehören zu diesem Freund (Szene), aber das vierte Bild gehört zu einem anderen Freund." Er lernt also, welche Bilder „Freunde" sind und welche nicht.
- Durch das Kombinieren von Bild und Text kann er Szenen viel genauer zusammenfügen, selbst wenn der Ton fehlt oder nur wenige Bilder pro Szene verfügbar sind.

Schritt 3: Der Humor-Test (Die „Lach-Filter")

Jetzt haben wir fertige Szenen. Aber sind sie lustig? Hier kommt der eigentliche Clou:

Der Lach-Detektor: Der Roboter hört zu. Wenn er Lachen im Hintergrund oder im Publikum hört, ist das ein starkes Signal.
Der Text-Versteher: Er liest den Dialog. Er sucht nach dem klassischen Aufbau eines Witzes: Das „Setup" (die Vorbereitung) und die „Punchline" (der Witz am Ende). Er nutzt ein intelligentes Modell (ColBERT), das versteht, wie Sätze aufeinander aufbauen, um einen Witz zu erkennen.
Der Sicherheits-Filter (Der „Gute-Polizist"): Nicht alles, was zum Lachen bringt, ist gut. Wenn jemand geärgert wird oder jemand weint, ist das vielleicht laut, aber nicht lustig. Der Roboter hat einen speziellen Filter, der solche „schlechten Witze" (wie Mobbing) sofort aussortiert. Er sorgt dafür, dass nur gute Unterhaltung durchkommt.

3. Das Ergebnis: Ein Ranking der besten Momente

Am Ende gibt der Roboter nicht nur lustige Clips aus, sondern sortiert sie auch. Er gibt jedem Clip eine Punktzahl basierend auf:

Wie oft wurde gelacht?
Wie lange dauerte das Lachen?
Wie gut war der Witz im Text?
Wie kurz und knackig ist der Clip?

Das Ergebnis ist eine Liste der besten Momente, die du sofort ansehen kannst.

Warum ist das so cool?

Geschwindigkeit: Was früher Tage dauerte, geht jetzt in Minuten.
Qualität: In Tests haben menschliche Experten bestätigt, dass 87 % der gefundenen Clips wirklich lustig sind und 98 % der Szenen korrekt erkannt wurden.
Flexibilität: Das System funktioniert nicht nur bei Filmen, sondern auch bei Trailern (Vorschauen) und Serien.

Zusammenfassung in einem Satz

Die Forscher haben einen digitalen Regisseur gebaut, der wie ein sehr aufmerksamer Zuschauer den ganzen Film schaut, die besten Lachmomente herausschneidet, sicherstellt, dass nichts Beleidigendes dabei ist, und dir dann die perfekten Clips für deine nächste Pause serviert.

Das ist die Zukunft von Streaming: Weniger Suchen, mehr Lachen.

Each language version is independently generated for its own context, not a direct translation.

Problemstellung

Die Autoren adressieren die Herausforderung, automatisch unterhaltsame und hochwertige humorvolle Szenen aus langen filmischen Inhalten (Spielfilme, Web-Serien) zu extrahieren. Solche Clips sind entscheidend für die Erstellung von ansprechenden Vorschauen („Snackable Content") und personalisierten Inhalten auf Streaming-Plattformen wie Amazon Prime Video, um die Nutzerbindung zu steigern.

Die bestehenden manuellen Prozesse sind zeitaufwendig und teuer. Die Automatisierung stößt jedoch auf drei Hauptprobleme:

Robuste Szenenerkennung: Die Lokalisierung von Szenen in langen Videos ist komplex, da sie sowohl kurz- als auch langfristige Abhängigkeiten erfordert und oft an fehlenden großen annotierten Datensätzen leidet.
Präzise Humor-Identifikation: Humor ist multimodal (Text, Gestik, Prosodie, Kontext) und in langen Szenen schwer zu isolieren.
Filterung und Ranking: Es muss sichergestellt werden, dass nur angemessener Humor extrahiert wird (Vermeidung von Mobbing oder Beleidigungen) und die besten Szenen priorisiert werden.

Methodik

Das vorgestellte System ist eine End-to-End-Pipeline, die in drei Hauptblöcke unterteilt ist:

1. Shot-Erkennung und Szenensegmentierung

Shot-Erkennung: Es wird das vortrainierte Netzwerk TransNetV2 verwendet, um kontinuierliche Kamerasequenzen (Shots) zu identifizieren.
Multimodale Szenensegmentierung:
- Visuelle Kodierung: Ein Shot-Encoder kombiniert X-CLIP (ein Cross-Frame-Transformer) mit einem DINO-Projektionskopf. Dies erzeugt 4096-dimensionale visuelle Features pro Shot.
- Textuelle Kodierung: Da Audiodaten oft fehlen oder spärlich sind, werden Shot-Level-Captions mittels Video-LLaVA generiert und mit BLIP-2 zu 768-dimensionalen Text-Features kodiert.
- Fusion: Visuelle und textuelle Features werden zu einem 4864-dimensionalen Embedding verbunden.
Lernstrategie (Triplet Mining):
- Anstelle von reinen Kontrastverlusten ohne Anleitung wird ein geleiteter Triplet-Mining-Ansatz verwendet.
- Basierend auf den Ground-Truth-Daten von MovieNet-SSeg werden Triplets (Anker, Positiv, Negativ) generiert. Shots derselben Szene sind Positiv-Paare, Shots aus benachbarten Szenen dienen als harte Negativ-Paare.
- Ein Triplet Loss trainiert den Encoder, um intra-Szenen-Ähnlichkeit zu maximieren und inter-Szenen-Unterschiede zu betonen.
Supervised Fine-Tuning: Ein MLP-Head (Multi-Layer Perceptron) analysiert einen Fenster von benachbarten Shots (z. B. N vorherige und N nachfolgende), um die Szenengrenzen präzise zu bestimmen.

2. Multimodale Humor-Erkennung (Tagging)

Audio-Analyse: Ein auf ResNet18 basierendes Modell (trainiert auf Switchboard) erkennt Lachen im Audio.
Text-Analyse (Verbaler Humor):
- Ein angepasster ColBERT-Architektur wird verwendet, um den Kontext und die Pointe (Setup-Punchline-Beziehung) in langen Texten zu verstehen.
- Im Gegensatz zu Standard-ColBERT (5 Sätze) verarbeitet das Modell 10 Sätze plus den gesamten Text, um längere Szenen (30s–2min) besser zu erfassen.
- Ein spezielles Sampling-Verfahren behält die ersten zwei Sätze (Kontext) und die letzten zwei Sätze (Pointe) fest und wählt mittlere Sätze zufällig aus.
Safety-Guardrails: Ein Audio-Tagging-Modell (auf AudioSet trainiert) filtert unangemessenen Humor (z. B. Mobbing, Schreie, Notrufe) heraus, um die Nutzererfahrung zu schützen.

3. Humor-Scoring und Ranking

Ein heuristisches Scoring-System kombiniert vier normalisierte Merkmale:
1. Durchschnittliches Lachen ( $f_1$ ).
2. Dauer des Lachens über einem Schwellenwert ( $f_2$ ).
3. ColBERT Softmax-Score ( $f_3$ ).
4. Szenenlänge ( $f_4$ ).
Die Gewichtung erfolgt via Grid Search, um die besten Szenen für die Wiedergabe zu priorisieren.

Wesentliche Beiträge

End-to-End-Pipeline: Ein vollständig automatisiertes System zur Extraktion humorvoller Szenen aus langen Filmen.
Neuartige Szenensegmentierung: Eine multimodale Methode, die visuelle und textuelle Hinweise kombiniert und durch geleitetes Triplet Mining (unter Nutzung von MovieNet-SSeg) die Shot-Repräsentation verbessert.
Effizienter Shot-Encoder: Eine Kombination aus X-CLIP und DINO-Projektion, die mit minimalem Training (80k Triplets in 25 Epochen) effektive Repräsentationen lernt.
Angepasste Humor-Erkennung: Ein Audio-Text-Modell, das für lange Texte optimiert ist und einen Guardrail-Mechanismus zur Filterung von unangemessenem Inhalt integriert.
Heuristisches Ranking: Ein Scoring-System, das von Kuratoren validiert wurde und eine hohe Trefferquote liefert.

Ergebnisse

Die Pipeline wurde an fünf Spielfilmen und 11 Trailern evaluiert:

Szenenerkennung:
- Auf dem OVSD-Datensatz wurde eine Verbesserung von 18,3 % im Average Precision (AP) gegenüber dem State-of-the-Art erzielt.
- Die Genauigkeit der Szenenlokalisierung in Spielfilmen liegt bei 98 %.
Humor-Erkennung:
- Das Text-Modell erreicht auf dem MHD-Datensatz einen F1-Score von 0,834 und eine Genauigkeit von 0,728.
- 87 % der extrahierten Clips wurden von professionellen Kuratoren als beabsichtigt lustig eingestuft (bei Filmen), bei Trailern sogar 100 %.
- Die subjektive Bewertung („Ist der Clip lustig?") lag bei 74 % (Filme) und 88 % (Trailern).
Generalisierung: Das Modell generalisiert gut von Trainingsdaten (MovieNet) auf reale Streaming-Inhalte, auch ohne Audio oder mit nur wenigen Keyframes.

Bedeutung und Ausblick

Das System demonstriert, wie Deep Learning und multimodale Ansätze die Content-Erstellung für Streaming-Plattformen revolutionieren können. Es ermöglicht:

Automatisierte Vorschauen: Erzeugung von „Funny Previews" beim Hover über einen Titel.
Skalierbarkeit: Kosteneffiziente Extraktion von Inhalten über große Bibliotheken hinweg.
Sicherheit: Integration von Guardrails verhindert die Verbreitung von schädlichem Humor.

Herausforderungen und Zukunft:
Die Methode hat Schwierigkeiten mit sehr schnellen Schnitten in Trailern. Zukünftige Arbeiten zielen auf adaptive Fenstergrößen, verbesserte zeitliche Modellierung und die Erweiterung auf mehrsprachige Humor-Erkennung ab, da das aktuelle Text-Modell noch auf Englisch beschränkt ist. Zudem wird an einem lernbasierten Ranking-Modell gearbeitet, um kulturelle Unterschiede im Humor besser zu erfassen.