Keeping the Evidence Chain: Semantic Evidence Allocation for Training-Free Token Pruning in Video Temporal Grounding

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen riesigen, ungeschnittenen Videofilm von zwei Stunden Länge. Jemand fragt Sie: „Wann genau läuft die Person zum Fenster, um hinauszusehen?"

Ihr Gehirn (oder in diesem Fall eine künstliche Intelligenz, ein sogenanntes „Video-Sprach-Modell") muss den Film Frame für Frame durchschauen, um die Antwort zu finden. Das Problem: Der Film besteht aus Tausenden von winzigen Bildteilen („Tokens"). Wenn die KI versucht, alle diese Teile gleichzeitig zu verarbeiten, wird sie überfordert, langsam und teuer – wie ein Bibliothekar, der versucht, jedes einzelne Buch in einer riesigen Bibliothek auf einmal zu lesen, nur um eine Seite zu finden.

Bisherige Methoden, um die KI zu beschleunigen, funktionieren wie ein grober Schere: Sie schneiden einfach die „langweiligen" Teile raus. Aber beim Video-Temporal-Grounding (also dem Finden von genauen Zeitpunkten) ist das fatal. Wenn Sie die Teile wegschneiden, die zeigen, wie die Person zum Fenster läuft, verliert die KI den Zusammenhang. Sie sieht vielleicht das Fenster, aber nicht den Weg dorthin.

Die Lösung: SemVID – Der intelligente Filmredakteur

Die Autoren dieses Papers haben eine neue Methode namens SemVID entwickelt. Statt einfach nur zu schneiden, agiert es wie ein kluger Filmredakteur, der weiß, was für die Geschichte wichtig ist. Sie nennen es „Keeping the Evidence Chain" (Die Beweiskette erhalten).

Stellen Sie sich den Videobeweis als eine Kette von Perlen vor. Wenn Sie zu viele Perlen entfernen, reißt die Kette und die Geschichte ist unvollständig. SemVID sorgt dafür, dass die Kette intakt bleibt, aber viel dünner wird.

Hier ist, wie SemVID das macht, mit drei einfachen Rollen:

1. Die „Objekt-Tokens" (Die Hauptdarsteller)

Stellen Sie sich vor, die KI sucht nach einem „roten Ball".

Das Problem: Wenn die KI nur die hellsten Stellen im Bild sucht, könnte sie 100 Mal denselben roten Ball in derselben Szene auswählen. Das ist Verschwendung.
Die SemVID-Lösung: Sie sucht nach dem roten Ball, aber sorgt dafür, dass sie auch andere wichtige Dinge sieht (z. B. die Hand, die den Ball hält). Sie nutzt eine Technik namens „MMR" (Maximal Marginal Relevance), die wie ein strenger Regisseur ist: „Wir brauchen den Ball, aber wir brauchen auch den Hintergrund, damit wir wissen, wo er ist." Sie verhindert, dass die KI sich nur auf das Gleiche starrt.

2. Die „Bewegungs-Tokens" (Die Brückenbauer)

Das ist der wichtigste Teil für Zeitangaben!

Das Problem: Wenn die Person zum Fenster läuft, passiert etwas zwischen dem Start und dem Ziel. Wenn Sie nur den Start und das Ziel sehen, aber nicht den Weg dazwischen, wissen Sie nicht, wann genau die Bewegung begann oder endete.
Die SemVID-Lösung: SemVID behält spezielle „Brücken-Perlen" bei. Das sind die Frames, in denen sich etwas verändert (z. B. die Person hebt den Fuß). Diese Frames sind wie die Verbindungsstücke in einer Kette. Ohne sie ist die Geschichte unterbrochen. SemVID sagt: „Wir müssen diese Übergänge sehen, sonst können wir den genauen Zeitpunkt nicht bestimmen."

3. Die „Kontext-Tokens" (Die Anker)

Das Problem: Wenn Sie zu viel schneiden, könnte das Bild plötzlich leer sein oder die KI vergisst, wo sie sich überhaupt befindet (z. B. ist es noch im selben Raum?).
Die SemVID-Lösung: Sie behält ein paar „Anker" bei – stabile Teile des Hintergrunds (wie eine Wand oder ein Tisch). Diese sorgen dafür, dass die KI nicht den Bezug zum Raum verliert, auch wenn sie viele andere Details wegschneidet.

Warum ist das so genial?

Stellen Sie sich vor, Sie wollen einen 2-Stunden-Film auf 10 Minuten komprimieren, aber die Handlung muss perfekt verständlich bleiben.

Alte Methoden: Schneiden einfach die Hälfte der Zeit heraus. Das Ergebnis ist ein zuckerschneller, aber unverständlicher Flickenteppich.
SemVID: Schaut sich den Film an und sagt: „Hier ist die wichtige Szene (Objekt), hier ist der Übergang (Bewegung), und hier ist der Ort (Kontext)." Es behält nur 12,5 % der ursprünglichen Informationen, aber behält 95 % der Genauigkeit bei.

Das Ergebnis:
Die KI wird nicht nur 5,8-mal schneller, sondern findet den gesuchten Moment im Video auch viel genauer als vorherige Methoden. Sie hat die „Beweiskette" nicht unterbrochen, sondern nur die überflüssigen Glieder entfernt.

Zusammengefasst:
SemVID ist wie ein sehr schlauer Assistent, der nicht blind schneidet, sondern versteht, warum wir den Film schauen. Er behält die Hauptdarsteller, die wichtigen Übergänge und den Ort der Handlung bei, damit die KI die Geschichte (und den genauen Zeitpunkt) perfekt erzählen kann – und das alles in einem Bruchteil der Zeit.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Video Temporal Grounding (VTG) zielt darauf ab, die Start- und Endzeitpunkte eines ereignisrelevanten Moments in einem langen, ungeschnittenen Video basierend auf einer sprachlichen Abfrage zu lokalisieren.

Herausforderung: Der Einsatz von Video-Sprachmodellen (VLMs) für VTG ist rechenintensiv, da Videos in tausende visuelle Token (Patches) zerlegt werden und der Attention-Kosten quadratisch mit der Sequenzlänge skaliert.
Limitierung bestehender Methoden: Bestehende, trainingsfreie Token-Pruning-Methoden (z. B. aus dem Bereich Video Question Answering - VideoQA) sind für VTG oft ungeeignet.
- VideoQA kann oft aus einem einzigen informativen Frame beantwortet werden.
- VTG hingegen erfordert temporale Kohärenz und grenzsensitive Beweise (Evidence). Es muss nicht nur das „Was", sondern auch das „Wann" und die Übergänge zwischen Zuständen erfasst werden.
- Naives Anwenden von VideoQA-Pruning führt zu einem drastischen Leistungsabfall, da kritische Token an Ereignisgrenzen oder für die überbrückende Verbindung zwischen Frames entfernt werden, was die „Beweiskette" (Evidence Chain) unterbricht.

2. Methodik: SemVID

Die Autoren schlagen SemVID vor, ein trainingsfreies Pruning-Framework, das speziell für VTG entwickelt wurde. Der Kernansatz basiert auf zwei VTG-spezifischen Prinzipien:

Evidence Retention (ER): Bewahrung von für die Abfrage kritischen Bildausschnitten, insbesondere um zeitliche Grenzen herum.
Connectivity Strength (CS): Erhaltung der Token-Level-Konnektivität über Frames hinweg, um eine langfristige Beweissammlung zu ermöglichen.

SemVID funktioniert in zwei Hauptphasen:

A. Frame-Level Budget Allocation (Zuteilung des Token-Budgets pro Frame)

Anstatt Token gleichmäßig oder rein nach Salienz zu verteilen, weist SemVID jedem Frame ein spezifisches Token-Budget zu, das zwei Ziele balanciert:

Evidence Localization: Frames mit hoher Relevanz zur Abfrage erhalten mehr Token.
Evidence Connectivity: Frames mit starken temporalen Veränderungen (Übergänge) erhalten ebenfalls mehr Token, um als Relais für die Beweiskette zu dienen.
Formel: Das Gewicht $w^{(t)}$ für Frame $t$ wird als gewichtete Summe aus Abfrage-Relevanz ( $s_{EL}$ ) und inter-frame Variation ( $s_{EC}$ ) berechnet. Ein Minimum an Token ( $k_{ctx}$ ) wird pro Frame garantiert, um leere Lücken zu vermeiden.

B. Role-Aware Semantic Token Selection (Rollenspezifische Token-Auswahl)

Innerhalb des zugewiesenen Budgets werden pro Frame drei Arten von Token ausgewählt:

Object Tokens (Objekt-Token):
- Ziel: Diversität bei abfrage-relevanten Beweisen.
- Methode: Verwendung von Maximal Marginal Relevance (MMR). Dies wählt Token basierend auf ihrer Ähnlichkeit zur Abfrage aus, bestraft aber redundante, sich ähnelnde Patches. So wird sichergestellt, dass verschiedene Aspekte des Ereignisses (z. B. verschiedene Teile eines Objekts) abgedeckt werden, ohne Duplikate.
Motion Tokens (Bewegungstoken):
- Ziel: Erfassung von Zustandsübergängen und Sicherung der Konnektivität.
- Methode: Identifikation von Regionen mit starker temporaler Feature-Änderung (Differenz zwischen aufeinanderfolgenden Frames), gefiltert nach Abfrage-Relevanz. Diese Token dienen als „Relais-Knoten", die die Beweiskette über Frames hinweg verbinden.
Context Tokens (Kontext-Token):
- Ziel: Aufrechterhaltung der Szenenkohärenz.
- Methode: Auswahl eines „Proto-Token" (repräsentativ für den Hintergrund) und weiterer salienter Token. Diese wirken als stabile Anker, um die Szene auch bei starkem Pruning interpretierbar zu halten.

3. Wichtige Beiträge

Identifikation von VTG-spezifischen Anforderungen: Die Autoren formalisieren, dass VTG-Pruning nicht nur Redundanz reduzieren, sondern die Beweiskette (Evidence Chain) erhalten muss. Sie führen zwei neue Metriken ein: Evidence Retention (ER) und Connectivity Strength (CS).
SemVID Framework: Ein plug-and-play, trainingsfreies System, das Budgets intelligent zuweist und Token nach semantischen Rollen (Objekt, Bewegung, Kontext) auswählt.
Effizienz ohne Trainingskosten: Das System benötigt keine zusätzlichen Trainingsdaten oder Feinabstimmung des VLMs und ist somit universell einsetzbar.

4. Ergebnisse

Die Methode wurde auf Benchmarks wie Charades-STA und ActivityNet-Grounding mit verschiedenen VLMs (Qwen3-VL, Qwen2.5-VL, LLaVA-OneVision) evaluiert.

Genauigkeit-Effizienz-Abwägung:
- SemVID behält bei nur 12,5 % der visuellen Token bis zu 95,4 % der ursprünglichen mIoU (mean Intersection over Union) bei.
- Im Vergleich zu State-of-the-Art-Methoden wie VisionZip (redundanzbasiert) und FastVID (salienz-basiert) übertrifft SemVID diese konsistent unter gleichen Budgets.
- Beispiel: Bei 12,5 % Token-Retention erreicht SemVID auf ActivityNet eine mIoU von 49,89 %, während VisionZip nur 36,83 % und FastVID 35,98 % erreicht.
Geschwindigkeit:
- SemVID beschleunigt die Prefill-Phase (bis zum ersten generierten Token) um den Faktor 5,8x.
- Es vermeidet den Speicherüberlauf (OOM), der bei anderen query-basierten Methoden in langen Videos auftritt, da es keine vollständigen Attention-Matrizen materialisieren muss.
Metriken ER und CS:
- SemVID erzielt die höchsten Werte für Evidence Retention und Connectivity Strength, was direkt mit der besseren VTG-Genauigkeit korreliert.

5. Bedeutung und Fazit

Das Paper demonstriert, dass das Pruning von Token für Video-Temporal-Grounding fundamental anders behandelt werden muss als für reine Video-QA.

Kerninsight: Die bloße Reduktion redundanter Informationen reicht nicht aus; es ist entscheidend, die topologische Struktur der Beweiskette über die Zeit hinweg zu erhalten.
Praktische Relevanz: SemVID ermöglicht den effizienten Einsatz von großen VLMs für lange Videos, ohne dass eine aufwändige Neukalibrierung des Modells nötig ist. Es bietet eine robuste Lösung, die sowohl die Präzision der Ereignisgrenzen als auch die Geschwindigkeit der Inferenz optimiert.
Zukunftsausblick: Die Arbeit legt den Grundstein für rollenbasierte Token-Verwaltung in multimodalen Systemen, die auf temporaler Reasoning angewiesen sind.

Zusammenfassend stellt SemVID einen wichtigen Schritt dar, um Video-Temporal-Grounding mit großen Sprachmodellen in der Praxis anwendbar und skalierbar zu machen, indem es die „Beweiskette" aktiv schützt, anstatt sie durch blindes Pruning zu zerstören.

Keeping the Evidence Chain: Semantic Evidence Allocation for Training-Free Token Pruning in Video Temporal Grounding

1. Die „Objekt-Tokens" (Die Hauptdarsteller)

2. Die „Bewegungs-Tokens" (Die Brückenbauer)

3. Die „Kontext-Tokens" (Die Anker)

Warum ist das so genial?

1. Problemstellung

2. Methodik: SemVID

A. Frame-Level Budget Allocation (Zuteilung des Token-Budgets pro Frame)

B. Role-Aware Semantic Token Selection (Rollenspezifische Token-Auswahl)

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes