Exploring Vision-Language Models for Open-Vocabulary Zero-Shot Action Segmentation

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie schauen sich ein Video an – vielleicht jemand, der einen Kuchen backt. Ein herkömmlicher Computer sieht das Video und versucht, jede Sekunde zu beschreiben. Das Problem: Die meisten Computer sind wie Schüler, die nur eine sehr starre Liste von Antworten auswendig gelernt haben. Wenn der Schüler nur die Wörter „Mehl", „Eier" und „Backen" kennt, wird er verwirrt, wenn im Video plötzlich „Zimt" oder „Butter" vorkommt, oder wenn jemand den Kuchen in einer völlig neuen Art und Weise backt. Er kann nur das erkennen, wofür er explizit trainiert wurde.

Dieses Papier stellt eine neue Methode vor, die dieses Problem löst. Die Forscher nennen es OVTAS (Open-Vocabulary Temporal Action Segmentation). Hier ist eine einfache Erklärung, wie es funktioniert, mit ein paar kreativen Vergleichen:

1. Das Problem: Der starre Lehrer

Bisherige Methoden sind wie ein Lehrer, der nur eine feste Liste von 100 Wörtern kennt. Wenn ein Video eine neue Handlung zeigt (z. B. „Kuchen dekorieren" statt nur „Kuchen backen"), versagt der Lehrer. Er kann keine neuen Begriffe lernen, ohne das ganze System neu zu programmieren (was extrem teuer und aufwendig ist).

2. Die Lösung: Der neugierige Bibliothekar (Das Vision-Language Model)

Die Forscher nutzen stattdessen etwas, das sie Vision-Language Models (VLMs) nennen. Stellen Sie sich diese Modelle wie einen extrem gebildeten Bibliothekar vor, der nicht nur Bilder sieht, sondern auch Millionen von Büchern gelesen hat.

Wenn er ein Bild sieht, kann er sofort sagen: „Das sieht aus wie 'Kaffee einschenken'."
Das Tolle: Er muss dafür nicht extra für „Kaffee einschenken" trainiert werden. Er nutzt sein allgemeines Wissen über die Welt, um Bilder und Wörter zu verbinden.

3. Wie funktioniert die Methode? (Der Zwei-Schritte-Tanz)

Das neue System funktioniert in zwei Schritten, ähnlich wie wenn Sie einen Film in Szenen unterteilen wollen:

Schritt 1: Der schnelle Blick (FAES)
Der Computer schaut sich jeden einzelnen Frame (Bild) des Videos an und fragt den Bibliothekar: „Was siehst du hier?" und vergleicht es mit einer Liste von möglichen Aktionen (z. B. „Wasser kochen", „Tee aufgießen").

Das Problem: Der Bibliothekar ist manchmal etwas ungeduldig. Er sagt bei Bild 100: „Tee aufgießen", bei Bild 101: „Wasser kochen" und bei Bild 102 wieder „Tee aufgießen". Das ergibt keinen Sinn, denn in der Realität passiert das nicht so schnell hin und her. Die Vorhersagen sind chaotisch.

Schritt 2: Der Ordnungsmacher (SMTS)
Hier kommt der zweite Schritt ins Spiel. Stellen Sie sich vor, Sie haben eine lange Liste von chaotischen Notizen. Jetzt nehmen Sie einen klugen Editor, der die Liste glättet. Er sagt: „Moment, wenn du gerade Tee aufgießt, dann machst du das wahrscheinlich für ein paar Sekunden weiter, bevor du zur nächsten Handlung übergehst."
Dieser Editor nutzt eine mathematische Methode (Optimal Transport), um sicherzustellen, dass die Aktionen logisch aufeinander folgen und nicht wild hin und her springen. Er zwingt das System, eine konsistente Geschichte zu erzählen.

4. Warum ist das revolutionär?

Kein Training nötig: Sie müssen dem System nicht erst zeigen, wie man Tee macht. Sie geben ihm einfach die Liste der Wörter (z. B. „Tee kochen", „Zucker hinzufügen") und es versteht sofort, was gemeint ist, weil es diese Wörter bereits aus seinem allgemeinen Wissen kennt.
Offene Welt: Es funktioniert mit beliebigen Aktionen. Ob Sie einen neuen Tanz erfinden oder eine neue Kochtechnik entwickeln – solange Sie das Wort dafür kennen, kann das System es im Video erkennen.
Zeitliche Genauigkeit: Es teilt das Video nicht nur in grobe Blöcke, sondern findet genau den Moment, an dem eine Handlung aufhört und die nächste beginnt.

5. Was haben die Forscher herausgefunden?

Die Autoren haben 14 verschiedene „Bibliothekare" (verschiedene KI-Modelle) getestet.

Größe ist nicht alles: Überraschenderweise war der riesige, super-teure Bibliothekar nicht unbedingt der beste. Manchmal waren die etwas kleineren Modelle sogar genauer. Es kommt mehr auf die Art des Modells an als auf seine reine Größe.
Lange Videos sind schwer: Je länger ein Video ist, desto schwieriger wird es für das System, die Ordnung zu halten (wie bei einem sehr langen Roman, bei dem man den Faden leicht verliert).
Viele kleine Schritte: Wenn ein Video aus sehr vielen, sehr kurzen Handlungen besteht (wie beim Kochen, wo man schnell schneidet, rührt und gießt), wird es für das System schwieriger als bei langsamen Bewegungen.

Zusammenfassung

Stellen Sie sich OVTAS wie einen intelligenten Regisseur vor, der ein Video schaut. Er braucht keine Anleitung, welche Szenen es gibt. Er nutzt sein allgemeines Wissen über die Welt, um zu verstehen, was passiert, und sorgt dann dafür, dass die Szenen logisch und flüssig aufeinanderfolgen. Das macht es möglich, Videos in Echtzeit zu analysieren, ohne dass man für jede neue Aufgabe erst Monate lang Daten sammeln und trainieren muss.

Die Forscher haben ihren Code und die Daten veröffentlicht, damit andere Forscher diese „intelligenten Bibliothekare" weiter verbessern können. Es ist ein großer Schritt hin zu Computern, die Videos wirklich so verstehen wie Menschen: flexibel, offen für Neues und ohne starre Regeln.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Temporale Aktionssegmentierung (Temporal Action Segmentation, TAS) zielt darauf ab, Videos in sinnvolle Abschnitte zu unterteilen und jedem Frame ein Aktionslabel zuzuweisen. Bisherige Ansätze sind jedoch stark eingeschränkt:

Geschlossenes Vokabular: Modelle werden auf festen, vordefinierten Label-Sets trainiert und können keine neuen, im Trainingsset nicht enthaltenen Aktionen erkennen.
Datenmangel: Die Vielfalt menschlicher Aktivitäten ist riesig (verschiedene Zerlegungen, Domänen wie Chirurgie oder Küche). Das Erstellen annotierter Datensätze für alle denkbaren Aktionen ist unmöglich.
Fehlende Generalisierung: Bestehende Methoden skalieren schlecht auf unbekannte Domänen oder alternative Segmentierungen desselben Tasks.

Das Paper adressiert das bisher kaum erforschte Problem der Open-Vocabulary Zero-Shot Temporale Aktionssegmentierung (OVTAS). Ziel ist es, Videos ohne spezifisches Training (training-free) und ohne festes Label-Set zu segmentieren, indem nur eine Menge möglicher Aktionsbezeichnungen (Action Set) bekannt sein muss.

2. Methodik: Der OVTAS-Pipeline

Die Autoren schlagen einen training-freien, Zero-Shot-Ansatz vor, der auf den starken Fähigkeiten von Vision-Language Models (VLMs) wie CLIP oder SigLIP basiert. Der Ansatz folgt einem „Segmentation-by-Classification"-Design in zwei Stufen:

Stufe 1: Frame–Action Embedding Similarity (FAES)

Ziel: Berechnung der Ähnlichkeit zwischen Video-Frames und Text-Embeddings der Aktionslabels.
Prozess:
1. Prompting: Aktionslabels (z. B. „pour_coffee") werden in natürliche Sprachphrasen umgewandelt und vom Text-Encoder des VLMs kodiert.
2. Embedding: Video-Frames werden vom Vision-Encoder des VLMs in Vektoren umgewandelt.
3. Ähnlichkeitsmatrix: Eine Matrix $S$ wird berechnet, indem die Kosinus-Ähnlichkeit zwischen Frame-Embeddings ( $X$ ) und Aktions-Embeddings ( $A$ ) ermittelt wird ( $S = XA^\top$ ).
Problem: Die Frame-Level-Vorhersagen sind oft zeitlich inkonsistent, da sie unabhängig voneinander berechnet werden.

Stufe 2: Similarity-Matrix Temporal Segmentation (SMTS)

Ziel: Umwandlung der Ähnlichkeitsmatrix in eine zeitlich konsistente Sequenz von Labels.
Methode: Es wird ein Optimal-Transport-Decoder (ASOT) verwendet.
- Ein visueller Kostenvektor wird aus der Ähnlichkeitsmatrix abgeleitet.
- Ein temporaler Prior (Diagonalmatrix) erzwingt eine monotone Ausrichtung, um die zeitliche Kontinuität zu gewährleisten.
- Das Problem wird als entropie-regulierter Optimal-Transport gelöst (mittels Sinkhorn-Iterationen), um eine Kopplung $\Pi$ zu finden, die die Frame-Zuordnungen optimiert.
Vorteil: Dieser Schritt erzwingt zeitliche Konsistenz, ohne dass das Modell jemals auf TAS-Daten trainiert wurde.

3. Wichtige Beiträge

Pipeline-Design (OVTAS): Einführung eines zweistufigen Frameworks (FAES + SMTS), das ohne jegliches Fein-Tuning (fine-tuning) oder spezifisches Training auskommt und dennoch zeitlich konsistente Ergebnisse liefert.
Systematische VLM-Studie: Die Autoren evaluieren 14 verschiedene VLMs (aus den Familien SigLIP, CLIP, OpenCLIP und PECore) in verschiedenen Größen. Dies ist die erste umfassende Analyse, welche Modelle für Open-Vocabulary-Aktionssegmentierung geeignet sind.
Ressourcen-Freigabe: Um die Forschung zu erleichtern (da das Extrahieren von Features aus großen VLMs rechenintensiv ist), werden der Code sowie die vorab extrahierten Embeddings für alle 14 Modelle auf drei Datensätzen veröffentlicht.

4. Ergebnisse und Evaluation

Die Methode wurde auf drei Standard-Benchmarks getestet: Breakfast, 50 Salads und GTEA (Georgia Tech Egocentric Activities).

Leistung: OVTAS erzielt deutlich bessere Ergebnisse als Zero-Shot-Baselines (wie zufällige Zuweisung oder einfache „Equal-Splits"-Methoden).
- Auf dem Breakfast-Datensatz erreicht das beste Modell (SigLIP-M1) einen Durchschnittswert (über F1, Edit, Accuracy) von ca. 46,4 %.
- Auf GTEA (schwierigster Datensatz aufgrund egozentrischer Perspektive und feiner Granularität) liegt der Wert bei ca. 23,7 %, was dennoch signifikant über den Baselines liegt.
VLM-Familien-Vergleich: Die SigLIP-Familie zeigt konsistent die besten Ergebnisse, gefolgt von CLIP. OpenCLIP und PECore schneiden schlechter ab.
Einfluss der Modellgröße: Überraschenderweise führt eine Vergrößerung der Modellparameter (Scaling) nicht zu besseren Ergebnissen. Kleinere Modelle performten teilweise besser als riesige Modelle. Dies deutet darauf hin, dass reine Skalierung nicht ausreicht und Verbesserungen eher durch besseres Prompting oder Vorverarbeitung erzielt werden müssen.
Einfluss der Videolänge: Die Leistung nimmt mit zunehmender Videolänge ab, da längere Videos mehr zeitliche Variabilität und Fehlerfortpflanzung mit sich bringen.
Ablationsstudien: Das Entfernen von entweder der FAES-Stufe (Zufallszuordnung) oder der SMTS-Stufe (Frame-Level-Maximum) führt zu einem massiven Leistungsabfall, was die Notwendigkeit beider Komponenten unterstreicht.

5. Bedeutung und Ausblick

Das Paper demonstriert, dass Vision-Language Models das Potenzial haben, die Lücke im Bereich der offenen Vokabular-Aktionssegmentierung zu schließen.

Paradigmenwechsel: Es beweist, dass strukturiertes zeitliches Verständnis (Segmentierung) ohne spezifisches Training möglich ist, solange ein VLM genutzt wird.
Praktische Anwendung: Da keine annotierten Daten für den spezifischen Task benötigt werden, ist der Ansatz ideal für Domänen, in denen Daten knapp sind (z. B. Robotik, medizinische Eingriffe).
Zukünftige Richtungen: Die Autoren schlagen vor, die Leistung durch verbessertes Prompt-Engineering und Vorverarbeitung der Videoframes (z. B. Cropping) weiter zu steigern, da reine Modellskalierung nicht den gewünschten Effekt hatte.

Zusammenfassend etabliert OVTAS einen neuen State-of-the-Art für Zero-Shot-Aktionssegmentierung und liefert eine wichtige Grundlage für zukünftige Forschung im Bereich des offenen Vokabulars in der Videoanalyse.