Harvest Video Foundation Models via Efficient Post-Pretraining

Die vorgestellte Arbeit stellt einen effizienten Rahmen vor, der durch einfaches Zufalls-Dropping von Videopatches und Maskieren von Text während des Post-Pretrainings hochwertige Video-Sprach-Grundmodelle aus Bildmodellen ableitet und dabei mit weniger als einem Tag Training auf nur 8 GPUs sowie dem WebVid-10M-Datensatz State-of-the-Art-Ergebnisse auf verschiedenen Downstream-Aufgaben erzielt.

Yizhuo Li, Kunchang Li, Yinan He, Yi Wang, Yali Wang, Limin Wang, Yu Qiao, Ping Luo

Veröffentlicht 2026-03-17
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen extrem talentierten Koch, der darin Meister ist, einzelne Bilder zu beschreiben. Er kann ein Foto von einer Katze sehen und sofort sagen: „Das ist eine Katze, die auf einem Sofa sitzt." Dieser Koch ist bereits ein Weltklasse-Koch (ein sogenanntes „Image Foundation Model", ähnlich wie CLIP).

Jetzt willst du, dass dieser Koch auch Videos versteht. Ein Video ist aber nicht nur ein Bild, sondern eine ganze Serie von Bildern, die sich bewegen. Das Problem: Videos sind riesig, voller Wiederholungen (die Katze bewegt sich vielleicht nur ein bisschen zwischen den Bildern) und es gibt viel weniger hochwertige Texte dazu als bei Fotos. Einen neuen Koch von Grund auf für Videos auszubilden, wäre extrem teuer, langsam und ressourcenaufwendig.

Die Lösung der Forscher: „Ernte" den Videokenner aus dem Bildkoch.

Statt einen neuen Koch zu stellen, nehmen sie den bestehenden Bildkoch und geben ihm einen schnellen, cleveren „Nach-Schulungs-Kurs" (Post-Pretraining). Hier ist, wie sie das mit zwei einfachen Tricks machen, die wie ein Video-Training aussehen:

1. Der „Versteck-Spiel"-Trick für Bilder (Video Patch Dropping)

Stell dir vor, du schaut dir einen Film an, aber du hast eine Brille auf, die 90 % der Bilder ausblendet. Du siehst nur zufällige, kurze Schnipsel.

  • Warum machen sie das? Videos sind voller redundanter Informationen (die Katze sieht in Bild 1, 2 und 3 fast gleich aus). Indem sie 90 % der Bildinformationen einfach wegwerfen (nicht einmal reparieren, sondern ignorieren), müssen die Computer viel weniger rechnen.
  • Der Effekt: Der Koch muss sich auf das Wesentliche konzentrieren und lernt viel schneller. Es ist, als würde man jemandem einen Marathon nicht in einem vollen Stadion, sondern auf einer leeren Straße laufen lassen – er kommt viel schneller ans Ziel.

2. Der „Lückentext"-Trick für Sprache (Text Masking)

Jetzt nehmen sie die Beschreibung des Videos (den Text) und machen darin zufällig Wörter unlesbar, wie in einem Lückentext.

  • Die Aufgabe: Der Koch muss raten, welche Wörter dort stehen, basierend auf den wenigen Bildschnipseln, die er noch sieht.
  • Warum? Das zwingt den Koch, die Verbindung zwischen dem, was er sieht (die Bilder), und dem, was er liest (der Text), viel enger zu verknüpfen. Er lernt nicht nur, dass „Katze" und „Sofa" zusammengehören, sondern wie sie sich im Video verhalten.

Das Ergebnis: Ein Super-Koch in einem Tag

Das Tolle an dieser Methode ist die Geschwindigkeit und Effizienz:

  • Zeit: Während andere Teams wochenlang brauchen, um Videomodelle zu trainieren (oft mit hunderten von Grafikkarten), schafft dieses Team das in weniger als einem Tag mit nur 8 Grafikkarten.
  • Daten: Sie brauchen keine riesigen, teuren Datensätze, sondern kommen mit einer einzigen, gut sortierten Sammlung von 10 Millionen Videos aus (WebVid-10M).
  • Leistung: Trotz der Einfachheit ist der resultierende Koch so gut, dass er bei vielen Aufgaben (wie Videos durchsuchen, Fragen zu Videos beantworten oder Videos ohne weitere Anpassung erkennen) mit den besten, teuersten Modellen der Welt mithalten kann.

Warum ist das so wichtig?

Stell dir vor, bisher mussten alle, die ein Videomodell bauen wollten, ein riesiges Kraftwerk bauen. Diese Methode zeigt: Man kann das bestehende Kraftwerk (das Bildmodell) einfach mit einem cleveren Adapter nachrüsten.

  • Für kleine Forscher: Es macht die Technologie für kleine Labore zugänglich, die sich keine riesigen Rechenzentren leisten können.
  • Für die Umwelt: Weniger Rechenzeit bedeutet weniger Stromverbrauch und einen kleineren CO2-Fußabdruck.
  • Die Erkenntnis: Die Forscher merken dabei auch, dass unsere aktuellen Videodaten vielleicht gar nicht so „video-reich" sind, wie wir denken. Oft reicht es, die Bilder gut zu verstehen, weil die Texte zu den Videos manchmal zu kurz oder zu einfach sind.

Zusammenfassend: Die Autoren haben einen Weg gefunden, aus einem Bild-Experten einen Video-Experten zu machen, indem sie ihm sagen: „Ignoriere 90 % des Videos und fülle die Lücken im Text selbst." Das ist schnell, billig und funktioniert erstaunlich gut.