Track Anything Behind Everything: Zero-Shot Amodal Video Object Segmentation

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Was ist hinter dem Vorhang?

Stell dir vor, du schaust dir einen Film an. Ein Ball rollt über den Tisch und verschwindet hinter einer großen Vase. Was passiert mit dem Ball? Für unser menschliches Gehirn ist das keine Frage: Der Ball ist immer noch da, er rollt einfach weiter hinter der Vase. Wir können uns vorstellen, wie er aussieht, auch wenn wir ihn nicht sehen. Das nennen Psychologen „Objektpermanenz".

Computer haben damit jedoch große Schwierigkeiten. Wenn ein Objekt im Video verdeckt wird, geben viele KI-Modelle auf. Sie sagen im Grunde: „Ich sehe nichts, also ist nichts da." Das ist, als würde ein Kind denken, dass ein Spielzeug verschwindet, sobald man es in eine Schublade steckt.

Die neue Lösung: TABE – Der magische Detektiv

Die Forscher von der University of York haben eine neue Methode namens TABE (Track Anything Behind Everything) entwickelt. Man kann sich TABE wie einen magischen Detektiv vorstellen, der nicht nur das sieht, was direkt vor ihm liegt, sondern auch das, was verborgen ist.

Hier ist, wie TABE funktioniert, vereinfacht erklärt:

1. Der Startschuss: Einmal zeigen, immer kennen

Normalerweise müssen Computer erst lernen, wie ein Hund oder ein Auto aussieht, bevor sie sie verfolgen können. TABE ist anders. Es ist ein Zero-Shot-Verfahren. Das bedeutet: Du musst dem Computer nur ein einziges Mal zeigen, was du verfolgen willst (z. B. indem du mit dem Finger auf das erste Bild des Videos tippst). TABE merkt sich dieses Objekt sofort und ist bereit, es durch den ganzen Film zu verfolgen – egal, ob es ein Hund, ein Auto oder ein seltsames Alien ist.

2. Der Trick: Ausmalen statt nur Sehen

Wenn das Objekt hinter etwas anderem verschwindet, nutzt TABE eine Technik namens „Generatives Ausmalen" (Outpainting).
Stell dir vor, du hast ein Puzzle, bei dem ein Teil fehlt. Ein normaler Computer würde raten oder das Puzzle abbrechen. TABE hingegen nutzt einen künstlichen Künstler (ein sogenanntes Diffusions-Modell), der den fehlenden Teil des Puzzles erfindet.

Aber wie weiß der Künstler, was er malen soll?

Der Kontext: TABE schaut sich an, wie sich das Objekt bewegt hat, bevor es verschwand.
Die Tiefe: TABE nutzt eine Art „Tiefen-Scanner", um zu verstehen, was vorne ist (die Vase) und was hinten ist (der Ball).
Der Trick: TABE malt nicht einfach wild drauflos. Es malt den Ball auf einen reinen weißen Hintergrund. So weiß es genau, wo der Ball ist, ohne sich von der Vase verwirren zu lassen.

3. Der Feinschliff: Lernen während der Show

Das ist der geniale Teil: TABE lernt nicht im Voraus für alle möglichen Objekte. Stattdessen lernt es während der Show (während des Videos) speziell für dieses eine Objekt.
Stell dir vor, du hast einen Maler, der noch nie einen Hund gesehen hat. Du zeigst ihm einen Hund im Video. Während das Video läuft, sagt TABE dem Maler: „Achte genau auf die Ohren und den Schwanz dieses Hundes." Der Maler passt sich sofort an und wird zum Experten für diesen einen Hund. Selbst wenn der Hund komplett hinter einem Baum verschwindet, weiß der Maler genau, wie er weiterläuft, weil er sich die Details gemerkt hat.

Warum ist das so wichtig?

Bisherige Methoden waren wie ein Kind, das nur das sieht, was direkt vor der Nase ist. Wenn das Kind den Ball nicht sieht, denkt es, er sei weg. TABE hingegen hat die menschliche Intuition. Es versteht, dass Dinge weiter existieren, auch wenn sie verdeckt sind.

Das ist extrem nützlich für:

Autonomes Fahren: Ein Auto muss wissen, dass ein Fußgänger hinter einem LKW weitergeht, auch wenn es ihn gerade nicht sieht, um nicht plötzlich zu bremsen oder zu kollidieren.
Roboter: Ein Roboterarm, der etwas greift, muss wissen, wo das Objekt ist, auch wenn er selbst es gerade verdeckt.
Sicherheit: Kameras, die Personen verfolgen, auch wenn sie sich hinter anderen Menschen verstecken.

Zusammenfassung in einem Satz

TABE ist wie ein magischer Filmprojektor, der nicht nur das zeigt, was sichtbar ist, sondern die unsichtbaren Teile eines Objekts clever rekonstruiert, indem er während des Films lernt, wie genau dieses Objekt aussieht und sich bewegt.

Die Forscher hoffen, dass diese Technik dazu führt, dass Computer die Welt so verstehen, wie wir Menschen sie sehen: mit allen verborgenen Details.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Papier adressiert die Herausforderung der amodalen Video-Objektsegmentierung. Im Gegensatz zur modalen Segmentierung, die nur die sichtbaren Teile eines Objekts maskiert, zielt die amodale Segmentierung darauf ab, die gesamte Form und Position eines Objekts zu rekonstruieren, auch wenn es teilweise oder vollständig durch andere Objekte verdeckt (okkludiert) ist.

Die Hauptprobleme im aktuellen Stand der Technik sind:

Mangel an Trainingsdaten: Die Beschaffung von Ground-Truth-Daten für verdeckte Bereiche in der realen Welt ist extrem schwierig und ressourcenintensiv.
Fehlende Null-Shot-Fähigkeit: Bestehende Methoden erfordern oft vorab trainierte Klassenlabels oder spezifische Trainingsdaten für die zu verfolgenden Objekte. Sie können nicht flexibel auf neue, unbekannte Objekte angewendet werden.
Unsicherheit bei Verdeckung: Modelle haben Schwierigkeiten, die Kontinuität und Deformation von Objekten vorherzusagen, wenn diese vollständig verdeckt sind, da menschliche Wahrnehmung hier oft auf Kontext und Bewegung basiert, was für ML-Modelle schwer zu lernen ist.

2. Methodik: Der TABE-Pipeline-Ansatz

Die Autoren schlagen TABE (Track Anything Behind Everything) vor, eine Pipeline für die Zero-Shot amodale Video-Objektsegmentierung. Der Kernansatz besteht darin, das Problem der amodalen Vervollständigung als generatives „Outpainting" (Erweiterung) von sichtbaren Masken zu formulieren, unter Verwendung eines vortrainierten Videodiffusionsmodells.

Der Ablauf gliedert sich in folgende Schritte:

A. Eingabe und Initiale Maskierung

Eingabe: Ein Video und eine Abfrage (z. B. Klicks oder Text) im ersten Frame, in dem das Objekt vollständig sichtbar ist.
Query-Mask: Ein Zero-Shot-Segmentierungsmodell (z. B. SAM2) generiert eine binäre Abfrage-Mask ( $m_q$ ) für das Objekt im ersten Frame.
Sichtbare Masken: Für alle folgenden Frames wird eine sichtbare Mask ( $m_{vis}$ ) berechnet. Wenn das Objekt verdeckt ist, kann diese Maske leer sein.

B. Zielregion-Masken (Target Region Masks)

Um den Suchraum für die Generierung einzuschränken und Halluzinationen (z. B. das Erscheinen zusätzlicher Objekte) zu vermeiden, wird pro Frame eine Zielregion-Maske erstellt. Diese kombiniert zwei Hinweise:

Monodepth-Schätzung: Mit Depth Anything v2 wird eine Tiefenkarte erstellt. Pixel, die eine geringere Tiefe haben als der Durchschnitt der sichtbaren Objektpixel, werden als Kandidaten für die Vervollständigung betrachtet (da das Objekt hinter einem näheren Objekt liegen könnte).
Amodaler Bounding Box: Basierend auf zeitlicher Kontinuität wird eine Bounding Box geschätzt. Bei Verdeckung wird die Box durch lineare Interpolation oder Extrapolation fortgeführt, wobei die Fläche konstant gehalten wird, um Verdeckungen zu simulieren.

C. Okklusions-Labeling

Bevor das Diffusionsmodell trainiert wird, wird für jeden Frame bestimmt, ob er verdeckt ist oder nicht. Dies geschieht durch Analyse der Tiefenkarte an den Rändern der sichtbaren Maske:

Wenn die Tiefe außerhalb der Maske größer ist als innerhalb, ist es wahrscheinlich die wahre Objektkante.
Wenn die Tiefe außerhalb kleiner ist, liegt eine Okklusion vor.
Ein Maß $f_{occ}$ berechnet den Anteil der Grenze, der als Okklusionsgrenze gilt. Frames werden basierend auf diesem Schwellenwert als „verdeckt" oder „unverdeckt" gelabelt.

D. Test-Time Fine-Tuning des Diffusionsmodells

Anstatt das Diffusionsmodell neu zu trainieren, wird es während des Inferenzlaufs (Test-Time) an das spezifische Objekt angepasst.

Basis-Modell: Ein vortrainiertes Videodiffusionsmodell (CoCoCo), das auf Stable Diffusion Inpainting basiert und ein temporales UNet für konsistente Bewegung nutzt.
Fine-Tuning-Strategie: Ähnlich wie bei Realfill und Dreambooth wird Low-Rank Adaptation (LoRA) verwendet, um das Modell mit wenigen Bildern des Zielobjekts zu spezialisieren.
Trainingsdaten-Erzeugung:
- Das sichtbare Objekt wird isoliert, der Rest des Bildes wird weiß gefüllt.
- Es werden zufällige binäre Masken generiert: Einige verdecken Teile des Objekts (um die amodale Vervollständigung zu lernen), andere verdecken Bereiche außerhalb des Objekts (um einen konsistenten weißen Hintergrund zu lernen).
Verlustfunktion: Der Loss wird nur für Frames berechnet, die als „unverdeckt" gelabelt wurden ( $V_i = 1$ ), um Rauschen durch unsichere verdeckte Bereiche zu vermeiden.
Generierung: Das feinabgestimmte Modell generiert ein Video des Objekts auf weißem Hintergrund, das die verdeckten Teile rekonstruiert (Outpainting).

E. Finale Segmentierung

Die generierten Frames (Objekt auf weißem Hintergrund) werden erneut durch das VOS-Modell (SAM2) geführt, um die endgültige, saubere amodale Maske zu extrahieren.

3. Hauptbeiträge

TABE-Pipeline: Ein neuartiger Ansatz für Zero-Shot amodale Video-Segmentierung, der keine vorab definierten Klassen benötigt und nur eine einzige Abfrage-Maske im ersten Frame erfordert.
Generative Outpainting: Die Umformulierung der amodalen Vervollständigung als generatives Problem mittels Videodiffusion, was eine flexible Handhabung von Verdeckungen ermöglicht.
Test-Time Fine-Tuning: Eine Methode, um ein generisches Diffusionsmodell schnell an ein spezifisches Objekt anzupassen, ohne das gesamte Modell neu zu trainieren, unter Verwendung von LoRA und zufälligen Okklusionsmasken.
Robuste Okklusionsbehandlung: Die Einführung von Zielregion-Masken und einem dynamischen Okklusions-Labeling, um die Generierung auf den relevanten Bereich zu beschränken und das Training auf verlässlichen Daten zu basieren.

4. Ergebnisse

Die Methode wurde auf dem TAO-Amodal-Datensatz evaluiert, wobei ein Benchmark-Subset erstellt wurde, bei dem das Objekt im ersten Frame vollständig sichtbar ist.

Vergleich: TABE wurde gegen State-of-the-Art-Methoden wie pix2gestalt, TCOW, SDAmodal und Amodal Expander verglichen.
Performance: TABE übertrifft alle Baselines signifikant.
- Bei AP@25 erreichte TABE 0,659 (im Vergleich zu 0,417 für den zweitbesten Amodal Expander).
- Bei AP@50 erreichte TABE 0,518 (im Vergleich zu 0,356).
- Bei AP@75 erreichte TABE 0,352 (im Vergleich zu 0,283).
Interessante Beobachtung: Selbst das reine modale Segmentierungsmodell SAM2 (ohne amodale Fähigkeiten) schnitt in einigen Metriken besser ab als TCOW, was zeigt, dass bestehende amodale Methoden oft nur die sichtbaren Teile gut verfolgen und bei der eigentlichen Vervollständigung versagen. TABE schließt diese Lücke effektiv.

5. Bedeutung und Fazit

Die Arbeit ist bedeutend, da sie die Lücke zwischen menschlicher Objektdauerhaftigkeit (Object Permanence) und maschineller Wahrnehmung schließt.

Flexibilität: Durch den Zero-Shot-Ansatz kann das System beliebige Objekte verfolgen, ohne dass diese im Training gesehen wurden.
Robustheit: Die Fähigkeit, Objekte auch bei vollständiger Verdeckung zu verfolgen, ist entscheidend für Anwendungen wie autonomes Fahren, Robotik und Überwachung.
Innovation: Die Kombination aus Diffusionsmodellen, Test-Time Fine-Tuning und geometrischen Constraints (Tiefe, Bounding Box) bietet einen neuen Weg, um generative Modelle für präzise geometrische Aufgaben wie die Segmentierung nutzbar zu machen.

Die Autoren betonen, dass ihre Methode und der Code öffentlich verfügbar sein werden, was die Weiterentwicklung im Bereich der amodalen Segmentierung fördern soll.